Quand les agents IA réécrivent leurs propres règles : promesse d’efficacité, risque de dérive

Deux signaux faibles deviennent un signal fort

L’auto-amélioration des agents IA n’est plus seulement une hypothèse de laboratoire. Deux exemples récents, très différents, montrent que l’on passe d’agents qui exécutent un plan figé à des systèmes capables de modifier leur propre environnement de travail, leur échafaudage logiciel, leurs évaluations ou leurs consignes opérationnelles pendant une mission ou entre deux itérations.

Le premier exemple vient de la recherche. Sur arXiv, le preprint CyberEvolver: Structured Self-Evolution for Cybersecurity Agents On the Fly, signé par Yihe Fan, Changyi Li, Lichen Xu, Xudong Pan, Jiarun Dai, Hong Geng et Min Yang, décrit un agent de cybersécurité qui révise son propre scaffold après des tentatives ratées. Les auteurs affirment que CyberEvolver améliore en moyenne de 13,6 % le taux de succès d’un agent initial sur des tâches de type CTF, exploitation de vulnérabilités et tests d’intrusion, en s’appuyant sur quatre couches évolutives, une conversion des traces d’exécution en diagnostics et une recherche par faisceau avec population de variantes.

Le second exemple vient de la production. OpenAI explique, dans Building self-improving tax agents with Codex, comment ses équipes, celles de Thrive Holdings et les comptables du réseau Crete ont construit Tax AI, un agent fiscal assisté par Codex. Le système aurait traité 7 000 déclarations pendant la saison fiscale, automatisé une partie de la préparation de formulaires 1040 et 1041, atteint jusqu’à 97 % de précision sur certains brouillons et fait passer, selon OpenAI, la proportion de déclarations atteignant 75 % de complétion correcte de 25 % au lancement à 86 % en six semaines.

Ces deux sources ne se valent pas et doivent être lues avec prudence. CyberEvolver est un preprint : il n’a pas encore été évalué par les pairs. L’article d’OpenAI est une annonce d’entreprise : il documente un cas réel, mais ne constitue pas une validation indépendante. Leur intérêt commun est ailleurs : ils montrent le même basculement architectural. L’agent ne se contente plus de produire une réponse. Il observe ses échecs, transforme ces échecs en signaux structurés, puis modifie une partie de son propre système de travail.

Ce que veut dire auto-amélioration ici

Il faut éviter le contresens. On ne parle pas nécessairement d’un modèle qui réentraîne seul ses poids neuronaux ou d’une IA qui devient magiquement plus intelligente à chaque cycle. Dans ces deux cas, l’auto-amélioration se situe surtout autour du modèle : prompts, règles d’orchestration, schémas d’extraction, outils disponibles, tests, évaluations, documentation interne, fichiers de consignes, mappers ou code applicatif.

C’est précisément ce que le mot scaffold désigne dans ce contexte : l’échafaudage qui permet à un grand modèle de langage de devenir un agent utile. Il comprend la mémoire, les outils, les procédures, les accès, les contraintes, les tests et parfois des fichiers comme AGENTS.md qui indiquent comment travailler dans un dépôt logiciel.

Dans CyberEvolver, l’agent de cybersécurité apprend de tentatives échouées. Un log bruité, une commande inefficace ou une exploitation manquée ne sont pas seulement des traces archivées : le système tente de les transformer en diagnostic exploitable, puis en modification de son mode opératoire. L’idée est séduisante dans un domaine comme la cybersécurité, où deux cibles rarement identiques produisent des erreurs différentes et où un scaffold conçu à la main peut vite devenir trop rigide.

Dans Tax AI, la boucle est plus industrielle. Les corrections des comptables deviennent des signaux. Les traces de production relient les documents sources, les champs extraits, les citations, les correspondances vers le moteur fiscal et les valeurs finalement déposées. Les erreurs répétées sont regroupées, transformées en cibles d’évaluation, puis en tâches bornées confiées à Codex. OpenAI insiste sur un point important : les corrections humaines ne deviennent pas automatiquement du code modifié. Elles sont d’abord interprétées, filtrées et transformées en problèmes circonscrits.

Pourquoi cela arrive maintenant

Cette évolution est la conséquence logique de trois tendances. D’abord, les modèles de langage sont devenus assez compétents pour lire du code, interpréter des logs, proposer des correctifs et manipuler des outils. Ensuite, les entreprises ont compris que la valeur d’un agent ne réside pas seulement dans le modèle, mais dans la qualité de son environnement : données, évaluations, permissions, observabilité et intégration aux flux métier. Enfin, les coûts de l’itération humaine deviennent un goulot d’étranglement. Si chaque erreur de production doit être analysée manuellement par une équipe d’ingénierie, l’agent ne progresse pas à la vitesse promise.

OpenAI le dit explicitement dans son billet sur l’ingénierie de harness : le rôle de l’ingénieur se déplace de l’écriture directe de code vers la conception d’environnements, de contraintes et de boucles de rétroaction. Dans le cas fiscal, le comptable ne disparaît pas ; il devient une source de vérité métier. Dans le cas de CyberEvolver, l’environnement d’exécution devient le professeur : l’échec d’exploitation ou de test d’intrusion fournit le signal d’apprentissage.

Ce mouvement rappelle l’histoire du DevOps et du MLOps : plus les systèmes changent vite, plus il faut automatiser les tests, les déploiements, les retours arrière et la surveillance. Mais les agents IA ajoutent une différence cruciale : ils ne modifient pas seulement du code déterministe. Ils modifient parfois les instructions et les conditions qui influenceront leurs propres décisions futures.

Le danger : l’agent qui optimise la mauvaise chose

Le premier risque est celui de la dérive d’objectif. Un agent qui optimise une métrique peut apprendre à satisfaire le test plutôt que l’intention. Dans un système fiscal, un correctif peut améliorer un score d’extraction tout en dégradant un cas rare mais réglementairement important. En cybersécurité, un agent peut apprendre une stratégie qui fonctionne dans un banc d’essai mais qui serait dangereuse, bruyante ou illégitime dans un environnement réel.

Le deuxième risque est l’accumulation d’erreurs. CyberEvolver reconnaît lui-même le problème : des mises à jour peu diversifiées peuvent amplifier les erreurs au fil des itérations. Autrement dit, l’auto-amélioration peut devenir auto-dégradation si le système interprète mal les causes de ses échecs. Une mauvaise hypothèse, intégrée au scaffold, peut contaminer les cycles suivants.

Le troisième risque est l’attaque du canal de rétroaction. Les agences cyber australiennes, canadiennes, néo-zélandaises, britanniques et américaines, dans le guide Careful Adoption of Agentic AI Services publié sur cyber.gov.au, insistent sur les risques structurels des agents : injection de prompt, outils tiers compromis, propagation d’erreurs entre agents, privilèges excessifs, opacité des chaînes de décision et difficulté d’audit. Un agent auto-améliorant ajoute une surface supplémentaire : si l’attaquant influence les traces, les évaluations ou les documents que l’agent utilise pour se corriger, il peut tenter de modifier le comportement futur du système.

C’est particulièrement préoccupant pour les agents outillés. Microsoft, dans sa documentation sur la réduction du risque des systèmes agentiques autonomes, met en avant le principe du moindre privilège, les contrôles déterministes et les limites explicites de tâche. OpenAI, de son côté, souligne dans ses pages sur Codex et la sécurité l’importance du sandboxing, de la limitation réseau et de la séparation entre contexte lisible et surfaces modifiables. Ces mesures ne sont pas accessoires : elles deviennent le pare-chocs minimal d’un agent qui peut écrire du code ou modifier son environnement.

Les limites pratiques : l’autonomie reste très encadrée

Les deux cas montrent aussi que l’auto-amélioration efficace n’est pas un lâcher-prise. Tax AI fonctionne parce que le domaine est borné, les traces sont structurées, les évaluations sont ciblées et les humains gardent la responsabilité des décisions métier, de l’architecture et de la mise en production. Le billet d’OpenAI précise que le contexte de production est en lecture seule et que la zone modifiable est séparée. C’est moins une IA libre qu’un atelier très contrôlé où Codex peut inspecter, tester et proposer.

CyberEvolver, lui, reste un résultat de recherche. Ses gains doivent être reproduits, comparés à d’autres agents, testés sur davantage d’environnements et examinés sous l’angle du double usage. Un agent qui devient meilleur en exploitation de vulnérabilités peut aider les défenseurs, mais la même capacité peut intéresser des acteurs offensifs. Le contexte CTF ou laboratoire ne règle pas la question du déploiement opérationnel.

Le National Institute of Standards and Technology, avec l’AI Risk Management Framework et son initiative sur les standards des agents IA, pousse déjà les organisations vers des notions de gouvernance, mesure, surveillance et gestion du risque. Le National Cyber Security Centre britannique rappelle aussi que l’injection de prompt ne doit pas être pensée comme une simple SQL injection réparable par un correctif unique : les systèmes de langage restent intrinsèquement confusables et doivent être conçus pour réduire l’impact, pas seulement pour prétendre éliminer le risque.

Ce que cela annonce pour les entreprises

La prochaine bataille ne portera pas seulement sur le meilleur modèle, mais sur le meilleur système d’encadrement. Les entreprises qui déploient des agents auto-améliorants devront savoir répondre à des questions très concrètes : qui a autorisé la modification ? Quel test l’a validée ? Quel agent l’a proposée ? Quelle donnée de production a servi de signal ? Peut-on revenir en arrière ? Les secrets, les identifiants et les documents sensibles étaient-ils accessibles ? Les logs permettent-ils de reconstruire la chaîne de décision ?

On verra probablement émerger une discipline proche de l’AgentOps : identité propre des agents, permissions courtes et révocables, registres d’actions, politiques de changement, environnements jetables, surveillance comportementale, évaluations adversariales continues et seuils d’escalade humaine. Les sources comme OWASP, Microsoft, le NIST et les agences Five Eyes convergent déjà vers une même idée : l’agent autonome doit être traité comme un acteur privilégié dans le système d’information, pas comme une simple interface de clavardage.

Une puissance utile, à condition de rester réversible

L’auto-amélioration des agents IA est l’une des idées les plus productives du moment, parce qu’elle transforme l’usage réel en moteur d’amélioration. Dans la fiscalité, elle peut réduire la saisie manuelle et faire remonter les cas limites. En cybersécurité, elle peut rendre les agents plus adaptatifs face à des environnements imprévisibles.

Mais la leçon commune de CyberEvolver et de Tax AI n’est pas que les agents doivent s’autoréguler sans contrainte. C’est l’inverse : plus un agent peut modifier son propre scaffold, plus il faut rendre ses changements observables, limités, testables et réversibles. L’IA qui apprend de ses erreurs est puissante. L’IA qui réécrit ses règles sans garde-fous devient, elle, une nouvelle forme de dette technique et de risque systémique.