ChatGPT devient une surface d’attaque : de ChatGPhish aux campagnes GREYVIBE

Deux alertes, un même basculement

Deux publications de sécurité parues à la fin mai 2026 racontent, ensemble, une évolution préoccupante : ChatGPT n’est plus seulement un service que les attaquants tentent d’abuser à distance ou une marque imitée dans des courriels frauduleux. Il devient aussi une interface de confiance que l’on peut instrumentaliser, et un accélérateur de campagne pour des groupes offensifs réels.

La première alerte vient de Permiso Security, reprise par The Hacker News et The Register. Le chercheur Andi Ahmeti a documenté une technique baptisée ChatGPhish, qui exploite la manière dont l’interface web de ChatGPT rend les liens et images Markdown lorsqu’un utilisateur lui demande de résumer une page web. La seconde provient de WithSecure, également couverte par The Register : un groupe suivi sous le nom GREYVIBE, lié à des intérêts russes et actif contre des cibles ukrainiennes, aurait intégré des outils comme ChatGPT, Gemini et Ideogram AI dans plusieurs étapes de ses opérations.

Ces deux dossiers ne décrivent pas la même attaque. Rien n’indique que GREYVIBE exploite ChatGPhish. Mais ils convergent vers la même conclusion : les grands assistants d’IA sont désormais à la fois des cibles, des canaux d’attaque et des multiplicateurs de productivité offensive.

ChatGPhish : quand une page web devient l’appât

ChatGPhish repose sur une faiblesse classique des systèmes d’IA connectés au web : l’injection indirecte de prompt. L’utilisateur ne demande pas au modèle de faire quelque chose de dangereux. Il lui demande simplement de résumer une page. Mais si cette page contient des instructions cachées ou formulées comme des consignes destinées au modèle, l’assistant peut les intégrer à sa réponse.

Le point sensible, selon Permiso Security, n’est pas seulement que le modèle puisse être influencé. C’est que le résultat est ensuite présenté dans l’interface de ChatGPT comme une réponse de l’assistant. Des liens Markdown deviennent cliquables. Des images distantes peuvent être chargées. Un faux avis de sécurité peut prendre la forme d’un bloc de texte crédible. Un code QR peut apparaître dans la réponse et pousser l’utilisateur à basculer vers son téléphone, hors des protections de son navigateur d’entreprise.

Dans les scénarios décrits, l’attaquant n’a pas besoin d’envoyer une pièce jointe piégée. Il lui suffit de contrôler ou d’empoisonner une page que la victime consultera puis résumera avec ChatGPT. Cela peut être un dépôt de code, une page de documentation, un billet de blogue, une page marketing ou même un portail interne compromis. Le navigateur devient le point d’entrée et ChatGPT devient la surface de rendu du leurre.

The Register rapporte que Permiso a soumis le problème à OpenAI via Bugcrowd le 29 avril 2026, puis a renvoyé des détails supplémentaires le 1er mai. Permiso indique que le signalement a d’abord été considéré comme non reproductible, puis comme doublon. Au moment de la publication de l’analyse le 29 mai, Permiso et The Register disaient ne pas avoir reçu de confirmation publique claire d’un correctif. Il faut donc traiter cette information avec prudence : il s’agit d’une recherche de vulnérabilité publiée par une entreprise de sécurité, recoupée par deux médias spécialisés, mais pas d’un avis officiel d’OpenAI confirmant l’état de correction.

Un problème plus profond que le Markdown

Le Markdown n’est ici que le symptôme visible. Le problème fondamental est la frontière de confiance. Dans une application web traditionnelle, les développeurs apprennent à séparer strictement les données non fiables et le code exécutable. Dans un système fondé sur un grand modèle de langage, cette séparation est beaucoup moins nette : texte utilisateur, contenu web, instructions système et contexte récupéré finissent tous transformés en séquences de tokens que le modèle doit interpréter.

Ce constat n’est pas nouveau. Dès 2023, l’article universitaire « Not what you’ve signed up for » décrivait l’injection indirecte de prompt dans des applications intégrées à des LLM : un contenu externe, par exemple une page web ou un courriel, peut manipuler le comportement d’un assistant qui le lit. L’OWASP classe d’ailleurs l’injection de prompt comme le premier risque de son Top 10 des applications LLM 2025. Le NIST, dans son profil sur les risques de l’IA générative, cite également ce type de manipulation parmi les risques de cybersécurité à gérer.

Le NCSC britannique va plus loin : il avertit qu’il est trompeur de comparer trop directement l’injection de prompt à l’injection SQL. Dans SQL, la défense consiste à séparer proprement instructions et données. Dans un LLM, cette frontière n’existe pas de manière intrinsèque. La stratégie réaliste n’est donc pas de chercher un correctif magique, mais de limiter les conséquences : séparation visuelle stricte des sources, désactivation du rendu automatique des contenus non fiables, blocage des images distantes, étiquetage d’origine, politiques de navigation contrôlées et confirmation explicite avant toute action sensible.

GREYVIBE : l’IA dans toute la chaîne offensive

Le second signal est opérationnel. WithSecure décrit GREYVIBE comme un groupe actif contre l’Ukraine et des entités liées à l’Ukraine depuis au moins août 2025. Le rapport mentionne des cibles militaires, gouvernementales, civiles et commerciales, et des vecteurs comme des courriels de spear-phishing, de fausses pages CAPTCHA de type ClickFix et de faux sites ukrainiens à thématique adulte.

L’intérêt du dossier n’est pas seulement l’attribution russe. WithSecure reste nuancé : les opérations s’alignent avec des intérêts de renseignement russes, les opérateurs semblent russophones et travailler dans le fuseau de Moscou, mais plusieurs indices évoquent aussi une proximité avec l’écosystème cybercriminel. Autrement dit, GREYVIBE ne ressemble pas nécessairement à une unité étatique parfaitement disciplinée. C’est peut-être justement ce qui rend le cas important : l’IA permet à des acteurs de sophistication faible à moyenne de produire des campagnes plus variées, plus rapides et plus crédibles.

WithSecure affirme avoir trouvé des indices forts d’utilisation systématique de l’IA générative dans le développement de leurres, la création de sites, la génération d’images, la mise en place d’infrastructure, l’obfuscation, les chargeurs, les malwares et même les commandes post-compromission. Le rapport cite notamment PhantomRelay, FallSpy et LegionRelay, ainsi que des obfuscateurs comme DAYLIGHT ou TEASOUP. SentinelOne avait déjà documenté en octobre 2025 une campagne PhantomCaptcha visant des organisations liées à l’aide à l’Ukraine, avec de fausses pages Cloudflare et un RAT PowerShell basé sur WebSocket ; WithSecure relie certains recoupements de cette activité à l’écosystème observé autour de GREYVIBE.

La leçon est claire : l’IA n’a pas transformé GREYVIBE en groupe d’élite. Elle lui a permis de combler des lacunes, de générer plus vite des composants, de varier ses traces techniques et de rendre l’attribution plus bruyante.

OpenAI, Google et la normalisation de l’abus offensif

OpenAI publie depuis 2024 des rapports sur les usages malveillants de ses modèles. Dans ses bilans, l’entreprise insiste souvent sur le fait que les acteurs observés ajoutent l’IA à des méthodes existantes plutôt que d’obtenir des capacités totalement nouvelles. Cette position reste utile, mais elle doit être réévaluée à mesure que l’intégration devient plus profonde.

Le rapport 2026 de Google Threat Intelligence Group montre que les adversaires passent de l’expérimentation à des usages plus industriels : découverte de vulnérabilités, développement d’exploits, obfuscation, opérations autonomes, fraude d’accès aux modèles et attaques de chaîne d’approvisionnement liées aux composants d’IA. Google affirme même avoir observé un cas de vulnérabilité zero-day vraisemblablement développée avec l’aide d’un modèle d’IA, avant une tentative d’exploitation massive.

Mis ensemble, ces éléments dessinent une courbe : d’abord l’IA écrit des textes de phishing mieux rédigés ; ensuite elle aide à coder des scripts ; puis elle s’intègre à l’infrastructure, aux malwares, aux agents et aux interfaces de confiance. ChatGPhish et GREYVIBE appartiennent à cette troisième phase.

Ce que les entreprises doivent changer

Pour les organisations, la réponse ne peut pas se limiter à « former les employés à se méfier de ChatGPT ». Les employés utilisent déjà des assistants pour résumer, traduire, chercher, classer et coder. Il faut donc sécuriser le flux.

Les équipes de sécurité devraient traiter tout contenu résumé par IA comme non fiable, même s’il apparaît dans une interface réputée. Les liens générés à partir de pages externes devraient être désactivés ou clairement isolés. Les images distantes et codes QR dans les réponses issues de pages web devraient être bloqués par défaut dans les environnements sensibles. Les navigateurs d’entreprise et passerelles web devront aussi apprendre à surveiller non seulement les pages visitées, mais la manière dont ces pages sont transmises aux assistants.

Côté fournisseurs d’IA, la priorité est de rétablir une séparation forte entre ce qui vient du modèle, ce qui vient d’une page externe et ce qui relève d’un message système. L’utilisateur doit pouvoir voir l’origine d’un lien ou d’une image, comme il peut voir l’expéditeur d’un courriel. Tant que l’interface mélange ces couches, la confiance accordée à l’assistant restera exploitable.

La prospective : l’IA comme canal de livraison

Le risque émergent n’est pas que ChatGPT « devienne malveillant ». Le risque est plus subtil : les utilisateurs font confiance à son interface, à son ton et à sa capacité de synthèse. Les attaquants l’ont compris. Ils n’ont pas besoin de briser le modèle s’ils peuvent influencer ce qu’il lit, ce qu’il rend et ce que l’utilisateur croit voir.

À court terme, on devrait s’attendre à plus de variantes : injections cachées dans des pages de documentation, dépôts GitHub, tickets de support, PDF, pages de connexion factices et contenus optimisés pour être résumés par IA. À moyen terme, les campagnes comme GREYVIBE deviendront moins remarquables : l’usage d’IA dans les leurres, le code et l’infrastructure deviendra un bruit de fond de la menace.

La popularité de ChatGPT est donc son avantage et sa faiblesse. Plus l’outil devient quotidien, plus il devient rentable à détourner. Pour les défenseurs, la question n’est plus de savoir si l’IA sera utilisée dans l’attaque, mais où elle se trouve déjà dans la chaîne : dans le leurre, dans le navigateur, dans le rendu, dans le malware ou dans l’analyse post-compromission.