arXiv trace une ligne rouge contre les articles scientifiques écrits sans contrôle humain

Une sanction d’un an pour les traces évidentes de « slop » IA

arXiv, l’un des carrefours essentiels de la recherche ouverte, durcit le ton face aux manuscrits scientifiques rédigés ou complétés par des grands modèles de langage sans vérification humaine sérieuse. Selon The Verge et TechCrunch, Thomas Dietterich, président de la section informatique d’arXiv, a précisé que les auteurs dont les soumissions contiennent des preuves « incontestables » d’une génération par IA non relue pourront être bannis de la plateforme pendant un an. Après cette suspension, leurs futures soumissions devraient d’abord être acceptées par une revue ou une conférence réputée et évaluée par les pairs avant d’être admissibles sur arXiv.

Les exemples cités sont révélateurs : références hallucinéées, commentaires laissés par le modèle dans le manuscrit, consignes du type « voici un résumé de 200 mots » ou encore données fictives accompagnées d’une note demandant à l’auteur de les remplacer plus tard par de vrais résultats. Autrement dit, arXiv ne cherche pas à interdire toute utilisation de l’IA. La cible est la délégation totale, ou quasi totale, lorsque le texte porte les marques d’un outil qui a produit à la fois la forme et une partie du contenu scientifique sans contrôle.

Cette distinction est cruciale. Dans sa politique de modération officielle, arXiv reconnaît que les chercheurs utilisent des outils sophistiqués pour produire et présenter leurs travaux. Le site demande toutefois de signaler les usages significatifs d’outils génératifs texte-à-texte lorsque les standards de la discipline l’exigent, rappelle que les outils d’IA ne doivent pas être listés comme auteurs, et insiste sur un principe simple : chaque auteur humain demeure responsable de tout le contenu signé, quelle que soit la manière dont ce contenu a été généré.

arXiv, infrastructure ouverte sous pression

La décision arrive dans un contexte de surcharge. arXiv n’est pas une revue scientifique classique : ses articles sont des prépublications, souvent diffusées avant l’évaluation par les pairs. Sa valeur tient à la rapidité, à l’accessibilité et au rôle de signal pour les communautés de mathématiques, physique, informatique et intelligence artificielle. Mais cette rapidité repose sur une modération légère, effectuée par des experts bénévoles, et non sur un examen scientifique complet.

Or l’IA générative change l’économie de cette modération. En octobre 2025, le blogue officiel d’arXiv indiquait déjà que la catégorie informatique imposait désormais une exigence de revue par les pairs préalable pour les articles de synthèse et les prises de position. arXiv expliquait alors que les grands modèles de langage avaient rendu très faciles à produire des textes ne présentant pas de nouveaux résultats, notamment des revues de littérature réduites à des bibliographies annotées. Le problème n’était pas seulement la qualité d’un article isolé, mais le volume : des centaines de soumissions mensuelles de ce type peuvent détourner les modérateurs de la mission centrale d’arXiv, soit la diffusion rapide de recherches originales.

Nature avait aussi couvert ce précédent resserrement, en soulignant qu’arXiv n’acceptait plus les revues et position papers en informatique sauf s’ils avaient déjà été acceptés par un lieu évalué par les pairs. La nouvelle menace de suspension d’un an s’inscrit donc dans une trajectoire plus large : arXiv passe d’une logique de tolérance et de tri manuel à une logique de responsabilité explicite des auteurs.

Où se situe la ligne entre assistance et substitution ?

La frontière pertinente n’est pas « IA ou pas IA ». Elle est plutôt : qui exerce le jugement scientifique ? L’usage légitime d’un outil peut inclure la correction linguistique, la traduction, l’amélioration de la lisibilité, la génération d’un squelette de plan, l’aide à reformuler une section, voire l’assistance à la recherche bibliographique si chaque référence est ensuite vérifiée. Dans ces cas, l’IA agit comme un instrument, au même titre qu’un logiciel statistique, un correcteur grammatical ou un outil de gestion bibliographique.

La délégation problématique commence lorsque le modèle devient l’agent principal du raisonnement et que l’auteur ne vérifie plus les affirmations, les citations, les résultats ou les limites méthodologiques. Une référence inexistante n’est pas une coquille banale : elle prétend ancrer une affirmation dans une littérature qui n’existe pas. Une table de résultats fictifs n’est pas une aide à la rédaction : c’est une rupture avec l’intégrité empirique. Un commentaire de chatbot oublié dans un manuscrit n’est pas seulement embarrassant ; il démontre que le texte n’a pas été relu avec le niveau minimal d’attention attendu dans la communication scientifique.

Ce point rejoint les politiques de grands éditeurs et organismes. Nature Portfolio indique que les grands modèles de langage ne satisfont pas aux critères d’auteur et maintient que les auteurs humains doivent vérifier et assumer le contenu. L’ICMJE, référence importante en édition biomédicale, demande aussi la divulgation de l’usage d’outils d’IA et rappelle que les chatbots ne peuvent pas être auteurs, précisément parce qu’ils ne peuvent pas répondre de l’exactitude, de l’intégrité et de l’originalité du travail.

Les hallucinations bibliographiques deviennent mesurables

Le durcissement d’arXiv ne repose pas seulement sur une impression de mauvaise qualité. Plusieurs signaux indiquent que les citations hallucinéées deviennent un risque systémique. Une prépublication déposée sur arXiv en mai 2026 affirme avoir audité 111 millions de références dans 2,5 millions d’articles ou prépublications provenant notamment d’arXiv, bioRxiv, SSRN et PubMed Central. Ses auteurs estiment de manière conservatrice à 146 932 le nombre de citations hallucinéées en 2025. Comme il s’agit d’une prépublication, ce résultat doit être lu avec prudence : il n’a pas encore le statut d’une preuve évaluée par les pairs. Mais il donne une mesure du problème que les plateformes voient déjà dans leurs files de soumission.

Dans le domaine biomédical, le Centre for Infectious Disease Research and Policy de l’Université du Minnesota a rapporté une étude publiée dans The Lancet portant sur 2,5 millions d’articles de PubMed Central Open Access. Cette analyse a identifié 4 046 références probablement fabriquées dans 2 810 articles, avec une hausse marquée entre 2023 et 2025. Là encore, le cœur du problème est la confiance : si les références censées soutenir une conclusion n’existent pas, le lecteur ne peut plus distinguer rapidement l’erreur isolée, la négligence, l’usage non critique d’un modèle ou la fraude.

Les chercheurs en IA sont aussi les premiers concernés

La dimension ironique est évidente : arXiv est l’une des plateformes centrales de la recherche en intelligence artificielle. Les chercheurs qui construisent, évaluent et promeuvent les grands modèles de langage publient souvent leurs propres travaux sur cette même infrastructure. Le message est donc autant culturel que disciplinaire : développer ou étudier l’IA ne dispense pas d’appliquer les normes de vérification scientifique.

La mesure pourrait toutefois avoir des effets collatéraux. Les jeunes chercheurs, les doctorants et les équipes moins bien dotées risquent de subir plus durement une suspension, surtout si un co-auteur a intégré une section non vérifiée. Les grandes collaborations devront clarifier qui vérifie quoi. Les laboratoires pourraient instaurer des contrôles internes obligatoires : validation des références, vérification des DOI, reproduction minimale des tableaux, journalisation de l’usage d’IA et approbation explicite de la version finale par tous les auteurs.

Vers une science augmentée, mais auditée

La conséquence probable n’est pas la disparition de l’IA dans l’écriture scientifique. Elle sera partout : dans la révision linguistique, le code, les résumés, la recherche documentaire et la préparation des figures. Mais son usage devra devenir traçable, limité et vérifiable. La prochaine étape ne sera peut-être pas un détecteur d’« écriture IA », souvent fragile et contestable, mais une suite d’outils d’audit : vérification automatique des références, détection de citations inexistantes, contrôle des métadonnées, comparaison des résultats avec les fichiers de données et exigences de déclaration.

arXiv pose donc une règle simple : l’IA peut assister, mais elle ne peut pas remplacer l’auteur responsable. Dans un monde où la productivité textuelle devient presque gratuite, la rareté se déplace vers la vérification, la responsabilité et le jugement. C’est là que se jouera l’intégrité de la recherche à l’ère des modèles génératifs.