Un signal d’alarme pour la robotique généraliste
Les modèles Vision-Language-Action, ou VLA, sont devenus en moins de trois ans l’un des paris centraux de la robotique moderne : un même modèle voit la scène, comprend une instruction en langage naturel et produit directement des actions exécutables par un robot. L’idée est séduisante : sortir du robot programmé tâche par tâche pour aller vers des politiques généralistes capables de s’adapter à de nouveaux objets, environnements et corps robotiques.
Mais une vague récente de prépublications déposées sur arXiv, entre la fin mai et le 1er juin 2026 pour plusieurs d’entre elles, rappelle que cette transition est loin d’être mûre pour les contextes critiques. Les travaux SilentDrift, SafeVLA-Bench, FATE-VLA, Per-Group Error, ainsi que l’enquête From Human Videos to Robot Manipulation ne racontent pas seulement des améliorations de performance. Ils dessinent une cartographie des angles morts : sécurité informatique, sécurité physique, métriques trompeuses, généralisation encore fragile et dépendance à des données humaines difficiles à traduire en gestes robotiques.
Il faut le dire clairement : la plupart de ces sources sont des prépublications. Elles accélèrent la diffusion scientifique, mais ne constituent pas, en elles-mêmes, une validation indépendante complète. Certaines sont acceptées à des conférences ou ateliers, d’autres non. Les chiffres doivent donc être lus comme des signaux techniques crédibles, pas comme des garanties industrielles.
Le rêve VLA : apprendre comme un modèle multimodal, agir comme un robot
Le vocabulaire s’est imposé avec RT-2 de Google DeepMind, présenté en 2023 comme un modèle capable de transférer des connaissances web vers le contrôle robotique. Depuis, Open X-Embodiment, OpenVLA, π0 et π0.5 de Physical Intelligence, GR00T de NVIDIA, SmolVLA de Hugging Face et, plus récemment, Qwen-VLA ont fait converger le champ vers une même intuition : plus les robots auront accès à des données diverses — images, texte, trajectoires, simulations, vidéos humaines — plus ils pourront généraliser.
OpenVLA, par exemple, a mis l’accent sur l’ouverture avec un modèle de 7 milliards de paramètres préentraîné sur des épisodes robotiques issus d’Open X-Embodiment. SmolVLA a pris le chemin inverse de la taille : Hugging Face revendique un modèle compact de 450 millions de paramètres, entraîné sur des données communautaires LeRobot, utilisable sur du matériel plus accessible. NVIDIA pousse la logique industrielle avec Isaac GR00T, conçu pour les humanoïdes, tandis que Qwen-VLA cherche à unifier manipulation, navigation, données synthétiques, démonstrations égocentriques et génération de trajectoires.
Cette accumulation de modèles donne l’impression d’un basculement : la robotique commence à ressembler à l’IA générative, avec fondations, préentraînement massif, affinage spécialisé et modèles ouverts ou semi-ouverts. La différence, évidemment, est qu’un échec ne produit pas seulement une mauvaise phrase : il peut heurter un objet, casser un outil, blesser une personne ou créer un comportement non anticipé dans un espace physique.
SilentDrift : la faille cachée dans le “action chunking”
Le papier SilentDrift est le plus inquiétant sur le plan de la cybersécurité. Les auteurs identifient une faiblesse dans une technique devenue courante : l’“action chunking”, où le modèle ne prédit pas une seule action mais une séquence de plusieurs étapes. Cette approche stabilise et accélère le contrôle, mais elle crée aussi une fenêtre partiellement ouverte : pendant l’exécution du bloc d’actions, le robot peut fonctionner sans correction visuelle fine à chaque micro-étape.
SilentDrift exploite cette zone grise avec une attaque par porte dérobée en boîte noire. Selon les auteurs, de petites perturbations insérées dans des démonstrations empoisonnées peuvent s’accumuler à l’intérieur d’un bloc d’actions, surtout lorsque les mouvements sont représentés en poses relatives. Le résultat est une dérive discrète, difficile à repérer visuellement, mais suffisante pour changer l’issue d’une manipulation.
Le chiffre avancé est frappant : sur LIBERO, SilentDrift atteindrait 93,2 % de succès d’attaque avec moins de 2 % de données empoisonnées, tout en conservant 95,3 % de réussite sur les tâches propres. Ce n’est pas une preuve que tous les VLA commerciaux sont vulnérables de la même façon. Mais c’est un avertissement : les données de démonstration, les pipelines d’affinage et les représentations d’action deviennent des surfaces d’attaque à part entière.
Réussir une tâche ne veut pas dire agir sans danger
SafeVLA-Bench attaque un autre pilier : la métrique de réussite. Dans beaucoup de benchmarks, un robot “réussit” s’il accomplit la tâche demandée. Mais cette réussite binaire peut masquer des trajectoires dangereuses : contact excessif, objet voisin déplacé, objet tenu instable, auto-contact du robot.
Le cadre proposé par SafeVLA-Bench ajoute des spécifications de sécurité fondées sur la logique temporelle du signal et introduit deux mesures : Succ-But-Unsafe, pour les épisodes qui réussissent tout en violant une contrainte, et Violation Severity Index, pour quantifier la gravité. Sur LIBERO et RoboCasa-365, les auteurs observent que de bonnes performances de tâche peuvent coexister avec des comportements problématiques. Les résultats rapportés indiquent encore 13 à 15 % d’épisodes non sûrs dans certains cas de manipulation de table, et 36 à 56 % de réussites RoboCasa-365 violant au moins une clause de sécurité active.
C’est une distinction essentielle pour les robots domestiques, hospitaliers, logistiques ou industriels. Un bras robotique qui range correctement une tasse mais pousse un couteau, accroche un câble ou cogne une main n’est pas “sûr” parce qu’il a rempli son objectif final.
FATE-VLA : chercher activement les échecs au lieu de les attendre
FATE-VLA pousse l’analyse plus loin : les benchmarks statiques sous-estiment les risques parce qu’ils échantillonnent les scènes de façon trop passive. Les échecs, dans les espaces robotiques à haute dimension, sont rares mais regroupés. Si le test ne cherche pas ces zones, il peut conclure trop vite à la robustesse.
Les auteurs proposent donc une génération de tests orientée vers la découverte d’échecs, combinant exploration de diversité et modèles de substitution appris à partir des exécutions observées. Leur méthode découvrirait jusqu’à 29,7 % d’échecs supplémentaires par rapport à certaines bases de comparaison. Le cas le plus parlant concerne GR00T-N1.6 : le taux de succès rapporté tomberait de 64,4 % à 34,7 % lorsque les scènes sont sélectionnées pour exposer les faiblesses.
Là encore, ce n’est pas un verdict définitif sur GR00T, d’autant que NVIDIA publie ses propres annonces et rapports avec des objectifs de plateforme. Mais le message méthodologique est fort : tester un robot généraliste comme on teste un classificateur d’images n’est plus suffisant. Il faut des tests adversariaux, adaptatifs, reproductibles et orientés vers les modes de défaillance.
Les métriques d’entraînement peuvent mentir
La prépublication Per-Group Error, Not Total MSE s’attaque à un problème plus discret mais très concret. Sur un robot mobile manipulateur comme le Toyota HSR à 11 degrés de liberté, toutes les articulations ne se valent pas : bras, pince, tête et base mobile ont des dynamiques et des difficultés différentes. En agrégeant tout dans une erreur moyenne globale, les articulations faciles peuvent masquer l’échec des articulations critiques.
Les auteurs montrent que le checkpoint ayant la plus faible erreur quadratique moyenne totale n’est pas forcément celui qui fonctionne le mieux sur robot réel. Dans leurs 60 essais physiques, l’analyse par groupe d’articulations se révèle plus informative que la moyenne totale. C’est un rappel salutaire : la robotique n’est pas seulement une affaire de perte d’entraînement. Un modèle peut “mieux” optimiser une métrique et devenir moins utile, voire moins sûr, sur la machine.
Les vidéos humaines : abondance trompeuse, traduction difficile
L’autre grande promesse des VLA est d’apprendre à partir de vidéos humaines non instrumentées. Le sondage From Human Videos to Robot Manipulation résume bien l’enjeu : les vidéos humaines sont massives, riches, variées et beaucoup moins coûteuses que les démonstrations robotiques. Des jeux de données comme Ego4D ou Ego-Exo4D montrent l’ampleur de ce réservoir.
Mais l’écart d’incarnation reste le problème dur. Une main humaine n’est pas une pince parallèle, un humanoïde n’a pas les mêmes limites qu’un bras industriel, et une vidéo YouTube ne fournit pas toujours les forces, les états articulaires, les intentions précises ou les actions alignées temporellement. Le sondage classe les approches en représentations d’actions latentes, modèles du monde prédictifs, supervision 2D et reconstruction 3D. Toutes progressent, aucune ne résout entièrement le transfert du geste humain vers l’action robotique exécutable.
Ce que cela change pour l’industrie
Le message pour les entreprises est moins spectaculaire qu’un nouveau robot humanoïde, mais plus important : les VLA ne peuvent pas être déployés sur la seule foi d’un taux de succès en simulation. Les exigences doivent inclure la provenance des données, la détection d’empoisonnement, l’évaluation par sous-systèmes, les tests adversariaux, les contraintes temporelles de sécurité, les journaux d’exécution et les garde-fous physiques indépendants du modèle.
Les cadres existants donnent une partie du langage. Le NIST AI Risk Management Framework insiste sur la validité, la fiabilité, la sûreté, la sécurité et la résilience. Le rapport du NIST sur l’apprentissage automatique adversarial formalise notamment les attaques par empoisonnement. Côté robotique, ISO 10218-1:2025 et ISO 10218-2:2025 rappellent que la sécurité d’un robot s’évalue au niveau de la machine, de l’intégration et de l’application, pas seulement du logiciel d’IA.
La prospective est donc claire : les VLA vont probablement devenir une couche centrale des robots généralistes, mais pas seuls. Ils devront être entourés de contrôleurs certifiables, de moniteurs de trajectoire, de limites dynamiques, de vérification formelle partielle, de simulation adversariale et de procédures d’audit des données. Le futur robot généraliste ne sera pas seulement un grand modèle qui agit. Ce sera un système socio-technique complet, avec sécurité, traçabilité et responsabilité.
La vague actuelle de prépublications n’enterre pas les VLA. Elle les fait entrer dans l’âge adulte. Après l’euphorie des démonstrations, vient la question qui compte : que se passe-t-il quand le robot réussit la tâche, mais échoue à être digne de confiance ?