Robots généralistes : les VLA butent sur la latence et les actions inventées

Deux alertes sur la même promesse robotique

Les modèles Vision-Language-Action, ou VLA, sont devenus l’un des paris centraux de la robotique moderne : donner à un robot une scène visuelle, une instruction en langage naturel, puis lui faire produire directement une action. L’idée est puissante. Au lieu de programmer séparément chaque geste, on entraîne un modèle généraliste à relier ce qu’il voit, ce qu’on lui demande et ce qu’il doit faire.

Mais deux preprints récents publiés sur arXiv rappellent que cette promesse reste fragile. Le premier, Premover: Fast Vision-Language-Action Control by Acting Before Instructions Are Complete, soumis le 12 mai 2026 par Joonha Park, Jiseung Jeong et Taesik Gong, s’attaque à un problème très concret : les VLA sont souvent évalués comme si l’utilisateur avait déjà terminé de parler ou d’écrire. Dans la vraie vie, cette attente dure plusieurs secondes, pendant lesquelles le robot reste inutilement immobile.

Le second, Action Hallucination in Generative Vision-Language-Action Models, soumis en février 2026 et révisé le 12 mai 2026 par Harold Soh et Eugene Lim, étudie un risque plus fondamental : les modèles génératifs peuvent produire des actions plausibles sur le papier, mais physiquement impossibles, imprécises ou incohérentes sur la durée. Autrement dit, la robotique hérite d’une forme d’hallucination, non plus seulement verbale, mais motrice.

Ces deux textes sont des preprints. Ils n’ont donc pas le statut d’une preuve évaluée par les pairs. Ils sont toutefois intéressants parce qu’ils déplacent le débat : la question n’est plus seulement de savoir si un robot peut comprendre une consigne, mais s’il peut l’exécuter au bon moment, sans inventer de geste dangereux ou erroné.

Le problème de Premover : un robot qui attend trop

Dans les démonstrations de laboratoire, l’instruction donnée au robot est souvent complète : prends la tasse rouge, range le bloc bleu, ouvre le tiroir. Le modèle reçoit alors tout le contexte linguistique et visuel avant de décider. Premover part d’une observation simple : en déploiement réel, l’utilisateur est en train de formuler la demande. Pendant ce temps, un système VLA classique ne fait rien, même si certains indices apparaissent déjà.

Les auteurs proposent donc un module léger, ajouté sans modifier le cœur du modèle VLA. Premover utilise des représentations intermédiaires du modèle pour associer des morceaux d’image et des fragments de langage dans un espace commun. Il construit ensuite une carte d’attention vers l’objet probablement pertinent et décide, grâce à un seuil de disponibilité, à quel moment le robot peut commencer à agir avant que l’instruction soit entièrement terminée.

Selon les résultats rapportés sur la suite de benchmarks LIBERO, Premover ferait passer le temps moyen d’exécution de 34,0 à 29,4 secondes, soit une réduction de 13,6 %, tout en conservant un taux de succès très proche de la référence complète : 95,1 % contre 95,0 %. Les auteurs soulignent aussi que la préaction naïve échoue lourdement, avec 66,4 % de succès. C’est un point clé : anticiper n’est pas simplement aller plus vite. Il faut savoir quand l’incertitude est suffisamment basse pour agir.

Pour la robotique domestique ou industrielle, cette différence est importante. Un assistant qui attend systématiquement la fin d’une phrase paraît lent et peu naturel. Un robot qui anticipe trop tôt peut au contraire saisir le mauvais objet. Premover cherche une voie médiane : convertir un temps mort en préparation utile, sans sacrifier la fiabilité.

L’autre faille : halluciner une action

Le preprint d’Harold Soh et Eugene Lim attaque une faiblesse plus abstraite, mais potentiellement plus grave. Dans les modèles génératifs, une action est produite comme une sortie probable. Or une sortie probable n’est pas nécessairement une sortie faisable.

Les auteurs décrivent trois barrières : topologique, de précision et d’horizon. La barrière topologique renvoie au fait que l’espace des actions possibles d’un robot n’a pas toujours la forme simple que les architectures de modèles supposent. La barrière de précision concerne les petites erreurs de position, de force ou de trajectoire, qui peuvent transformer un geste acceptable en échec. La barrière d’horizon touche aux tâches longues : même si chaque mouvement semble raisonnable, l’ensemble du plan peut diverger.

C’est ici que le mot hallucination prend tout son sens. Dans un chatbot, une hallucination peut être une fausse référence ou une réponse inventée. Dans un robot, elle peut devenir un bras qui tente de traverser un obstacle, une pince qui ferme trop tôt, ou une séquence de gestes qui paraît sémantiquement logique mais échoue physiquement.

Le papier ne dit pas que les VLA sont condamnés. Il suggère plutôt que leur expressivité a un coût. Plus on laisse le modèle générer librement des actions, plus il faut encadrer la faisabilité physique, la précision du contrôle et la cohérence temporelle.

D’où vient l’enthousiasme pour les VLA

L’intérêt pour les VLA a explosé après les travaux de Google DeepMind sur RT-2. Dans le papier RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control, l’équipe proposait d’exprimer les actions robotiques sous forme de jetons, comme du texte, afin de coentraîner un modèle sur des données web et des trajectoires robotiques. Google DeepMind présentait alors RT-2 comme une manière de transférer des connaissances visuelles et linguistiques du web vers le contrôle robotique.

Le mouvement s’est ensuite élargi. Open X-Embodiment a agrégé des données issues de 22 robots et de 21 institutions, avec 527 compétences et plus de 160 000 tâches, pour explorer l’apprentissage entre plateformes. OpenVLA a poursuivi cette logique avec un modèle ouvert de 7 milliards de paramètres entraîné sur 970 000 démonstrations robotiques réelles. Physical Intelligence, avec π0.5, a aussi mis l’accent sur la généralisation en environnement ouvert, notamment pour des tâches longues dans des maisons inconnues.

Ces travaux partagent une intuition : la robotique a besoin de grands ensembles de données et de modèles généralistes, comme la vision et le langage avant elle. Mais ils montrent aussi pourquoi le passage du monde numérique au monde physique est difficile. Le web tolère l’approximation. Un robot, lui, doit composer avec la friction, la gravité, les collisions, les délais moteurs et la sécurité humaine.

Ce que ces limites annoncent pour la suite

Premover et Action Hallucination décrivent deux symptômes d’un même problème : la généralisation des VLA reste incomplète hors laboratoire. Dans un cas, le robot ne sait pas encore exploiter naturellement le flux temporel d’une instruction humaine. Dans l’autre, il peut confondre une action vraisemblable avec une action réalisable.

La prochaine génération de VLA devra probablement combiner plusieurs garde-fous. D’abord, des mécanismes d’incertitude explicites : si le modèle n’est pas sûr, il doit attendre, demander confirmation ou préparer sans agir. Ensuite, des contraintes physiques intégrées : cinématique, limites articulaires, collision, force, stabilité. Enfin, des architectures hybrides où le modèle généraliste propose, mais où un contrôleur spécialisé vérifie et corrige.

C’est déjà la direction de plusieurs acteurs. NVIDIA, avec Project GR00T, présente les modèles fondamentaux pour humanoïdes comme un pilier de l’IA incarnée, mais son annonce reste une communication d’entreprise, non une validation indépendante. Google DeepMind, OpenVLA et Physical Intelligence documentent des progrès scientifiques réels, mais principalement à travers des papiers, benchmarks et démonstrations encore très encadrés.

Un signal utile, pas un verdict final

Il serait excessif de conclure que les VLA sont une impasse. Ils ont ouvert une voie crédible pour sortir la robotique de la programmation tâche par tâche. Mais il serait tout aussi naïf de les considérer comme prêts à piloter des robots généralistes dans des cuisines, des entrepôts ou des hôpitaux sans surveillance.

Les deux preprints d’arXiv rappellent une évidence que le marketing oublie souvent : comprendre une consigne n’est pas agir correctement. En robotique, l’intelligence se mesure aussi à la capacité d’attendre, d’anticiper prudemment, de refuser une action incertaine et de respecter les contraintes du monde réel. La prochaine bataille des VLA ne sera donc pas seulement celle de la taille des modèles. Ce sera celle de la fiabilité incarnée.