L’IA agentique se joue déjà dans le silicium : ZAM, NVIDIA et Hermes ouvrent la bataille de l’infrastructure

Trois annonces, un même signal

L’IA agentique est souvent racontée comme une révolution logicielle : des assistants qui planifient, cliquent, codent, écrivent et apprennent de leurs erreurs. Mais les annonces de cette semaine racontent une histoire plus matérielle. Selon TechRadar, de nouveaux détails ont émergé sur la mémoire ZAM soutenue par Intel et SAIMEMORY, une filiale de SoftBank. Le même jour, NVIDIA a annoncé une collaboration d’ingénierie avec Ineffable Intelligence, le laboratoire fondé par David Silver, figure centrale d’AlphaGo. Et NVIDIA a aussi mis en avant Hermes Agent, un agent open source de Nous Research conçu pour fonctionner sur PC RTX et DGX Spark.

Pris séparément, ces trois sujets semblent appartenir à des mondes différents : mémoire 3D, apprentissage par renforcement, agents locaux. Ensemble, ils dessinent une tendance lourde : la prochaine phase de l’IA ne sera pas seulement une course aux meilleurs modèles, mais une course à l’infrastructure capable de faire tourner des agents continus, interactifs et coûteux en mémoire.

ZAM : Intel et SoftBank visent le mur de la mémoire

La première pièce du puzzle est ZAM, officiellement Z-Angle Memory. SoftBank a annoncé en février 2026 que sa filiale SAIMEMORY collaborait avec Intel pour commercialiser cette technologie, avec des prototypes visés durant l’exercice 2027 et une commercialisation à l’horizon de l’exercice 2029. SAIMEMORY a ensuite indiqué en avril que son projet avait été sélectionné par l’agence japonaise NEDO dans un programme de R-D lié aux semi-conducteurs avancés et aux infrastructures post-5G.

Le point technique important est simple : les accélérateurs IA modernes ne manquent pas seulement de puissance de calcul, ils manquent de bande passante mémoire. Les grands modèles, les longues fenêtres de contexte, les caches KV et les agents qui conservent un état sur de longues sessions déplacent constamment des données. C’est pourquoi la HBM est devenue un composant stratégique des GPU IA.

TechRadar, en reprenant notamment des informations de HPCwire et des éléments liés au symposium VLSI 2026, rapporte que ZAM utiliserait une structure à neuf couches : huit couches DRAM et une couche de contrôle. Chaque couche DRAM contiendrait 1,125 Go, soit environ 9 Go par module avant surcoûts et redondances. Les documents évoquent aussi des couches de silicium extrêmement minces et une architecture de vias traversants. HPCwire parle d’une bande passante potentielle de deux à trois fois celle de la HBM3, ce qui rapprocherait ZAM de la zone de performance de la HBM4.

Mais il faut rester prudent. SAIMEMORY et Intel sont des parties prenantes directes. TechRadar et HPCwire sont des médias spécialisés, utiles pour recouper les détails techniques, mais ils ne remplacent pas une validation indépendante. Surtout, TechRadar note qu’aucun prototype ZAM n’a encore été testé publiquement par des laboratoires indépendants. La promesse est donc crédible comme direction industrielle, pas encore comme produit disponible.

HBM4 : la cible à battre est déjà en mouvement

ZAM n’arrive pas dans un vide. NVIDIA pousse déjà sa plateforme Vera Rubin, présentée comme une architecture complète pour les « usines d’IA » agentiques. Dans sa documentation technique, NVIDIA décrit le GPU Rubin comme équipé de HBM4, avec jusqu’à 288 Go par GPU et une bande passante agrégée pouvant atteindre 22 To/s. L’enjeu n’est pas seulement de nourrir un GPU, mais de coordonner des racks entiers avec NVLink 6, des CPU Vera, des DPU BlueField et des réseaux conçus pour maintenir les accélérateurs occupés.

Du côté mémoire, Samsung affirme avoir commencé la production de masse et les livraisons commerciales de HBM4, tandis que SK hynix dit avoir achevé le développement de sa HBM4 et préparé sa production. Ces annonces sont elles aussi corporatives, donc intéressées, mais elles montrent que la chaîne HBM4 n’est plus simplement théorique. La fenêtre pour qu’une alternative comme ZAM s’impose sera courte : elle devra prouver non seulement sa performance, mais aussi son rendement industriel, son coût, sa fiabilité thermique et son adoption par les concepteurs de systèmes.

C’est là que la bataille devient stratégique. Si ZAM fonctionne, Intel et SoftBank pourraient réduire leur dépendance à un marché HBM dominé par quelques fournisseurs asiatiques et très lié aux feuilles de route de NVIDIA. Si ZAM échoue à passer du papier au volume, elle rejoindra la longue liste des architectures mémoire prometteuses restées confinées aux démonstrateurs.

NVIDIA et Ineffable : l’apprentissage par renforcement comme demande infinie de calcul

La deuxième annonce vient de NVIDIA, qui a officialisé une collaboration avec Ineffable Intelligence. Le laboratoire londonien est fondé par David Silver, dont les travaux chez DeepMind ont marqué l’histoire de l’apprentissage par renforcement avec AlphaGo, AlphaZero et d’autres systèmes fondés sur l’expérience et le jeu contre soi-même.

Le discours d’Ineffable est ambitieux : bâtir un « superlearner » qui apprendrait principalement par expérience, plutôt que par imitation de données humaines. Cette vision s’inscrit dans la thèse formulée par David Silver et Richard Sutton dans « Welcome to the Era of Experience » : les agents de demain ne progresseraient plus seulement en absorbant des textes, mais en interagissant avec des environnements, en recevant des signaux de récompense et en améliorant leurs stratégies au fil du temps.

NVIDIA a évidemment intérêt à amplifier cette vision. Une IA qui apprend par essais et erreurs à grande échelle consomme énormément de calcul : simulations, environnements parallèles, entraînement, post-entraînement, inférence de test-time, évaluation continue. Le communiqué de NVIDIA doit donc être lu comme une annonce d’entreprise, pas comme une preuve scientifique indépendante. Mais il est significatif que le fournisseur dominant de GPU IA s’aligne publiquement avec un laboratoire qui mise sur l’apprentissage par renforcement à grande échelle. Cela suggère que NVIDIA prépare son matériel non seulement pour les LLM classiques, mais pour des boucles d’agents qui génèrent leurs propres données d’entraînement.

Hermes : l’agent auto-améliorant descend sur le PC

La troisième pièce est plus proche de l’utilisateur final. NVIDIA affirme que Hermes Agent, développé par Nous Research, a dépassé 140 000 étoiles GitHub en moins de trois mois et qu’il est devenu l’un des agents les plus utilisés selon OpenRouter. La page GitHub du projet affichait même environ 149 000 étoiles lors de notre vérification.

Hermes se présente comme un agent qui « grandit avec vous » : mémoire persistante, système de compétences, intégrations de messagerie, outils locaux, tâches planifiées et possibilité d’utiliser différents fournisseurs de modèles. NVIDIA met surtout l’accent sur son exécution locale sur PC RTX, stations RTX PRO et DGX Spark. La documentation de DGX Spark décrit une machine compacte basée sur Grace Blackwell, avec 128 Go de mémoire unifiée et la capacité de prototyper, déployer et affiner de grands modèles sur un bureau.

Ici encore, le vocabulaire d’« auto-amélioration » doit être manié avec précision. Hermes n’est pas une superintelligence qui réécrit librement son cerveau. Il s’agit plutôt d’un cadre d’orchestration qui peut mémoriser, créer ou raffiner des compétences et mieux réutiliser l’expérience passée. C’est déjà important : pour qu’un agent soit utile au quotidien, il doit se souvenir, agir, corriger ses erreurs et fonctionner sans latence excessive. Mais c’est aussi un risque : un agent local qui accède aux fichiers, au terminal, aux messageries ou à des API doit être gouverné avec des permissions strictes, des journaux d’action et des mécanismes d’approbation.

La vraie convergence : mémoire, expérience et proximité

Le lien entre ZAM, Ineffable et Hermes est l’infrastructure. ZAM tente d’augmenter la densité et la bande passante mémoire au niveau du silicium. NVIDIA et Ineffable visent l’industrialisation de boucles d’apprentissage par renforcement où l’expérience devient une ressource calculée. Hermes illustre la descente de ces agents vers des machines locales capables de fonctionner en continu.

Cette convergence annonce une IA moins « requête-réponse » et plus persistante. Dans ce monde, l’inférence n’est plus un court passage dans un modèle ; elle devient une activité continue : observer, planifier, agir, vérifier, mémoriser, réessayer. Cela exige de la mémoire rapide, des interconnexions efficaces, des environnements de simulation, des CPU pour orchestrer, des GPU pour raisonner et des dispositifs locaux pour préserver la réactivité et parfois la confidentialité.

Pour les entreprises canadiennes, le message est clair : adopter l’IA agentique ne consistera pas seulement à choisir un modèle ou un abonnement SaaS. Il faudra décider où résident les données, quelles tâches peuvent être déléguées, quels agents peuvent agir localement, et quelle infrastructure — cloud, station de travail, appliance locale ou hybride — soutient ces flux.

Prospective : le logiciel ne gagnera pas sans le matériel

La prochaine bataille de l’IA agentique opposera moins des chatbots que des chaînes complètes : mémoire, packaging, réseau, accélérateurs, orchestration, sécurité et gouvernance. NVIDIA veut vendre la pile entière, du rack Vera Rubin au PC RTX. Intel et SoftBank cherchent une ouverture dans la mémoire, l’un des goulets d’étranglement les plus coûteux. Nous Research et Hermes montrent que les agents open source peuvent créer une demande matérielle jusque sur le bureau.

Il reste beaucoup d’inconnues. ZAM doit prouver sa manufacturabilité. L’approche d’Ineffable doit démontrer qu’elle dépasse les résultats spectaculaires mais circonscrits de l’apprentissage par renforcement historique. Hermes doit transformer sa popularité GitHub en fiabilité réelle, sécurisée et durable.

Mais le signal est fort : si les agents IA deviennent autonomes, persistants et auto-améliorants, ils auront besoin d’une infrastructure radicalement plus spécialisée. La prochaine révolution de l’IA pourrait donc se jouer moins dans l’interface que dans les couches invisibles : la mémoire empilée, les interconnexions de rack et les machines locales capables de faire tourner des agents toute la journée.