Le Gaussian Splatting 3D apprend à reconstruire le monde réel

Trois préprints pour un même basculement

Le Gaussian Splatting 3D est en train de sortir du laboratoire. Trois travaux récents repérés sur arXiv — HarmoGS, SkySplat et Ilov3Splat — pointent dans la même direction : rendre les reconstructions 3D moins dépendantes de scènes propres, bien éclairées, capturées sous des angles confortables, et mieux capables de composer avec le monde réel. Autrement dit : des passants, des voitures, des ombres, des changements de saison, des prises de vue espacées dans le temps, voire des images prises depuis l’orbite.

Il faut toutefois commencer par une mise en garde. Ces travaux sont avant tout des versions arXiv et des annonces de recherche par leurs auteurs. SkySplat indique une acceptation à AAAI 2026 et Ilov3Splat mentionne ICPR 2026, mais les résultats présentés dans les prépublications restent à lire comme des résultats de recherche, pas comme une validation industrielle indépendante. Les métriques rapportées, les choix de jeux de données et les comparaisons reflètent donc le cadre expérimental des équipes.

Pourquoi le 3D Gaussian Splatting est devenu central

Depuis l’article fondateur publié en 2023 par l’équipe associée à Inria et à l’Université Côte d’Azur, le 3D Gaussian Splatting s’est imposé comme une alternative très efficace aux Neural Radiance Fields, ou NeRF. Là où un NeRF encode une scène dans un réseau neuronal continu, le 3DGS représente la scène par un nuage de primitives gaussiennes anisotropes : de petites ellipsoïdes 3D portant couleur, opacité, orientation et taille. En les projetant dans l’image, on obtient des rendus photoréalistes rapides, souvent beaucoup plus interactifs que les NeRF classiques.

Le problème, c’est que les démonstrations les plus spectaculaires reposent souvent sur des conditions relativement maîtrisées : un objet ou un lieu statique, des photos cohérentes, une calibration correcte, des variations lumineuses limitées. Dans la nature, cette hypothèse s’effondre. Une façade change d’apparence entre matin et soir, un arbre bouge, une voiture masque une portion de route, une ombre traverse une place. Chaque image peut pousser l’optimisation dans une direction contradictoire. C’est ce que les chercheurs appellent des gradients conflictuels : le modèle reçoit des signaux incompatibles sur ce que devrait être la même portion de scène.

HarmoGS : quand les distracteurs ne sont plus seulement masqués

HarmoGS, soumis sur arXiv le 13 mai 2026, s’attaque précisément à cette difficulté. Le papier part d’un constat simple : masquer les zones peu fiables ne suffit pas. Les méthodes existantes essaient souvent d’ignorer les pixels contenant des objets transitoires ou des incohérences, mais des résidus demeurent. Ces erreurs continuent d’alimenter l’optimisation et peuvent produire des artéfacts visibles.

La proposition d’HarmoGS tient en deux étages. D’abord, un masquage guidé par la cohérence sémantique apprend des scores de cohérence au niveau du pixel afin de raffiner les masques initiaux. Ensuite, le cœur du système intervient au niveau des gradients eux-mêmes : une stratégie de Conflict-Aware Gradient Harmonization compare deux vues et ajuste les directions de gradient pour réduire leur interférence négative. L’idée n’est donc plus seulement de dire au modèle quels pixels ignorer, mais de modifier la manière dont les images se contredisent pendant l’apprentissage.

Cette approche est importante parce qu’elle traite le Gaussian Splatting comme un processus d’optimisation fragile, et non comme une simple opération de rendu. Si elle se généralise, elle pourrait aider les systèmes de cartographie mobile, de robotique extérieure ou de capture urbaine à reconstruire des environnements fréquentés sans exiger de vider les lieux avant la prise de vue.

SkySplat : le Gaussian Splatting regarde la Terre depuis l’espace

SkySplat est le plus directement lié à l’exploration spatiale et à l’observation terrestre. Révisé sur arXiv le 13 mai 2026 après une première soumission en août 2025, le travail vise la reconstruction 3D à partir d’images satellites clairsemées, multi-temporelles. C’est un cas extrême de scène non contrôlée : les images peuvent provenir de dates différentes, avec des angles, des ombres, des conditions atmosphériques et des objets transitoires différents.

Le point technique clé est l’intégration du modèle RPC, pour Rational Polynomial Coefficients, dans une chaîne de 3D Gaussian Splatting généralisable. Les caméras satellites ne se comportent pas comme de simples caméras à trou d’épingle. Les modèles RPC décrivent la géométrie complexe de l’imagerie orbitale et sont essentiels en photogrammétrie satellite. SkySplat cherche donc à faire entrer cette géométrie dans un pipeline 3DGS plutôt que de forcer les images orbitales dans un modèle de caméra trop simplifié.

Selon arXiv et le dépôt GitHub du projet, SkySplat repose uniquement sur des images RGB et sur une supervision relative de hauteur robuste aux variations radiométriques, sans exiger de cartes de hauteur vérité terrain. Le papier revendique notamment un gain de vitesse de 86 fois par rapport à EOGS et une réduction de l’erreur absolue moyenne de 13,18 mètres à 1,80 mètre sur le jeu DFC19. Ces chiffres sont prometteurs, mais ils doivent être interprétés dans le cadre exact de l’évaluation choisie par les auteurs.

Ce qui rend SkySplat intéressant dépasse la métrique. L’observation terrestre dépend déjà de données massives, multi-capteurs et multi-temporelles. Des programmes comme Digital Twin Earth de l’Agence spatiale européenne ou CORE3D de l’IARPA illustrent cette ambition : produire des représentations numériques de territoires à partir de données de télédétection. Si le Gaussian Splatting devient compatible avec l’imagerie satellite clairsemée, il pourrait offrir une brique de rendu et de reconstruction rapide pour les jumeaux numériques, la planification urbaine, la réponse aux catastrophes ou la simulation de navigation.

Ilov3Splat : reconstruire ne suffit plus, il faut comprendre

Ilov3Splat, soumis le 6 mai 2026 et révisé le 13 mai, ajoute une couche différente : la compréhension sémantique ouverte. Le but n’est pas seulement de reconstruire une scène en 3D, mais de pouvoir l’interroger avec du langage naturel. Par exemple, demander à isoler des objets d’un certain type sans avoir entraîné le système avec une liste fermée de catégories.

Le cadre s’appuie sur des représentations inspirées de CLIP, le modèle vision-langage popularisé par OpenAI, et sur des masques de segmentation issus de l’écosystème Segment Anything de Meta. Ilov3Splat enrichit les gaussiennes avec des champs de caractéristiques cohérents entre vues. Au moment de l’inférence, des requêtes encodées par CLIP sont comparées à ces caractéristiques, puis un regroupement 3D extrait les ensembles de gaussiennes correspondant aux objets demandés.

Pour l’observation terrestre, l’intérêt est évident mais encore spéculatif. Une reconstruction orbitale pourrait devenir interrogeable : trouver des bâtiments temporaires, des routes obstruées, des zones de végétation, des infrastructures critiques. Pour la navigation autonome, la même logique pourrait aider un robot ou un véhicule à relier une carte 3D à des concepts utiles : entrée, obstacle, câble, panneau, zone traversable. Mais l’ouverture du vocabulaire apporte aussi ses risques : biais de modèle, ambiguïtés linguistiques, erreurs de segmentation et fausse impression de compréhension.

Une continuité avec NeRF-W, Sat-NeRF et WildGaussians

Ces trois préprints ne surgissent pas de nulle part. NeRF a ouvert en 2020 la voie des champs de radiance neuronaux pour la synthèse de nouvelles vues. NeRF-W, présenté à CVPR 2021, a montré comment gérer des collections de photos non contrôlées avec variations d’apparence et éléments transitoires. Dans le domaine spatial, S-NeRF et Sat-NeRF ont déjà adapté les idées de NeRF à la photogrammétrie satellite, en tenant compte des ombres, des objets transitoires et des caméras RPC.

Plus récemment, WildGaussians et SWAG ont cherché à faire entrer le Gaussian Splatting dans les collections d’images sauvages. HarmoGS prolonge cette lignée en se concentrant sur la dynamique des gradients. SkySplat transporte le problème en orbite. Ilov3Splat ajoute la couche sémantique qui manquait souvent aux reconstructions purement visuelles.

Ce que cela annonce

La tendance est claire : la reconstruction 3D ne vise plus seulement à produire de belles vues intermédiaires. Elle devient une infrastructure de perception. Dans un scénario idéal, des images satellites éparses permettraient de générer rapidement une scène 3D approximative, de la mettre à jour au fil du temps, puis de l’interroger sémantiquement. Une mission humanitaire pourrait comparer des reconstructions avant et après un séisme. Une agence de transport pourrait suivre l’évolution d’un chantier. Un robot autonome pourrait fusionner une carte orbitale, des vues au sol et des requêtes en langage naturel.

Mais le passage à l’opérationnel exigera plus que des scores sur benchmarks. Il faudra vérifier la robustesse sur des climats, capteurs, résolutions et régions variés; quantifier les incertitudes; éviter que les artéfacts de rendu ne soient confondus avec des objets réels; et encadrer les usages sensibles, notamment la surveillance. Le Gaussian Splatting devient plus rapide, plus robuste et plus sémantique. La question suivante sera moins technique : qui aura le droit de reconstruire, comprendre et exploiter ces mondes 3D générés depuis nos images?

Le Gaussian Splatting 3D apprend à reconstruire le monde réel — même depuis l’orbite