Apple ML Sharp, le GSPlat au calme.

Vous êtes familier avec le Gaussian Splatting (ou GSPlat) ? C'est un modèle IA qui génère des “éclats gaussiens” – des jets de peinture numérique distribués sur un nuage de point. C'est bon, je vous ai perdu ? Texte alternatif Issu du travail de l’INRIA Rhône-Alpes (cocorico), ce procédé permet de recréer un espace 3D à partir d’une ou plusieurs images d’une même scène. Vous avez pris des photos de votre salle de bain ? Même si le hobby est douteux, vous pourriez transformer cette suite de photos en simulation 3D de la pièce. Cette simulation est constituée de points et de “jets” gaussien qui ont leur esthétique particulière.

Pour faire cela, il y a deux étapes. D’abord, analyser l’ensemble des photos via un script d’alignement (COLMAP). Chaque photo est alignée par rapport aux autres dans un espace 3D comme si elles retrouvaient leurs points de vue les unes par rapport aux autres. Une fois terminé, pour faire simple, on “entraîne” le modèle pour créer les espaces entre chaque photo afin de créer un espace cohérent où l’on peut se déplacer de manière fluide.

Ce procédé peut prendre pas mal de temps en fonction du matériel dont vous disposez. Sur un Mac M2 Max ou une RTX A4000, on est autour de 10 à 30 minutes pour créer une scène. Il faut que l’alignement (étape 1) ait bien fonctionné, puis que l’entraînement fonctionne également. Cela peut donner des résultats parfois… aléatoires, même si globalement cela fonctionne plutôt bien.

Personnellement, ça fait des mois que je teste plusieurs workflows pour apprivoiser la bête. Quand j’ai vu sur Reddit qu’Apple avait sorti son propre script de génération de GSPlat, évidemment j’ai couru ventre à terre.

Et là, c’est le drame. À partir d’une seule image, il est possible de créer un espace 3D GSPlat en quelques secondes… oui, quelques secondes. Très probablement destiné pour les Apple Vision Pro, les résultats sont terriblement bons. On peut regretter le fait qu’il ne soit pas encore possible d’utiliser plusieurs photos, mais peut-être que cela sera à venir.

Le script se paye le luxe de ne laisser aucun glitch de GSPlat, éléments “parasites” entourant les scènes (qui ont une esthétique plutôt agréable). Cela rend la génération très propre, très prête à l'usage. Voila un exemple :

Alors, comment l’utiliser ? Il vous faut Miniconda sur votre machine. Vous mettez votre plus beau hoody de pirate, et capuche baissée vous lancez un terminal.

git clone https://github.com/apple/ml-sharp.git
cd ml-sharp
conda create -n sharp python=3.13
conda activate sharp
pip install -r requirements.txt

Et ensuite la commande :

sharp predict -i /chemin/vers/les/images/ -o /chemin/pour/le/gspat/

Une fois terminé vous pouvez admirer le résultat sur un viewer, comme supersplat en important le ply.