Un nuage de points peut modéliser un corps habillé. Presque aucun retailer n'en dispose.

ETCH, mis en avant à l'ICCV 2025, ajuste des modèles paramétriques du corps humain à des nuages de points de personnes habillées avec jusqu'à 69,5 % d'erreur en moins par rapport aux méthodes précédentes. Son ensemble d'entraînement repose sur 47 sujets réels capturés en laboratoire, révélant le fossé infrastructurel qui sépare l'algorithme de tout déploiement commercial d'essayage virtuel.

ETCH, mis en avant à l’ICCV 2025 par des chercheurs dont Michael J. Black du Max Planck Institute, résout le problème algorithmique le plus ardu de l’essayage virtuel 3D : ajuster un modèle paramétrique du corps humain à un nuage de points d’une personne habillée. Son pipeline d’entraînement modulaire assemble deux corpus de scans réels et un jeu de données synthétiques pour atteindre 94 501 échantillons. Sur le benchmark de référence, il réduit l’erreur d’ajustement corporel jusqu’à 69,5 % par rapport aux méthodes antérieures et améliore la précision de forme de 49,9 % en moyenne. L’algorithme est au point. L’infrastructure de capture qu’il requiert n’existe guère en dehors des laboratoires de recherche qui l’ont produite.

La difficulté centrale de l’essayage virtuel n’a jamais été de draper un vêtement numérique sur un corps connu. Elle consistait à inférer le corps sous le vêtement à partir du seul scan 3D d’une personne habillée. Les approches antérieures par optimisation enchaînaient des pipelines multi-étapes qui s’effondraient dès lors que l’estimation initiale de la pose était incorrecte ; les méthodes basées sur l’apprentissage généralisaient mal, passant mal du sportswear ajusté aux manteaux amples. ETCH introduit une nouvelle représentation appelée vecteurs de tension : des champs de déplacement allant de chaque point de la surface du vêtement vers le point correspondant sur le corps en dessous. Ces vecteurs étant localement SE(3)-équivariants, ils restent stables quelle que soit la pose — un manteau ample sur quelqu’un en fente et une chemise ajustée en position droite reçoivent le même traitement géométrique.

L’avantage de la méthode tient à son ensemble d’entraînement modulaire. CAPE, du Max Planck Institute, fournit 15 sujets en vêtements ajustés sur plus de 140 000 images capturées à 60 fps. 4D-Dress, de l’ETH Zurich, y ajoute 32 sujets en vêtements amples et superposés sur 78 000 scans texturés, chaque image nécessitant une segmentation semi-automatique pour distinguer le vêtement du corps. Une tranche synthétique de personnages générés comble les lacunes en termes de morphologie et de diversité des poses. Chaque scan réel contient ce qu’aucun scanner commercial ne produit : une forme corporelle de référence enregistrée sous les vêtements, alignée image par image avec la surface extérieure. Le corpus réel total représente 47 sujets, tous capturés dans des installations académiques dédiées.

Quarante-sept sujets, c’est une percée en recherche et un point de départ impraticable en production.

Les données qu’ETCH consomme ne ressemblent en rien à ce que collecte un retailer. TC2, le principal fabricant de scanners corporels, compte plus de 1 000 appareils déployés dans le monde, mais ceux-ci capturent une surface habillée à des fins de prise de mesures, et non la géométrie volumétrique nécessaire pour reconstruire le corps en dessous. L’équipement ayant produit CAPE et 4D-Dress se trouve dans des laboratoires universitaires soumis à des accords d’accès académique, et non en magasin. Bloomingdale’s a testé le scan corporel en boutique avant de retirer le matériel, les coûts rendant le déploiement grand public impraticable. Meshcapade — dont le co-fondateur Michael J. Black est également co-auteur d’ETCH — propose un pipeline en production fonctionnant à partir d’une seule photo, contournant entièrement le scan dense.

Les données synthétiques constituent le pont naturel. Pour que cette thèse échoue, il faudrait que la génération synthétique comble entièrement l’écart de domaine avec les données de scan réelles ; cet écart subsiste. Les capteurs de profondeur grand public ne sont pas une solution de remplacement : ils saisissent la surface du vêtement, et non la forme corporelle enregistrée en dessous. L’ajustement de SMPL-X, le modèle corps entier avec mains et visage articulés, nécessiterait une couverture de scan qu’aucun corpus existant ne fournit à l’échelle commerciale. Le facteur limitant, c’est l’infrastructure de capture, et non l’architecture neuronale.

Le marché de l’essayage virtuel est valorisé à 15,18 milliards de dollars en 2025, avec des projections atteignant 48 milliards d’ici 2030. Les miroirs intelligents et les systèmes de kiosques représentaient 43,86 % du chiffre d’affaires 2024. Ces outils améliorent les taux de conversion jusqu’à 40 % par rapport à la réalité augmentée mobile seule, mais ils ne peuvent pas modéliser l’ajustement, le tombé, ni la façon dont un corps et un vêtement interagissent en trois dimensions. Si les retailers souhaitent un essayage virtuel capable de comprendre ce à quoi ressemble un corps sous une robe, ils devront financer l’infrastructure de capture qui a permis de produire ces 47 sujets d’entraînement. Le goulot d’étranglement s’est déplacé de l’algorithme vers la capture.