Le Problème de Reconstruction du Vêtement que le Try-On Virtuel a Laissé de Côté

Le virtual try-off reconstruit des images canoniques de vêtements à partir de photos de personnes habillées, résolvant le goulot d'étranglement des retours, de la revente et de l'automatisation des catalogues qu'une décennie de recherche sur le try-on virtuel n'a jamais abordé.

Le try-on virtuel a absorbé dix ans de financements de recherche et de budgets pilotes dans le retail pour répondre à une seule question : à quoi ressemble ce vêtement sur moi ? La question inverse n’a reçu sa première définition formelle qu’en novembre 2024, quand des chercheurs de l’Université de Bielefeld ont forgé le terme « virtual try-off » et publié TryOffDiff : à partir d’une photo d’une personne habillée, reconstruire une image produit propre et standardisée du vêtement lui-même. C’est cette deuxième question que le traitement des retours, les plateformes de revente et l’automatisation des catalogues attendaient.

La tâche semble simple ; l’ingénierie, elle, ne l’est pas. Un vêtement porté est masqué, froissé, éclairé sous un angle quelconque et déformé par la posture. TryOffDiff a adapté Stable Diffusion avec un conditionnement visuel basé sur SigLIP, entraîné sur le dataset VITON-HD composé de 11 552 paires d’images, et a surpassé tous les modèles de référence sur les métriques de fidélité perceptive. En mai 2025, TEMU-VTOFF a introduit une architecture Diffusion Transformer double prenant en charge plusieurs catégories de vêtements et a été accepté à ICLR 2026. OmniDiT, publié en mars 2026, a construit un cadre unifié de try-on et try-off sur 380 000 paires d’images. Le dépôt awesome-virtual-try-off recense désormais 41 articles, dont la plupart publiés dans l’année suivant le lancement de TryOffDiff en novembre 2024.

Le try-on virtuel a généré des milliers d’articles et des milliards de dollars de capital-risque sans jamais produire une image de vêtement pouvant être mise en vente pour la revente.

La National Retail Federation estime que les retours dans le commerce de détail américain atteindront 849,9 milliards de dollars en 2025, avec un taux de retour de 19,3 % pour les achats en ligne. L’habillement se situe au sommet de la courbe des retours, avec des taux par catégorie atteignant régulièrement 20 à 30 %, certains segments dépassant 50 %. Chaque vêtement retourné qui réintègre l’inventaire nécessite une image produit pour être remis en vente — et re-photographier des articles individuellement à 25 à 75 dollars par cliché pour une mise en catalogue de base représente le coût standard de la photographie produit traditionnelle. Le try-on promettait de réduire les retours en aidant les acheteurs à visualiser l’ajustement avant l’achat. Cette promesse s’adresse au début de l’entonnoir ; elle ne dit rien sur ce qui se passe une fois que le colis revient.

Le marché de la seconde main amplifie le problème d’image à une autre échelle. Le rapport 2026 sur la revente de ThredUp prévoit que le marché mondial de l’habillement d’occasion atteindra 393 milliards de dollars d’ici 2030, avec la revente en ligne américaine qui devrait presque doubler, passant de 29,7 milliards de dollars en 2025 à 48,3 milliards de dollars d’ici 2030. Chacun de ces articles entre dans le circuit sans image produit de qualité catalogue. Les plateformes gérées comme ThredUp photographient les articles de façon centralisée ; les plateformes de pair-à-pair comme Poshmark et Vinted comptent sur des vendeurs qui pointent l’appareil photo de leur téléphone vers un vêtement posé sur une chaise. Standardiser ces images est un prérequis pour la recherche visuelle, les recommandations et la correspondance d’inventaire entre plateformes. Le virtual try-off convertit une simple photo portée en l’image plate et standardisée que tous les systèmes en aval exigent.

L’argument contraire est direct : si le try-on atteignait une adoption totale et réduisait fortement les retours, le problème d’image en aval se réduirait de lui-même. Pour que cela tienne, le try-on devrait éliminer le comportement d’achat multiple pratiqué par 63 % des acheteurs en ligne et traiter les 9 % de retours que la NRF classe comme frauduleux. Même le déploiement du try-on le plus optimiste ne touche que les décisions d’achat. Les retours motivés par des erreurs de cadeaux, des revirements impulsifs et le wardrobing existent indépendamment de la qualité de visualisation. Le try-off ne concurrence pas le try-on ; il opère sur le terrain que le try-on n’a jamais été conçu pour atteindre.

L’économie des catalogues explique pourquoi la recherche s’est accélérée si vite. Une marque disposant de 500 références dépense entre 125 000 et 250 000 dollars par an en photographie produit. La génération d’images par IA a ramené ce coût à quelques centimes par image pour certains cas d’usage. Mais générer une nouvelle image d’un vêtement existant nécessite toujours une référence — et pour les articles retournés, revendus ou uniques, la seule référence disponible est souvent une photo de quelqu’un qui le porte. Les auteurs de TEMU-VTOFF formulent explicitement la tâche comme une réponse au coût d’acquisition d’images de vêtements de style catalogue à grande échelle. La communauté de recherche n’a pas convergé vers le try-off par hasard ; elle a convergé parce que le signal commercial était fort.

Le try-on et le try-off fonctionnent sur les mêmes architectures de diffusion. L’écart était conceptuel : le secteur a passé des années à perfectionner l’apparence des vêtements sur les corps et n’a jamais cherché à savoir comment les en retirer. Les retailers qui décident où allouer leurs budgets IA font désormais face à un choix concret. Le try-on aide un acheteur à imaginer un achat ; le try-off rend un vêtement retourné, revendu ou nouvellement catalogué visible pour le prochain acheteur. Le problème commercial le plus difficile a toujours été le second.