Les mannequins de tenues ont leur jeu de données. Le catalogue dit « doux et chaud ».

Deux jeux de données pour la génération de tenues publiés ce printemps comblent l'écart que l'on reprochait aux modèles. Le goulot d'étranglement se déplace aussitôt vers les équipes catalogue, dont les données produits n'ont jamais été conçues pour un générateur de tenues.

La génération de tenues a obtenu son jeu de données en huit semaines. Garments2Look est apparu sur arXiv en mars, introduisant 80 000 tenues multi-vêtements structurées en triplets image de référence, image mannequin et texte structuré, couvrant des catégories générales et fines. FashionStylist a suivi en avril, avec une annotation à l’échelle de l’article allant jusqu’au rôle de superposition et à la compatibilité au niveau de la tenue. Ce sous-domaine, qui a passé des années sans pouvoir s’accorder sur un benchmark, en dispose désormais de deux — différents en échelle et en intention, mais convergeant vers la même exigence pour tout retailer souhaitant déployer les modèles qui en résultent. La forme de cette exigence est précisément ce que la plupart des catalogues produits ne contiennent pas.

Un retailer qui lirait Garments2Look remarquerait d’abord le pipeline de synthèse avant le modèle lui-même. Le jeu de données construit des listes de tenues de manière heuristique, les fait passer par une étape d’essayage virtuel, puis les filtre par automatisation et révision humaine. Ce que le système apprend ainsi, c’est le lien entre une description structurée et un look abouti : le nom du tissu associé à son comportement au tombé, la séquence de superposition à une étiquette fonctionnelle, la saison encodée comme attribut plutôt que devinée. FashionStylist emprunte la voie plus lente et plus experte, avec des articles annotés manuellement par des stylistes jusqu’au rôle de superposition que joue chaque pièce au sein d’une tenue complète. Les deux articles laissent entendre, sans tout à fait le dire, que la qualité du modèle n’est plus la contrainte décisive. Garments2Look admet franchement que les méthodes actuelles produisent encore des désalignements et des artefacts sur les tâches que le jeu de données définit — ce à quoi sert un benchmark : rendre l’échec mesurable plutôt que discutable.

La contrainte décisive, c’est de savoir quelle base de données produits peut parler la langue que le modèle a appris à entendre.

C’est la deuxième fois en deux mois que le domaine bute contre le même mur. Nous écrivions le 12 mai que Tstars-Tryon, le système d’essayage virtuel de Taobao déployé à l’échelle industrielle avant son article d’avril, ne peine plus à rendre la soie ou le tricot ; ce qui lui pose problème, c’est un catalogue dont la longueur de manche est notée « standard ». La génération de tenues atteint désormais le même mur par l’autre côté. Pour l’essayage virtuel, l’unité est le vêtement ; pour la génération de tenues, l’unité est la relation entre les vêtements — le rôle que joue chacun, la couche qu’il occupe, la logique saisonnière qui donne sa cohérence à un look. Ces deux définitions trouvent une réponse dans les nouveaux jeux de données, et aucune réponse dans la feuille de calcul retail habituelle.

L’asymétrie de préparation révèle qui est exposé. Garments2Look dispose en moyenne de 4,48 images de référence par tenue, chaque article portant une annotation en langage naturel et par catégorie avant même que le conditionnement ne commence. Un retailer qui travaille à partir d’un système d’information produit classique dispose d’une seule photographie, d’une arborescence de catégories lacunaire, et d’un paragraphe de texte marketing rédigé il y a des années par quelqu’un briefé sur le référencement naturel. Les équipes catalogue n’ont jamais été invitées à renseigner un « rôle de superposition », parce que personne en amont ne modélisait une tenue en couches. La forme du signal a évolué plus vite que la structure de données qui l’alimente.

![A split-frame scene: on the left, a server rack with neatly labelled fabric-attribute tags streaming across screens; on the right, a paper product card with one line of marketing text and a coffee smudge.](generate: A split-frame scene; a clean server rack on the left with neatly labelled fabric attribute tags streaming across screens; on the right a paper product card carrying a single line of marketing text and a faint coffee smudge; warehouse lighting, dispassionate composition.)

Le contre-argument le plus solide est que les modèles feront eux-mêmes le travail d’annotation. Un modèle vision-langage peut lire une image produit et en déduire le poids du tissu, le rôle de superposition, voire la grammaire conditionnelle qui fait qu’un article appartient à une tenue hivernale — c’est précisément l’argument que la plupart des éditeurs d’enrichissement catalogue avancent auprès des retailers en 2026. La condition nécessaire est que les étiquettes inférées restent stables d’un bout à l’autre du catalogue, saison après saison, le même article décrit de la même façon à chaque fois. Cette stabilité n’est pas une fonction de la précision du modèle, mais d’une discipline de gouvernance — la fréquence à laquelle un retailer ré-étiquette, et la rigueur avec laquelle il le fait. Un catalogue enrichi en février et mis en ligne sans gouvernance portera, à l’automne, le même manteau avec trois étiquettes de superposition différentes selon le lot hebdomadaire qui a exécuté l’inférence. Le modèle retourne une bonne réponse ; le catalogue en stocke trois.

Le profil de ceux qui sont exposés est désormais lisible. Les pure players du e-commerce dotés d’équipes techniques et de graphes produits unifiés peuvent reconstruire leur schéma catalogue en une saison s’ils le décident ; nous notions plus tôt cette semaine que l’absorption de ABOUT YOU par Zalando pour 1,13 milliard d’euros achète précisément la profondeur technique que ce travail présuppose. Les grands magasins et les opérateurs multi-marques sous licence portent un fardeau plus lourd : des milliers de fournisseurs qui rédigent des descriptions en texte libre, aucune clause contractuelle imposant des attributs structurés, et pas d’équipe interne pour les faire respecter même s’il y en avait une. Le modèle que ces retailers vont licencier sait rendre un manteau dans une laine dont le tombé est correct sous la lumière studio. Il ne sait pas rendre un manteau décrit comme « doux et chaud », parce qu’il n’y a aucun signal dans ces trois mots pour le guider.

Si la génération de tenues poursuit sa trajectoire actuelle, la bifurcation côté consommateur arrivera plus vite que les articles de recherche ne l’anticipent. Les catalogues dotés de champs structurés publieront des suggestions de tenues complètes qui ressembleront à une note de styliste : poids de tissu assortis, superposition calibrée, accessoires adaptés à la saison. Les autres publieront quatre images sur fond gris et un bouton intitulé « compléter le look » — que le back-end est incapable de compléter, parce que rien dans la base de données ne lui indique comment. Le prix des douze prochains mois ne se paie ni en puissance de calcul ni en frais de licence. Il se paie selon que les personnes qui rédigeaient les fiches produits en 2022 l’ont fait pour un moteur de recherche, ou pour un modèle qui n’existait pas encore.