L'Écart de Cinquante Points Entre Nommer un Style et L'Expliquer

Le dataset FashionX d'OmniFashion est le premier benchmark à distinguer la classification du style du raisonnement sur le style, et les résultats révèlent un écart de précision de cinquante points dans les modèles de vision généralistes. Le style au niveau des composantes vestimentaires reste le problème non résolu entre une IA qui filtre et une IA qui conseille.

FashionX, le dataset à l’échelle du million d’exemples présenté par l’équipe de recherche OmniFashion en mars 2026, est le premier benchmark dans le domaine de la mode conçu pour distinguer la classification du style du raisonnement sur le style. La nuance est importante. Les modèles de vision-langage généralistes obtiennent des scores supérieurs à 90 % lorsqu’on leur demande d’identifier la catégorie stylistique générale d’une tenue — un résultat qui laisse entendre que le problème d’étiquetage est en grande partie résolu. Demandez à ces mêmes modèles d’expliquer ce qui rattache un col ou un ourlet particulier à cette catégorie, et la précision tombe sous les 45 %. Cet écart ne tient ni à la taille des modèles ni aux données d’entraînement. Il tient à ce que ces modèles n’ont pas appris à faire : raisonner de manière compositionnelle sur le style visuel.

Les datasets de mode précédents, de DeepFashion à Fashion IQ, évaluaient ce que les modèles pouvaient percevoir : couleur, silhouette, catégorie. FashionX teste ce qu’ils comprennent. Le dataset couvre 1 027 710 tenues, chacune annotée depuis la silhouette d’ensemble jusqu’aux attributs individuels de col et d’ourlet, à l’aide d’un schéma hiérarchique généré par GPT-4.1 avec des contrôles de validation en plusieurs couches. Ce niveau de granularité produit 3,3 millions de pièces vestimentaires étiquetées individuellement, réparties sur treize sous-tâches en cinq catégories : compréhension du style, raisonnement contextuel, reconnaissance d’attributs, recherche d’images et assistance par dialogue. La taxonomie est diagnostique parce qu’elle sépare deux questions que les benchmarks précédents confondaient : « Cette tenue est-elle bohème ? » contre « Qu’est-ce qui rend cette encolure bohème ? »

Sur la classification du style général, les modèles de vision-langage généralistes s’en sortent bien : Claude 4.5 Sonnet atteint 91,2 % de précision sur la sous-tâche de style global de FashionX. Demandez à ce même modèle d’identifier le style au niveau des composantes — de nommer ce qui rattache un ourlet particulier à un style donné — et le score s’effondre à 40,5 %. LLaVA-OneVision affiche une chute comparable de cinquante points, confirmant que le phénomène n’est pas propre à un seul modèle.

Les modèles capables d’étiqueter une robe comme décontractée ne peuvent pas expliquer ce qui la rend décontractée.

OmniFashion, un modèle de trois milliards de paramètres entraîné spécifiquement sur FashionX, réduit l’écart sans pour autant le combler. Sa précision au niveau des composantes atteint 73,5 %, soit vingt points en dessous de son propre score sur le style global. Un déficit de vingt points dans un modèle dédié suggère que le problème est architectural : le raisonnement stylistique exige une inférence compositionnelle que l’entraînement actuel des modèles de vision-langage ne produit pas de manière fiable. L’identification de l’occasion, en revanche, est un problème résolu à des fins pratiques — tous les modèles testés dépassent les 90 %. C’est l’explication de la raison pour laquelle la coupe d’une veste convient à telle occasion qui bloque chacun d’entre eux.

FashionX n’est pas le seul signe récent de cette lacune. LookBench, un benchmark de recherche de mode en conditions réelles publié en janvier 2026, a constaté que de nombreux modèles généralistes tombent sous les 60 % de Recall@1 sur des requêtes propres à la mode, malgré de bonnes performances sur les benchmarks d’images standards. VOGUE, un dataset de recommandation de mode conversationnelle publié en octobre 2025, a montré que les grands modèles de langage multimodaux approchent le niveau humain en moyenne, mais « peinent à généraliser l’inférence de préférences au-delà des articles explicitement évoqués ». Sur trois benchmarks publiés au cours de l’année écoulée, le même constat s’impose : la compétence de surface en matière de mode masque des limites profondes dans la capacité à raisonner à son sujet.

Pour les retailers, la conséquence concrète est que l’angle mort de l’IA se situe là où la valeur commerciale est la plus élevée. Le filtrage par occasion générale est déjà la norme dans tous les grands moteurs de recommandation. Le raisonnement stylistique fin — déterminer si une coupe de pantalon paraît moderne ou démodée, si une encolure met en valeur une certaine morphologie — est la capacité que les stylistes virtuels doivent offrir pour justifier leur coût. Une étude de 2025 sur la recommandation de mode formule l’obstacle ainsi : les propriétés stylistiques résistent à une catégorisation discrète, ce qui explique pourquoi les embeddings statiques ont atteint leurs limites. Si les résultats de FashionX se confirment, le secteur de l’habillement déploie une infrastructure de recommandation qui répond aux questions que les clients ne posent pas, et échoue sur celles qu’ils posent réellement.

La principale objection à FashionX est d’ordre méthodologique. Ses annotations ont été générées par GPT-4.1, et non par des stylistes humains, selon ce que les auteurs appellent une « énumération vestimentaire par couches » assortie de contrôles automatiques de cohérence. Le benchmark pourrait donc mesurer dans quelle mesure d’autres modèles s’accordent avec le vocabulaire stylistique de GPT-4.1 plutôt qu’avec celui de professionnels formés. Mais le gradient de performance interne au benchmark reste instructif : les mêmes modèles, sous les mêmes étiquettes, obtiennent cinquante points de plus sur le style global que sur le style par composantes. Le bruit d’étiquetage aplatirait ce gradient, il ne l’accentuerait pas. L’écart est réel, même si les chiffres absolus nécessiteront un recalibrage une fois que des annotations validées par des experts humains seront disponibles.

L’écart quantifié par OmniFashion se réduira à mesure que les modèles de vision-langage spécialisés dans la mode mûriront et que des benchmarks vérifiés par des experts émergeront. La recherche d’images fonctionne déjà : FashionX rapporte 95 % de R@1 sur la correspondance en boutique. Le style au niveau des composantes reste le goulot d’étranglement, et c’est lui qui déterminera si les outils de stylisme basés sur l’IA passent de simples filtres de recherche à de véritables conseillers. Si la prochaine génération de modèles entraînés sur la mode comble l’écart de cinquante points, les moteurs de recommandation gagneront la capacité d’expliquer aux clients pourquoi, et pas seulement quoi. Si cet écart persiste, le secteur continuera de payer des stylistes humains pour faire ce qu’aucun modèle ne sait encore faire : lire un col et comprendre ce qu’il dit.