Die Fünfzig-Punkte-Klippe zwischen Stilbenennung und Stilbegründung

OmniFashions FashionX-Datensatz ist der erste Benchmark, der Stilklassifikation von Stilbegründung trennt – und die Ergebnisse legen eine Lücke von fünfzig Prozentpunkten bei allgemeinen Bildsprachmodellen offen. Stil auf Teile-Ebene bleibt das ungelöste Problem zwischen KI, die filtert, und KI, die berät.

FashionX, der im März 2026 vom OmniFashion-Forschungsteam vorgestellte Datensatz im Millionenmaßstab, ist der erste Fashion-Benchmark, der Stilklassifikation von Stilbegründung trennt. Diese Unterscheidung ist entscheidend. Allgemeine Bildsprachmodelle erzielen über 90 Prozent, wenn sie gebeten werden, die übergeordnete Stilkategorie eines Outfits zu benennen – ein Ergebnis, das nahelegt, dass das Beschriftungsproblem weitgehend gelöst ist. Fragt man dieselben Modelle jedoch, was einen bestimmten Kragen oder Saum dieser Kategorie zugehörig macht, fällt die Genauigkeit auf unter 45 Prozent. Die Lücke hat nichts mit Modellgröße oder Trainingsdaten zu tun. Sie betrifft das, was diese Modelle nicht gelernt haben: kompositorisches Denken über visuellen Stil.

Frühere Fashion-Datensätze, von DeepFashion bis Fashion IQ, prüften, was Modelle sehen können: Farbe, Silhouette, Kategorie. FashionX prüft, was sie verstehen. Der Datensatz umfasst 1.027.710 Outfits, die mithilfe eines hierarchischen, von GPT-4.1 mit mehrschichtigen Validierungskontrollen erstellten Schemas von der Gesamtsilhouette bis hin zu einzelnen Kragen- und Saumattributen annotiert wurden. Diese Granularität ergibt 3,3 Millionen einzeln gekennzeichnete Kleidungsstücke in dreizehn Teilaufgaben aus fünf Kategorien: Stilverständnis, Szenenerkennung, Attributerkennung, Suche und dialogbasierte Beratung. Die Taxonomie hat diagnostischen Charakter, weil sie zwei Fragen trennt, die frühere Benchmarks vermischten: „Ist dieses Outfit Boho?” und „Was genau an diesem Ausschnitt macht es Boho?”

Bei der übergeordneten Stilklassifikation schneiden allgemeine Bildsprachmodelle gut ab: Claude 4.5 Sonnet erreicht 91,2 Prozent Genauigkeit bei FashionX’s Gesamtstil-Teilaufgabe. Wird dasselbe Modell gebeten, Stil auf Teile-Ebene zu benennen – also zu erklären, was einen bestimmten Saum diesem Stil zuordnet – bricht der Wert auf 40,5 Prozent ein. LLaVA-OneVision zeigt einen vergleichbaren Abfall von fünfzig Punkten, was bestätigt, dass das Muster nicht modellspezifisch ist.

Modelle, die ein Kleid als casual einordnen können, sind nicht in der Lage zu erklären, was es casual macht.

OmniFashion, ein drei Milliarden Parameter großes Modell, das gezielt auf FashionX trainiert wurde, verringert die Lücke, schließt sie aber nicht. Seine Stil-Genauigkeit auf Teile-Ebene erreicht 73,5 Prozent – zwanzig Punkte unter dem eigenen Gesamtstil-Wert. Ein Defizit von zwanzig Punkten in einem zweckgebaut entwickelten Modell deutet auf ein architektonisches Problem hin: Stilbegründung erfordert kompositorisches Schlussfolgern, das aktuelles Vision-Language-Training nicht zuverlässig hervorbringt. Anlass-Erkennung hingegen ist für praktische Zwecke gelöst – jedes getestete Modell überschreitet 90 Prozent. Zu erklären, warum der Schnitt einer Jacke zum Anlass passt, ist der Punkt, an dem jedes Modell ins Stocken gerät.

FashionX ist nicht der einzige jüngste Beleg für dieses Defizit. LookBench, ein im Januar 2026 veröffentlichter Live-Benchmark für Fashion-Retrieval, stellte fest, dass viele allgemeine Modelle bei modespezifischen Suchanfragen unter 60 Prozent Recall@1 fallen, obwohl sie auf Standard-Bild-Benchmarks stark abschneiden. VOGUE, ein im Oktober 2025 veröffentlichter Datensatz für konversationelle Modeempfehlungen, zeigte, dass multimodale Sprachmodelle in der Gesamtübereinstimmung mit menschlichem Urteil fast gleichziehen, aber „Schwierigkeiten haben, Präferenzinferenzen über explizit besprochene Artikel hinaus zu verallgemeinern”. In drei innerhalb eines Jahres veröffentlichten Benchmarks zeigt sich dasselbe Muster: Oberflächliche Kompetenz in Modefragen verdeckt tiefgreifende Grenzen beim Denken darüber.

Für den Einzelhandel liegt die praktische Konsequenz darin, dass der blinde Fleck der KI genau dort sitzt, wo der kommerzielle Wert am höchsten ist. Grobkörnige Anlass-Filterung ist bereits Standard in jeder großen Empfehlungsmaschine. Granulares Stildenken – ob ein Hosenschnitt modern oder veraltet wirkt, ob ein Ausschnitt eine bestimmte Figur vorteilhaft in Szene setzt – ist die Fähigkeit, die virtuelle Stylisten liefern müssen, um ihren Aufwand zu rechtfertigen. Eine Übersichtsstudie zu Fashion-Empfehlungssystemen aus dem Jahr 2025 benennt das Hindernis: Stileigenschaften entziehen sich diskreter Kategorisierung, was erklärt, warum statische Einbettungen ins Stocken geraten sind. Wenn die FashionX-Ergebnisse Bestand haben, betreibt die Modebranche Empfehlungsinfrastruktur, die die Fragen beantwortet, die Kunden nicht stellen, und an den Fragen scheitert, die sie tatsächlich haben.

Der stärkste Einwand gegen FashionX ist methodischer Natur. Seine Annotationen wurden nicht von menschlichen Stylisten erstellt, sondern von GPT-4.1 unter Verwendung einer sogenannten „geschichteten Kleidungsstück-Enumeration” mit automatisierten Konsistenzkontrollen. Der Benchmark könnte daher eher messen, ob andere Modelle mit GPT-4.1s Modewortschatz übereinstimmen als mit dem ausgebildeter Fachleute. Dennoch bleibt der Performance-Gradient innerhalb des Benchmarks aussagekräftig: Dieselben Modelle, unter denselben Bezeichnungen, erzielen beim Gesamtstil fünfzig Punkte mehr als beim Stil auf Teile-Ebene. Rauschen in den Beschriftungen würde diesen Gradienten abflachen, nicht verstärken. Die Lücke ist real, auch wenn die absoluten Zahlen noch kalibriert werden müssen, sobald von Experten verifizierte Annotationen vorliegen.

Die von OmniFashion quantifizierte Lücke wird sich verringern, wenn modespezifische VLMs reifen und expertenvalidierte Benchmarks entstehen. Retrieval funktioniert bereits: FashionX meldet 95 Prozent R@1 beim In-Shop-Matching. Stil auf Teile-Ebene bleibt der Engpass – und er entscheidet darüber, ob KI-Styling-Tools von Suchfiltern zu Beratern werden. Schließt die nächste Generation fashion-trainierter Modelle die Fünfzig-Punkte-Lücke, gewinnen Empfehlungsmaschinen die Fähigkeit, Kunden zu sagen warum, nicht nur was. Bleibt sie bestehen, zahlt die Branche weiterhin menschlichen Stylisten dafür, was kein Modell bisher kann: einen Kragen lesen und wissen, was er aussagt.