Shopping-Agenten erzielten 76 % bei einem Kunden, den es nicht gibt

Zwei arXiv-Studien messen die Lücke zwischen simulatorbewerteteten und menschlich bewerteten LLM-Shopping-Agenten auf rund dreißig Prozentpunkte – und erklären, warum Einzelhandelspiloten wie der von Klarna ihre Automatisierungsversprechen still und leise zurückgerudert haben.

Die Lücke zwischen simulatorbewerteten und menschlich bewerteten Shopping-Agenten ist nun quantifiziert – und sie ist größer, als das Forschungsfeld bislang eingestanden hat. Eine im Januar veröffentlichte Studie und ein neues Begleitpapier setzten echte Einkäufer vor LLM-Handelsagenten und stellten fest, dass das Benchmark die Erfolgsquote um rund dreißig Prozentpunkte überschätzt hatte. Die Pilotprojekte, die ihre KI-Assistenten-Zahlen in letzter Zeit stillschweigend zurückgerudert haben, finden in diesen Papieren nun zitierfähige Belege und eine saubere Erklärung für das Defizit.

Lost in Simulation ließ τ-Bench-Retail-Aufgaben gegen echte Nutzer in den USA, Indien, Kenia und Nigeria laufen, wobei GPT-4o durchgehend als Agent eingesetzt wurde. Gegenüber echten US-Teilnehmern kam GPT-4o auf 45,2 %; derselbe Agent hatte zuvor gegen Sonnet-4.5-simulierte Nutzer rund 76 % erzielt. Benchmark und Praxis hatten schlicht nicht denselben Agenten gemessen.

Die Abweichung ist nicht gleichmäßig verteilt. Simulierte Nutzer unterschätzten den Agentenerfolg bei den schwierigsten Aufgaben und überschätzten ihn bei mittelschweren, wo echte Menschen nur auf 39,0 % kamen. Bei älteren AAVE-Sprechern im Vergleich zu älteren Sprechern des Standard-amerikanischen Englisch sank die Performance um weitere neunzehn Prozentpunkte – und der Simulator war für AAVE und Indisches Englisch am schlechtesten kalibriert. Der Simulator ist kein Rauschgenerator. Er bewertet mit hoher Sicherheit eine völlig andere Bevölkerungsgruppe als die, auf die der Agent tatsächlich treffen wird. Der Fehler ist strukturell, nicht zufällig, und zeigt konsequent in eine Richtung.

Das Begleitpapier Beyond Cooperative Simulators liefert die Diagnose. Bestehende Nutzersimulationen sind kooperativ, homogen und verhaltenlich flach. Die neue Methode – Persona Policies, kurz PPol – erzeugt per Python-Generatoren Nutzer, die „unklar, ungeduldig oder unwillig sind, Informationen zu teilen” – so die Formulierung im Abstract. Annotatoren hielten die neuen simulierten Nutzer zu 80,4 % für echte Menschen – etwa doppelt so oft wie bei der Baseline. Agenten, die gegen den anspruchsvolleren Simulator trainiert wurden, verbesserten ihre Aufgabenerfolgsquote um siebzehn Prozent. Beide Papiere kommen zum selben Schluss: Das Benchmark bewertet einen Kunden, den es so nicht gibt.

A nautilus shell holds two report cards in its tentacles; one labeled "Simulated Shopper" graded 76%, one labeled "Real Shopper" graded 45%.

Der Einzelhandel hat dieselbe Beobachtung gemacht – nur ohne sie aufzuschreiben. Klarna rühmte sich 2024 damit, dass sein Assistent die Arbeit von siebenhundert Mitarbeitern übernehme; im Mai 2025 räumte sein CEO gegenüber Bloomberg ein, die Einsparungen seien zu weit gegangen, und das Unternehmen baue nun wieder menschliche Kapazitäten auf. Eine Amazon-Rufus-Studie ergab, dass digitale LLM-Zwillinge mit menschlichen Handlungsmustern übereinstimmten und vergleichbares Design-Feedback lieferten – ein optimistischeres Ergebnis, wenngleich diese Studie Interaktionen in der Designphase und nicht den Live-Betrieb unter realistischem Nutzerdruck bewertete.

Was das Benchmark besteht, scheitert beim echten Einkäufer.

Die naheliegende Gegenthese: Ein Simulator muss nicht präzise sein, nur nützlich für Relativvergleiche. Wenn Sonnet 4.5 in der Simulation besser abschneidet als Sonnet 3.7 und das auch im Einsatz tut, sind die absoluten Zahlen ohnehin Beiwerk. τ-Bench etablierte sich Mitte 2024 als feldübliches Evaluierungstool auf genau dieser Prämisse: günstig, reproduzierbar, gut zum Sortieren.

Diese Verteidigung bricht an der Spalte Expected Calibration Error zusammen. Die Autoren von Lost in Simulation ermittelten einen ECE von 11,7 für Standard-amerikanische Englischsprecher und 20,3 für AAVE-Sprecher; die Konfidenz des Simulators verschiebt sich je nach demografischer Gruppe. Die Verzerrung des Leaderboards ist differenziell, nicht gleichmäßig. Zwei Agenten, die auf dem Leaderboard gleichauf liegen, können sich in der Praxis in entgegengesetzte Richtungen entwickeln, sobald der Einkäufer nicht mehr dem fiktiven Kunden entspricht, auf den der Simulator trainiert wurde. Das Benchmark optimiert für Agenten, die auf eine bestimmte Kundenfigur zugeschnitten sind – eine, die es so nicht gibt.

Die Rechnung wird dort beglichen, wo Retailer noch nicht messen. Ein Pilotagent, der seine Simulatorziele erreicht und im Einsatz um vierzig Prozent schwächer abschneidet, versagt nicht – er erfüllt die einzige Kennzahl, an der er je gemessen wurde. Und diese Kennzahl war kalibriert auf einen höflichen Kunden, der jede Frage beim ersten Mal vollständig beantwortet. Die Lösung liegt nicht in größeren Modellen; der Engpass hat sich vom Agenten auf die Persona verlagert, gegen die er bewertet wird. Wer im Einzelhandel wissen will, ob sein Shopping-Agent wirklich funktioniert, sollte ihn gegen den unfreundlichen Einkäufer testen, den abgelenkten und den, der keine Postleitzahl eintippen will. PPol bietet einen kostengünstigen Weg, genau diesen Test zu entwickeln – und Klarnas Kurskorrektur liefert die Sprache, um den Aufwand dem Vorstand zu erklären. Die Papiere liegen nun dort, wo das Feld bislang versagt hat.