Pour une fois, un système de recommandation à démarrage à froid montre sa démarche

Un article arXiv de l'EPFL présente un cadre de recommandation à démarrage à froid et vérifiable appelé GRECS, surpassant la référence de popularité jusqu'à 198 % sur cinq jeux de données standard. Pour les retailers de mode soumis à des pressions de gouvernance, c'est le premier système de démarrage à froid qu'ils peuvent défendre par écrit.

Un article de l’EPFL sur arXiv introduit une adaptation à démarrage à froid de la recommandation par raisonnement sur graphe : chaque suggestion est formulée comme un parcours explicite et vérifiable à travers un graphe de connaissances. Sur le benchmark Amazon Clothing, UPGPR0 dépasse la référence de popularité pour les utilisateurs sans historique d’interaction de 119 % en nDCG. L’article s’appelle GRECS. Ce qui compte, ce n’est pas la colonne de résultats. Les systèmes de démarrage à froid précédents se dissimulaient soit dans des embeddings que personne ne pouvait inspecter, soit greffaient une explication sur un modèle de langage après coup. GRECS ne fait ni l’un ni l’autre : ses recommandations sont des chemins, et chaque chemin est un reçu.

Le secteur de la mode concentre la version la plus sévère du problème de démarrage à froid dans le commerce de détail. Les lancements en édition limitée, le renouvellement saisonnier des références et un taux particulièrement élevé de nouveaux visiteurs font que, à n’importe quel moment, une part significative du catalogue d’un site et une part significative de ses visiteurs sont inconnues du système de recommandation. La réponse habituelle — la factorisation matricielle enrichie de données auxiliaires — prétend depuis dix ans qu’il s’agit d’un problème de sparsité. C’est aussi un problème de lisibilité. Les retailers n’ont aucun moyen d’expliquer à un client perdu, un client fidèle, ou un régulateur pourquoi le système a proposé ce qu’il a proposé.

Les résultats de GRECS constituent un désaveu pour la littérature spécialisée sur le démarrage à froid de la dernière décennie. Développé par Jibril Frej, Marta Knežević et Tanja Käser à l’EPFL, l’article teste cinq jeux de données standard : Amazon Beauty, CDs and Vinyl, Cellphones, Clothing, et le corpus COCO MOOC. Leur meilleur algorithme, UPGPR, abandonne les schémas de chemins artisanaux sur lesquels s’appuyaient les méthodes de raisonnement sur graphe antérieures, et ne récompense l’agent que lorsque le parcours aboutit sur un article qu’un utilisateur a réellement consulté. Pour les utilisateurs en démarrage à froid strict, la progression est embarrassante pour le domaine : 198 % au-dessus de la référence de popularité sur Beauty, 116 % sur Cellphones, 119 % sur Clothing. Deux références spécialisées en démarrage à froid, MKR et SpectralCF, obtiennent en réalité de moins bons résultats qu’un simple recommandeur de popularité. Le domaine revendiquait des progrès tout en livrant des systèmes moins performants.

Une explication générée par un LLM pour une recommandation à démarrage à froid, c’est un second récit construit sur le premier, par le même narrateur. Les systèmes de justification post-hoc peuvent produire des justifications en langage naturel fluides pour une recommandation — le texte est lisible et les références plausibles. Mais l’explication et le classement émergent de processus distincts : l’explication ne retrace rien du chemin que le modèle a réellement emprunté pour produire le résultat. Un chemin GRECS, en revanche, est un parcours que le lecteur peut lui-même suivre — et c’est précisément cette distinction que la recommandation à démarrage à froid a passé dix ans à éviter.

GRECS apporte quelque chose que le classement ne peut pas mesurer : une recommandation vérifiable. Il produit des chemins explicites à travers un graphe de connaissances — « l’utilisateur a aimé la marque X ; la marque X fabrique l’article Y ; l’article Y est recommandé » — qu’un chef de produit peut lire et qu’un régulateur peut inspecter. Les méthodes par embedding imposent un choix binaire : faire confiance à la courbe de perte, ou écarter la suggestion. Avec des chemins, l’opérateur peut contester la relation spécifique qui a produit le classement. C’est la différence entre un score en boîte noire et une affirmation vérifiable. Les directions de retailers de mode qui ont passé dix-huit mois à rédiger des politiques de gouvernance de l’IA sans disposer d’un seul recommandeur auditable ont enfin quelque chose à montrer.

L’objection la plus solide est que GRECS ne fonctionne que si le graphe de connaissances qui le sous-tend est riche et propre. Des tags de catalogue épars ou incohérents — codes de style mal étiquetés, attributs manquants, hiérarchies de marques aplaties — dégradent le graphe et rendent les chemins triviaux : l’utilisateur a acheté un jean, recommander un jean. Les auteurs le reconnaissent indirectement : leur variante sans embedding, qui suppose l’absence de métadonnées utiles, atteint 21 % de couverture des articles à froid sur Beauty, contre 33 % pour la version avec embedding par translation. L’objection tient, et son contenu réel est une facture pour le travail d’enrichissement du catalogue que les retailers de mode ont reporté depuis dix ans. La condition préalable à une recommandation à démarrage à froid vérifiable est une ontologie de catalogue que la plupart d’entre eux n’ont pas encore construite, et elle ne se construira pas d’elle-même.

Cette réserve n’est pas anodine.

Si les retailers de mode acceptent l’idée que le démarrage à froid est un problème de lisibilité et que les embeddings opaques ne peuvent pas rester la norme en production, le travail remonte vers la taxonomie, l’attribution et la conception d’ontologies stylistiques — les parties les plus discrètes et les moins surveillées d’une équipe catalogue. Ceux qui y investissent pourront, pour la première fois, défendre une recommandation par écrit. Les retailers qui ne le feront pas continueront à envoyer des suggestions qu’ils ne peuvent expliquer ni à un client, ni à un acheteur, ni à un régulateur, en appelant cela de la « personnalisation ». Si la pression réglementaire continue au rythme actuel, ce mot devra finir par désigner quelque chose qu’un retailer peut lire à voix haute.