Votre prochain panier est minuté
Les cadences de réachat au niveau de l'article capturent une précision temporelle que les modèles de recommandation au niveau du panier ignorent, et les distributeurs alimentaires qui encodent ce signal mesurent déjà la différence.
Neritus Vale
La plupart des modèles de recommandation de prochain panier traitent une commande de courses comme un ensemble d’articles et prédisent l’ensemble suivant. Ils saisissent ce que les clients achètent ensemble. Ils ratent le moment où chaque article arrive individuellement à échéance. Cette distinction est importante parce que chaque produit dans un panier fonctionne sur son propre rythme : le lait revient chaque semaine, la lessive chaque mois, les épices tous les trimestres. Encoder ces cadences au niveau de l’article dans les modèles de recommandation capture une précision temporelle que les approches par panier abandonnent. La recherche existe ; la plupart des systèmes en production ne l’utilisent pas.
Les articles répétés constituent l’essentiel de la prédiction du prochain panier. Une étude ReCANet menée sur six jeux de données de transactions alimentaires a révélé que plus de 54 % du rappel de recommandation provient d’articles que l’utilisateur a déjà achetés, un ensemble qui ne représente que 1 % du catalogue total. La moitié du travail utile d’un modèle se concentre sur une infime fraction de produits que le client connaît déjà. Le jeu de données public d’Instacart confirme cette tendance : sur 3 millions de commandes, la fréquence de réachat culmine à des intervalles de sept, quatorze et trente jours, avec un écart médian de sept jours. La plupart des architectures d’apprentissage profond séquentielles traitent ces signaux répétés de manière identique à l’exploration de nouveaux articles, épuisant leur capacité sur l’étendue alors qu’elles devraient la consacrer à la temporalité.
De simples comptages de fréquence surpassent déjà la plupart des modèles d’apprentissage profond sur cette tâche. Une comparaison empirique de huit méthodes de prédiction de prochain panier a montré que TOP — l’approche qui classe les articles selon la fréquence d’achat de l’utilisateur — surpasse fréquemment les architectures neuronales incluant les RNN sur le rappel, le MAP et le NDCG. Par ailleurs, Hu et al. ont démontré à SIGIR 2020 qu’une méthode kNN fondée sur la fréquence d’achat personnalisée surpassait l’état de l’art en apprentissage profond sur quatre jeux de données publics. Ces références de fréquence réussissent parce que l’historique d’achat au niveau de l’article contient un signal que les modèles séquentiels par panier n’arrivent pas à extraire. Elles prouvent que le signal existe ; elles ne le capturent pas entièrement, car la fréquence brute manque d’une horloge.
Les modèles conscients de la cadence ajoutent cette horloge. Katz et al. ont formalisé cette idée dans leur cadre « Buy-Cycle » à RecSys 2022, en construisant un modèle hyper-convolutif qui apprend les rythmes de réachat au niveau de l’article pour chaque utilisateur. Leurs travaux approfondis dans ACM Transactions on Recommender Systems (2024) ont introduit une conscience de cadence personnalisée, analysant les schémas de réachat à trois niveaux de granularité : utilisateur, commande et article. Le niveau de l’article est le plus déterminant. Un modèle qui sait qu’un client achète du lait d’avoine tous les neuf jours et des pastilles pour lave-vaisselle toutes les six semaines peut distinguer une pastille en retard de celle achetée la semaine dernière. Les modèles par panier, qui ne voient que la séquence des commandes complètes, compriment ces deux signaux dans la même représentation.
L’écart entre savoir ce qu’un client achète et savoir quand chaque article arrive à échéance, c’est là que les systèmes de recommandation en production perdent en précision.
L’objection évidente est que si la cadence au niveau de l’article était aussi puissante, l’industrie l’utiliserait déjà. Le coût technique est réel. Les modèles conscients de la cadence doivent maintenir des états de temporisation par utilisateur et par article, ce qui multiplie à la fois les besoins en données d’entraînement et la complexité de mise en production. Si la plupart des paniers alimentaires sont petits et habituels, un modèle de fréquence bien réglé peut capturer l’essentiel de la valeur à une fraction du coût. Cette objection tient pour les distributeurs avec des assortiments étroits et une clientèle stable. Elle tombe pour toute plateforme où la composition du panier varie, où la tarification promotionnelle perturbe les rythmes, ou encore où le coût d’une recommandation mal ciblée se mesure en suggestions ignorées qui érodent la confiance dans le widget.
Les résultats appliqués confirment la direction. Le modèle T-REX d’Amazon, une architecture transformer pour la recommandation alimentaire, cartographie 29 000 produits sur des séquences de catégories et utilise un encodage positionnel adaptatif pour gérer des intervalles d’achat irréguliers. Des tests A/B ont produit une hausse des ventes de 23 % par rapport aux widgets de recommandation existants, avec les gains les plus importants chez les nouveaux clients et les petits paniers de moins de cinq articles. Par ailleurs, un cadre PCIC pour les recommandations « Buy It Again » à RecSys 2023 a montré jusqu’à 16 % d’amélioration du NDCG en décomposant la prédiction de réachat en fréquence au niveau de la catégorie et en classement au niveau de l’article, entraîné sur 100 millions de clients et 3 millions de produits. Les deux encodent la cadence temporelle à différentes granularités, sans se reposer uniquement sur la séquence par panier.
Le levier est précis et le coût de l’ignorer se manifeste à chaque impression de widget qui rate sa cible. Pour les distributeurs alimentaires et les acteurs du réapprovisionnement, le panier est la mauvaise unité d’analyse temporelle. Chaque article fonctionne sur sa propre horloge. La recommandation qui arrive au moment où cette horloge sonne convertit ; celle qui arrive une semaine trop tôt apprend au client à ne plus regarder. La cadence n’est pas une fonctionnalité à ajouter au modèle — c’est le signal que le modèle a été conçu pour trouver.