Révolutionner la recherche d’entreprise : l’avènement des agents de connaissance basés sur l’apprentissage par renforcement
En tant qu’observateur attentif des évolutions de l’intelligence artificielle, je constate un changement de paradigme majeur dans la manière dont les entreprises abordent la recherche d’informations. Les pipelines RAG (Retrieval-Augmented Generation) traditionnels, souvent optimisés pour un seul type de requête, montrent leurs limites face à la complexité des besoins réels. Databricks, avec son agent KARL (Knowledge Agents via Reinforcement Learning), ouvre une voie prometteuse pour une recherche d’entreprise plus robuste et adaptable.
Le problème des pipelines RAG spécialisés
La plupart des solutions RAG actuelles sont conçues pour exceller dans un domaine spécifique. Un modèle entraîné à synthétiser des rapports inter-documents aura du mal à identifier des entités en fonction de critères précis. Un système conçu pour des recherches simples s’effondrera face à un raisonnement complexe sur des données internes. Ce manque de polyvalence est un frein majeur à l’adoption à grande échelle de la RAG en entreprise. Les équipes se retrouvent souvent à devoir reconstruire des pipelines pour chaque nouveau cas d’usage, un processus coûteux et chronophage.
KARL : un agent de connaissance polyvalent
Databricks a résolu ce problème en développant KARL, un agent de connaissance entraîné simultanément à six comportements de recherche d’entreprise distincts grâce à un nouvel algorithme d’apprentissage par renforcement. Le résultat est un modèle qui, selon Databricks, rivalise avec Claude Opus 4.6 sur un benchmark spécifique, tout en étant 33 % moins coûteux et 47 % plus rapide. Ce qui est particulièrement remarquable, c’est que KARL a été entièrement entraîné sur des données synthétiques générées par lui-même, sans aucun étiquetage humain.
Ce succès repose sur une approche innovante de l’apprentissage par renforcement, adaptée aux tâches complexes et non strictement vérifiables que l’on retrouve en entreprise. Comme l’explique Jonathan Frankle, scientifique en chef de l’IA chez Databricks, “la plupart des tâches sur lesquelles nous travaillons pour KARL ne sont pas strictement vérifiables de la même manière que les tâches traditionnelles d’apprentissage par renforcement.”
Les tâches que KARL maîtrise
KARL excelle dans des tâches telles que :
- Synthèse des informations contenues dans les notes de réunion.
- Reconstruction des résultats d’accords concurrentiels à partir de dossiers clients fragmentés.
- Réponse à des questions sur l’historique des comptes, même si l’information est dispersée dans plusieurs documents.
- Génération de cartes de bataille concurrentielles à partir de données internes non structurées.
Ces tâches nécessitent un raisonnement complexe et une capacité à extraire des informations pertinentes de sources multiples et hétérogènes. KARL est capable d’exécuter une “chaîne de raisonnement difficile” tout en s’ancrant dans les faits récupérés, ce que Frankle appelle le “raisonnement fondé”.
OAPL : le moteur d’optimisation de l’apprentissage par renforcement
L’efficacité de KARL est en grande partie due à OAPL (Optimal Advantage-based Policy Optimization with Lagged Inference Policy), une nouvelle approche d’optimisation de l’apprentissage par renforcement développée conjointement par des chercheurs de Cornell, Databricks et Harvard. OAPL permet de surmonter les difficultés liées à la formation distribuée des modèles de langage, en utilisant un objectif de régression stable même en cas de décalage important entre le modèle générant les données et le modèle en cours de mise à jour.
Au-delà de la RAG : une pile de contexte en évolution
Il y a un débat croissant sur la question de savoir si la RAG sera remplacée par la mémoire contextuelle ou la mémoire agentique. Pour Frankle, il ne s’agit pas d’une alternative, mais plutôt d’une pile à plusieurs niveaux. Une base de données vectorielle contenant des millions d’entrées constitue la base, tandis que la fenêtre contextuelle du LLM se trouve au sommet. Entre les deux, des couches de compression et de mise en cache émergent, déterminant la quantité d’informations que l’agent peut transférer et réutiliser.
KARL illustre cette approche en compressant son propre contexte lorsque la fenêtre contextuelle est saturée, apprenant ainsi à gérer des requêtes complexes nécessitant de multiples appels à la base de données vectorielle.
Les limites de KARL et les perspectives d’avenir
KARL n’est pas parfait. Il a des difficultés avec les questions ambiguës, où plusieurs réponses valides existent. Il peut également abandonner certaines requêtes coûteuses, ce qui peut être une stratégie judicieuse si le modèle est susceptible de se tromper. De plus, KARL a été formé et évalué uniquement sur la recherche vectorielle et ne prend pas encore en charge les requêtes SQL, la recherche de fichiers ou les calculs basés sur Python.
Cependant, ces limites ne remettent pas en question le potentiel de KARL et des agents de connaissance basés sur l’apprentissage par renforcement. L’avenir de la recherche d’entreprise réside dans des systèmes capables de s’adapter à la complexité des données et des requêtes, et de fournir des réponses précises et pertinentes, même dans des situations ambiguës.
FAQ
- Qu’est-ce que KARL ? Un agent de connaissance développé par Databricks, entraîné à six comportements de recherche d’entreprise distincts grâce à l’apprentissage par renforcement.
- Qu’est-ce que OAPL ? Un nouvel algorithme d’optimisation de l’apprentissage par renforcement qui améliore l’efficacité de la formation des modèles de langage.
- Quelle est la différence entre RAG et la mémoire contextuelle ? La RAG combine la récupération d’informations avec la génération de texte, tandis que la mémoire contextuelle stocke et réutilise les informations pertinentes dans le contexte du modèle.
- KARL peut-il remplacer les pipelines RAG existants ? KARL offre une alternative plus polyvalente et adaptable aux pipelines RAG traditionnels, mais son adoption dépendra des besoins spécifiques de chaque entreprise.
L’émergence de KARL et d’autres agents de connaissance basés sur l’apprentissage par renforcement marque une étape importante dans l’évolution de la recherche d’entreprise. Il est temps pour les équipes de données de reconsidérer leurs architectures de pipelines et d’explorer les possibilités offertes par ces nouvelles technologies. N’hésitez pas à partager vos réflexions et vos expériences dans les commentaires ci-dessous.
