Nouvelles Du Monde

ReaLM d’Apple comprend les références utilisateur ambiguës avec des performances comparables à GPT4

ReaLM d’Apple comprend les références utilisateur ambiguës avec des performances comparables à GPT4

2024-04-04 12:29:49

Dossier – Intelligence artificielle (IA). – PIXABAY – Archives

MADRID, 4 avril. (Portail/EP) –

Pomme a développé un modèle de langage qui, bien qu’ayant moins de paramètres que GPT4, offre des performances similaires à celui-ci, considéré comme le plus avancé, dans la compréhension des références ambiguës lors de l’interaction avec l’utilisateur.

Les chercheurs d’Apple ont travaillé sur l’un des problèmes auxquels sont confrontés les grands modèles de langage (LLM), la résolution de référence, à savoir que, références ambiguës dans le langage humain (par exemple, faire référence à quelque chose comme « ça » ou « ceci ») qui sont comprises à partir du contextemais que les assistants conversationnels IA ne peuvent pas comprendre.

Le problème est évident dans l’interaction des personnes avec les assistants virtuels, en particulier avec les améliorations qui permettent la communication en langage naturel, car il existe une partie de la conversation à laquelle ils ne peuvent pas répondre pour ne pas avoir compris le contexte. Par exemple, lorsqu’on lui demande de rechercher une pharmacie à proximité et la liste présentée par l’assistant, si l’humain demande « d’appeler ce numéro » car c’est celui affiché à l’écran.

Lire aussi  Que signifie SFS sur Instagram ?

Ce problème de référence est exacerbé par les LLM qui sont généralement intégrés dans des appareils, qui fonctionnent localement sur des ordinateurs à capacité de calcul réduite.

Pour résoudre ce problème, les chercheurs d’Apple ont développé RealLM (Résolution de référence comme modélisation du langage) avec lequel ils font comprendre au modèle les références ambiguës qui sont affichés à l’écran pour améliorer le naturel de la conversation.

Bien qu’il ne s’agisse pas d’une approche nouvelle, puisque, comme ils l’expliquent, il existe déjà des recherches qui ont exploré les références conversationnelles, visuelles et déictiques, le travail axé sur l’écran n’est pas si courant, car il est généralement « traité comme un problème de texte et non comme un problème ». composante visuelle ». À cela s’ajoute que les références ambiguës aux éléments à l’écran ont tendance à être davantage centrées sur la réalisation d’une action.

Bien que des transformateurs visuels et d’autres modèles pré-entraînés soient récemment apparus, ils ne suffisent pas à résoudre le problème de référence, car ils ont été formés avec des images du monde réel et non avec des captures d’écran.

Lire aussi  Les avatars personnalisés de Meta se lancent sur WhatsApp

Avec leurs travaux, ils ont montré que « de grands modèles de langage peuvent être utilisés pour effectuer une résolution de référence » en codant les entités candidates sous forme de texte naturel. C’est, peut comprendre des images intégrées dans du texte et en extraire des informations.

“De manière critique, nous démontrons comment les entités présentes à l’écran peuvent être transmises dans un LLM en utilisant une nouvelle représentation textuelle qui résume l’écran de l’utilisateur tout en préservant les positions spatiales relatives de ces entités”, écrivent-ils dans le texte de recherche publié. dans Arxiv.org.

Avec leur travail, ils veillent à ce que RealLM a des performances comparables à GPT4d’OpenAI, malgré “beaucoup moins de paramètres“, à la fois pour les références à l’écran et les expressions utilisateur.



#ReaLM #dApple #comprend #les #références #utilisateur #ambiguës #avec #des #performances #comparables #GPT4
1712226353

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

ADVERTISEMENT