NLP : Notes de lecture #2 (Points forts de la conférence EMNLP 2021)
Comme certains d’entre vous le savent peut-être, au début du mois de novembre 2021, j’ai eu le grand honneur de publier et d’être présent à la conférence EMNLP 2021 en République dominicaine. Là-bas, j’ai rencontré beaucoup de personnes et j’ai découvert de nombreuses recherches intéressantes. Pour ma première conférence, j’ai rapidement compris que l’endroit le plus intéressant était les sessions posters. Là, dans une grande salle, des dizaines de chercheurs présentent leurs travaux et rivalisent pour votre attention. C’était l’occasion de discuter avec eux en tête-à-tête et de mieux comprendre ce qu’ils font. Dans cet article, je vais présenter ma sélection des projets de recherche les plus intéressants que j’ai découverts lors de ces sessions.
Box Embeddings : Une bibliothèque open-source pour l’apprentissage de la représentation des mots à l’aide de structures géométriques
Les word embeddings traditionnels nous permettent de traduire les mots en vecteurs numériques afin que les ordinateurs puissent les manipuler de manière algébrique. Cela nous permet essentiellement de faire des mathématiques avec des mots (par exemple, ROI – HOMME + FEMME = REINE).
Cet article propose une autre technique d’embedding des mots. Au lieu de traduire les mots en vecteurs (points dans l’espace), ils les traduisent en boîtes à n dimensions. L’avantage des boîtes par rapport aux points pour représenter les mots est que les boîtes peuvent en contenir d’autres. Par conséquent, le box embedding nous offre un moyen simple de créer des embedding hiérarchiques. Par exemple, la boîte pour « mammifères » contiendrait les boîtes pour « chiens » et « chats ». Cela permet une meilleure représentation des mots et de leurs relations qui peut ensuite être utilisé par des modèles intelligents.
Combler les lacunes des textes akkadiens : Une approche par la modélisation du langage
L’empire akkadien a débuté au 24e siècle avant J.-C. C’était l’une des premières civilisations humaines à avoir existé. Aujourd’hui, la langue akkadienne a disparu depuis longtemps mais d’anciennes tablettes ont été retrouvées en Mésopotamie. Cependant, nombre de ces reliques ont subi les foudres du temps et ont été gravement endommagées.
Cet article propose d’utiliser la technologie moderne de modélisation du langage pour tenter de prédire les mots manquants sur ces tablettes. Ils ont obtenu des résultats impressionnants et ont démontré que l’entraînement d’un modèle sur des langues sémitiques modernes proches, comme l’arabe, permet d’obtenir de meilleures performances que si l’on utilise uniquement le peu de tablette disponible. Un tel modèle pourrait aider les historiens à découvrir les secrets de notre passé.
Les modèles linguistiques à longue portée utilisent-ils réellement le contexte à longue portée ?
Les modèles linguistiques sont l’un des développements les plus importants en NLP. Il s’agit de modèles capables de générer du texte et des word embeddings. Ils constituent la base de nombreux systèmes en aval. En tant que tel, il est essentiel de comprendre leur comportement.
Cet article étudie la mémoire contextuelle à long terme de ces modèles. En d’autres termes, lors de la prédiction du prochain mot, à quelle distance dans le passé (mots précédents) le modèle regarde-t-il pour décider quel mot générer ensuite. Ils ont découvert que le type de texte est important. Dans une narration continue telle qu’une fiction, le modèle a tendance à se préoccuper davantage des mots passés que dans les textes techniques. Cela démontre que ces modèles sont adaptatifs et sont capables de différencier différents types de textes.
Se recentrer sur la pertinence : La personnalisation dans les NLG
Générer un texte correct à l’aide de modèles de langage est difficile. Cependant, même si le texte est lisible, il peut ne pas être approprié pour chaque utilisateur. Cet article discute de l’importance et des défis de la génération de textes personnalisés par rapport à un utilisateur. Cela peut signifier adapter le registre lexical utilisé pour s’aligner sur l’utilisateur. Il peut s’agir par exemple de varier le niveau de formalité du texte ou le niveau de profondeur de l’information en fonction des connaissances et des capacités de l’utilisateur.
Étudier l’ordre des mots en mélangeant des phrases
Cet article pose une question simple. L’ordre des mots a-t-il de l’importance dans une phrase ? Les auteurs ont utilisé des modèles de langage pour essayer de réorganiser des phrases mélangées. Ils ont démontré que ces modèles peuvent déduire l’ordre des mots avec un minimum d’erreurs. Cela démontre que l’ordre des mots ne transmet pas beaucoup d’informations indépendantes de celles fournies par les mots eux-mêmes. Cela peut s’expliquer par le fait que la syntaxe (qui est apprise par les modèles de langage) limite la manière dont les mots peuvent être ordonnés. Cela remet en cause la pertinence de la position d’un mot dans une phrase comme information utile pour l’analyse de texte.
Compétition de formes : Pourquoi la réponse la plus probable n’est pas toujours la bonne
Les modèles de langage ne fonctionnent pas comme nous. Lorsqu’ils décident quel mot suivant à générer, ils calculent une distribution de probabilité sur un vocabulaire de mots. Par conséquent, si plusieurs mots sont possibles, ils seront en concurrence puisque la somme des probabilités du doit être égale à 1. Donc, la probabilité est donc une mauvaise mesure de l’exactitude.
Cet article propose d’utiliser le PMI au lieu de la probabilité comme fonction de score, car il n’est pas soumis à une telle concurrence. L’utilisation du PMI montre une amélioration significative par rapport aux probabilités simples pour la génération de texte. Cette simple astuce peut avoir un impact important sur les futures recherches en modélisation du langage.
Avez-vous vu ce chiffre ? Étude de l’extrapolation numérique dans les modèles de réponse aux questions
Les modèles linguistiques sont très performants pour comprendre le langage humain. Cependant, ils ont des difficultés avec les nombres. Plus précisément, les nombres dans des plages qu’ils n’ont pas rencontrées au cours de leur entraînement. De plus, les méthodes actuelles manipulent les nombres de la même manière que les mots en essayant d’extraire des syllabes communes, ce qui n’est pas approprié. Cela peut avoir un impact significatif sur les performances.
Cet article propose une solution simple mais élégante. Ils pré-traitent le texte pour transformer les nombres en une autre forme qui conduit à de meilleures performances pour les modèles de langage (“421” devient “4e3 2e2 1e1”). Par conséquent, leur modèle est mieux à même de généraliser à une plus grande gamme de nombres.