NLP : Notes de lecture #1

18 novembre 2021 0 By Judicael Poumay (Ph.D.)

Introduction

En tant que doctorant, je passe une grande partie de mon temps à lire. Je lis sur des sujets qui m’intéressent. Je lis sur des sujets liés à mes recherches actuelles et je lis sur des sujets liés à mon domaine afin de rester à jour. Cependant, avec toute cette lecture, j’ai tendance à accumuler beaucoup de notes dont je ne sais que faire. De plus, il y a un manque évident de blogs discutant des avancées de la littérature scientifique en NLP. C’est pourquoi cet article est le début d’une série dans laquelle je fournirai un résumé de divers articles scientifiques qui ont attiré mon attention récemment.

Rare Words Degenerate All Words (S.Yu, et al. 2021)

(FR : Les mots rares engendre la dégénération de tous les mots)

Les Word embeddings permettent d’encoder le sens des mots dans des vecteurs de nombres. Ils offrent un moyen efficace de manipuler les mots à l’aide d’outils mathématiques et, à ce titre, sont utilisés dans de nombreuses applications en NLP. Cependant, leurs mécanismes sous-jacents sont complexes et difficiles à appréhender. Par conséquent, de nombreux travaux scientifiques sont réalisés pour étudier l’espace mathématique qu’ils engendrent.

Nous préférerions que les word embeddings encodent les mots de manière homogène dans l’espace mathématique, c’est-à-dire qu’ils les répartissent uniformément dans cet espace. Cependant, de nombreuses études ont démontré qu’en pratique, les word embeddings ont tendance à dégénérer en une distribution à cône étroit. Cette distribution inégale signifie que tous les mots sont encodés comme étant plus similaires qu’ils ne le sont réellement. Ceci est problématique car cela signifie que le word embeddings encode des informations partiellement erronées sur les mots.

Cette étude montre que les mots rares sont l’une des principales causes de cette dégénérescence. En effet, les mots rares, de par leur nature, apparaissent dans moins de contextes. Par conséquent, les mots rares sont moins stables statistiquement car leur usage varie davantage d’un corpus à l’autre. Cette étude fournit également une solution potentielle qu’ils appellent l’Adaptive Gradient Partial Scaling. Comme le gradient peut être décomposé par rapport à chaque mot. Le gradient provenant des mots plus rares peut être négativement réduit afin de diminuer leur impact et d’atténuer ce problème de dégénérescence. En d’autres termes, cette méthode diminue l’impact des mots rares sur les mots communs lors de l’apprentissage des word embeddings.

Lacking the embedding of a word? Look it up into a traditional dictionary (E.Ruzzetti, et al.  2021)

(FR : Vous manquez l’encodage d’un mot? Regardez dans le dictionnaire)

Un problème avec les word embeddings est que, souvent, ils ne peuvent pas traiter les mots qu’ils ne connaissent pas. Ainsi, ces mots dits hors-vocabulaire sont souvent ignorés lors du traitement des données textuelles. Il s’agit souvent de mots rares ou nouveaux, mais ce serait bien de pouvoir créer un embedding pour eux. 

Cet article propose une solution simple. Lorsqu’ils rencontrent un mot hors vocabulaire, ils vont chercher sa définition dans un dictionnaire. Les mots utilisés pour définir ce mot sont plus susceptibles d’avoir un embedding connu qui peuvent être mélangé pour produire un embedding pour le mot hors vocabulaire. Plus précisément, ils sélectionnent les deux mots les plus pertinents dans la définition. Leurs expériences montrent que leur technique offre de meilleures performances que les word embeddings classiques.

Phonetic Word Embeddings (R.Sharma, et al. 2021)

(FR : Word embeddings phonetique)

Les mots ne sont pas seulement écrits, ils sont aussi parlés. C’est pourquoi cet article propose une nouvelle méthode de word embeddings en utilisant des informations phonétiques. Grâce à cette méthode, des mots à consonance similaire, tels que mère et mer ou bouleau et boulot, auront une représentation similaire. Ce type d’embedding peut être utile pour des tâches de phonologie en aval, comme la génération de poèmes automatiques.

On the Universality of Deep Contextual Language Models (S.Bhatt, et al. 2021)

(FR : Sur l’universalité des modèles profonds et contextuel de langage)

De manière générale, un modèle de langage est un système capable de prédire un mot à partir des mots précédents. Ce genre de modèles à de nombreuses applications, de la  génération de textes aux chatbots. Cet article tente de définir les caractéristiques nécessaires pour qu’un modèle de langage soit universel. Ils définissent 7 dimensions :

1) Langue : il existe plus de 7000 langues dans le monde et un modèle de langage devrait être capable de les traiter toutes, ou du moins celles utilisées par la plupart des gens….

2)Multilinguisme : certaines personnes parlent parfois en utilisant deux ou plusieurs langues en même temps (i.e. anglais/français). Un bon modèle de langage devrait être capable de faire face à une telle situation.

3) Tâches : un modèle de langage apprend à créer des word embeddings qui peuvent être utilisés pour une variété de tâches. Un bon modèle de langage devrait apprendre une représentation qui fournit de bonnes performances pour toutes sortes de tâches en aval.

4) Domaine : différentes professions ont un registre différent; les mots utilisés par un avocat diffèrent de ceux utilisés par un maçon. Par conséquent, un bon modèle de langage doit être capable de gérer tous les types de champs lexicaux sans les confondre.

5) Moyen d’expression : le langage humain varie énormément, que vous parliez à un ami, à votre patron, par sms ou par courrier. Un bon modèle de langage doit être capable de traiter aussi bien le langage formel que le langage familier.

6) Géographie et démographie : la langue humaine peut également varier considérablement en fonction de la région dans laquelle elle est parlée : l’anglais de Londres par rapport à l’anglais Ecossais ou le français de Paris par rapport au français de Marseille peut être très différents. Un bon modèle de langage doit donc être capable de prendre en compte ces différences régionales.

7)Période de temps : enfin, la langue change aussi avec le temps. Les mots et les expressions évoluent mais un modèle de langue doit être capable de différencier et de traiter l’utilisation ancienne et moderne d’une langue.

Dans cet article, l’auteur précise qu’il est possible que d’autres dimensions aient été oubliées, mais il s’agit déjà d’un bon point de départ pour un cadre de travail sur ce que devrait être un bon modèle de langage. Ils discutent également du fait que dans la littérature actuelle, les dimensions telles que la langue, la tâche et le domaine sont largement étudiées. Cependant, des dimensions comme le multilinguisme, la géographie et la démographie, et la période de temps reçoivent moins d’attention. Il y a donc beaucoup d’opportunités de recherche dans ces directions.

Towards Zero-Label Language Learning (Z Wang, et al. 2021)

(FR : Vers l’apprentissage du language sans donnée annotées)

Le plus gros problème de l’apprentissage automatique à l’heure actuelle est que vous avez besoin de beaucoup de données annotées pour former des modèles. Si les données brutes sont largement disponibles, les données annotées sont coûteuses. Cet article propose donc un moyen de générer des données annotées synthétiques de qualité comparable à des données annotées par l’homme. Pour générer des données annotées, ils demandent à un modèle de langage de générer une entrée pour une sortie donnée. Ainsi, ils peuvent créer itérativement un ensemble de données synthétiques et annotées. Bien que simpliste, leur méthode montre des performances impressionnantes dans la classification de texte et le NLU. Bien que leur méthode reste confinée à quelques applications NLP, elle constitue un bon début vers l’étiquetage automatisé des données.

Paradigm Shift in Natural Language Processing (T.Sun, et al.  2021)

(FR : Changement de paradigme en NLP)

Cet article traite du récent changement de paradigme en NLP. Un paradigme peut être compris au sens large comme la façon actuelle de faire les choses. En NLP, la plupart des tâches relevaient auparavant de quelques paradigmes :

    ● Classification

    ● L’appariement 

    ● Étiquetage de séquence

    ● Séquence à séquence

    ● Compréhension de texte 

    ● Séquence-à-action-Séquence

    ● Modélisation du langage

Toutefois, ces derniers temps, nous avons assisté à un nombre croissant de changements de paradigme. Plus précisément, la classification, l’étiquetage de séquence et la  séquence-à-action-séquence sont de moins en moins utilisés. Alors que les méthodes basées sur la modélisation du langage, la compréhension de texte et la séquence-à-séquence ont gagné en popularité. La modélisation du langage en particulier est devenue omniprésente, notamment parce qu’elle nécessite moins de données et se généralise bien à de nombreuses tâches. L’appariement quant à lui est stable bien qu’il perde un peu de sa popularité.

Judicael Poumay (Ph.D.)