Notes de lecture #5 : NLDB 2022

Entre le 15 et le 17 juin, j’ai assisté à la 27ème itération de la conférence NLDB à Valence. Ce fut une expérience merveilleuse où j’ai pu manger de la paella, rencontrer un tas de gens intéressants, découvrir des recherches fascinantes et présenter mon propre article. Dans cet article, je vais vous présenter quelques articles qui ont retenu mon attention lors de cette conférence.


On-Device Language Detection and Classification of Extreme Short Text from Calendar Titles Across Languages

Comme le titre l’indique, cet article porte sur le développement d’une méthode de détection des langues dans des textes très courts. Les événements fixés par les utilisateurs dans leurs calendriers personnels ont tendance à avoir des titres courts de quelques mots seulement. Il est donc difficile de détecter la langue utilisée dans ces titres, ce qui est important pour classer ces événements et fournir des services personnalisés.

Uncertainty Detection in Historical Databases

L’incertitude dans les documents historiques est problématique pour les historiens, mais inévitable. Cet article propose de s’attaquer à ce problème en développant une méthode de détection des incertitudes, et de classification de leur type et de leur impact.

Revisiting the Past to Reinvent the Future: Topic Modeling with Single Mode Factorization

Dans cet article, l’auteur a remonté le temps pour déterrer une méthodologie oubliée de topic modelling. Il présente une histoire fascinante des topic models et affirme que des méthodes telles que la LSI, qui ne sont plus utilisées, peuvent encore battre les modèles plus récents. En particulier, l’auteur affirme que des méthodes telles que LDA ont une grande faiblesse, à savoir qu’elles analysent la cooccurrence des mots au niveau du document au lieu d’utiliser une approche basée sur le contexte comme les modèles de language modernes et les word embeddings. Cet article est donc l’un de ceux qui remettent en question les paradigmes acceptés et nous incitent à repenser notre approche.

Metric Learning and Adaptive Boundary for Out-of-Domain Detection

Lors du développement de chatbots, l’un des défis consiste à savoir comment agir lorsque l’utilisateur ne réagit pas comme prévu. Comme la conversation humaine a tendance à sauter d’un sujet à l’autre, il est difficile d’identifier ce changement. Cet article aborde ce problème comme une tâche de détection de domaine. En intégrant les messages dans un espace vectoriel, ils montrent que nous pouvons détecter les messages inattendus car leur représentation vectorielle est significativement différente du reste de la conversation.

Better Exploiting BERT for Few-Shot Event Detection

Cet article propose une approche intéressante de la détection d’événements en utilisant des approches d’apprentissage dit few-shots. Le modèle de langage BERT est fine-tuned pour produire une representation vectorielle pour quelques exemples de chaque classe d’événements. Ce modèle peut atteindre des perofmances élevé avec très peu de données d’entrainement. De manière intéressante, l’auteur démontre que l’utilisation de toutes les couches de BERT au lieu de seulement la dernière améliore les performances sur cette tâche.

Preprocessing Requirements Documents for Automatic UML Modelling

Cet article propose une méthode pour construire des diagrammes UML à partir de document brute. Les auteurs notent que les méthodes précédentes utilisent à tort des textes structuré comme entrée, ce qui ne reflète pas les situations du monde réel. Leur approche vise à produire des diagrammes UML à partir de textes non structurés par la reconnaissance d’entités nommées et l’extraction de relations.

A BERT-Based Model for Question Answering on Construction Incident Reports

Cet article démontre comment les modèles NLP peuvent être utilisés pour analyser les rapports d’incidents lors de travaux de construction. Les auteurs ont précisément formulé le problème comme une tâche de réponse aux questions pour extraire des informations telles que le type de blessure, la gravité et l’activité connexe. Ils ont obtenu de très bonne performances.

Detecting Early Signs of Depression in the Conversational Domain: The Role of Transfer Learning in Low-Resource Scenarios

La détection précoce des signes de dépression peut conduire à un rétablissement plus rapide. Avec le développement d’agents conversationnels comme Siri et Alexa, il existe une nouvelle source de données pour une telle analyse. Cependant, cette nouvelle source de données est rare. Les auteurs proposent donc d’adopter un paradigme d’apprentissage par transfert en adaptant le domaine, en entraînant le modèle sur les données des médias sociaux, qui sont plus largement disponibles, avant de le tester sur les données conversationnelles.

Automatically Computing Connotative Shifts of Lexical Items

Les mots ont des connotations. Ce sont des sentiments ou des idées qui viennent à l’esprit lorsqu’on entend un mot. Cette étude fournit un moyen d’analyser l’évolution de ces connotations dans le temps ou dans un domaine. L’auteur a utilisé un classificateur SVM pour séparer des mots liés à un type de connotations (par exemple, les mots positifs/négatifs). Après l’entraînement, l’hyperplan résultant est utilisé pour définir un point central de la connotation. Entre-temps, des embeddings pour les mots cibles ont été formés sur deux corpus A et B. La distance entre les mots et l’hyperplan est mesurée et la différence entre les distances A et B définit le décalage connotatif. La méthode obtenue donne des résultats intéressants. Par exemple, il est possible d’observer que des mots tels que « masques » et « positif » ont acquis des connotations négatives après 2019.

Improving Relation Classification Using Relation Hierarchy

La classification des relations consiste à prédire la relation correcte entre deux entités. Les études existantes qui effectuent de telles tâches ne prennent pas en compte la relation hiérarchique entre les relations. Par exemple, la relation « lieu de naissance » est une relation plus générale que « ville de naissance » ou « pays de naissance ». Dans cette étude, les auteurs ont utilisé cette information hiérarchique pour améliorer l’entrainement. L’idée fondamentale est que la prédiction du « lieu de naissance » au lieu de « ville de naissance » est peut être moins précise mais toujours plus ou moins correcte. Ainsi, le modèle n’est pas complètement pénalisé et la perte est calculée par rapport à la distance entre la relation correcte et celle prédite dans l’arbre de relations.

Using meaning instead of words to track topics (Mon propre article 😀 )

Le suivi des thèmes dans le temps dans un ensemble de documents est utile pour analyser les tendances actuelles et découvrir les tendances émergentes dans les textes. Toutes les autres méthodes proposées dans le passé se sont concentrées seulement sur l’utilisation de l’informations lexicales dans le contexte de topic model plats. Cet article montre que l’utilisation de l’information sémantique provenant de word embeddings offre des performances similaires à celles des solutions lexicales et que les méthodes hybrides peuvent améliorer les performances. En outre, l’article montre que le suivi des thèmes qui sont hiérarchiquement liés est plus difficile car il n’existe pas de taxonomie objective, ce qui rend l’ information structurelle peu fiable pour le suivi des sujets. De plus, les thèmes et les sous-thèmes peuvent être facilement confondus, ce qui rend également le suivi plus difficile.

Judicael Poumay (Ph.D.)