Notes de lecture #4 : topic modelling
Introduction au Topic Modelling
La quantité de données générées par l’humanité est devenue ingérable. Des milliers d’articles de presse et scientifiques sont publiés chaque jour. Il est désormais impossible pour les gens de lire toutes ces informations. Pourtant, la capacité à suivre ce qui se passe dans le monde peut être un atout considérable pour les entreprises et les individus.
Les topic models sont une méthode utilisée pour condenser et simplifier l’informations contenue dans un ensemble de documents en permettant l’extraction de thèmes sous-jacent. Par exemple, l’espace, le coronavirus et la guerre, … L’extraction de ces thèmes permet aux utilisateurs de comprendre rapidement le contenu d’un grand nombre de documents et de concentrer ensuite leur attention sur ce qui compte.
Cependant, ces thèmes extrait à l’aide de topic models ne sont pas des simple mots. Un thème extrait est en fait un ensemble de mots qui ont tendance à apparaitre ensemble. Si le topic model extrait ces ensembles, c’est toujours à l’humain de les interpréter. Par exemple, nous pouvons extraire le thème : (espace, fusée, lancement, galaxie, étoile). Cet ensemble de mots peut alors être interprété étant le thème de l’espace.
Il existe de nombreux types de topic models. Par exemple, les topic models plats extraient les grands thèmes. Cela fournit une vue d’ensemble d’un corpus. Pour obtenir une compréhension plus profonde, nous pouvons utiliser des topic models hiérarchiques. Ils nous permettent d’extraire des thèmes et leurs sous-thèmes. Ainsi, le thème du coronavirus peut avoir des sous-thèmes tels que les tests, les masques, le travail à distance, les mesures sanitaires, etc.
Les topic models sont des méthodes importantes dans le domaine de la NLP. De nombreuses recherches sont menées pour développer de meilleurs modèles, étudier la qualité des thèmes extraits, et développer de meilleurs algorithmes d’entraînement, … Dans cet article, je vais présenter quelques articles liés aux topic models qui ont attiré mon attention récemment.
Notes de lecture
Evaluer l’interpretabilité des topic model du point de vue des médecins généralistes
Les thème extrait par les topics models sont des ensembles de mots qui nécessitent une interprétation humaine. Dans cet article, les auteurs démontrent que cette interprétation n ‘est pas toujours évidente. En fonction de leurs connaissances, certains annotateurs peuvent ne pas être en mesure d’interpréter les sujets correctement. Cela peut se produire lorsque les sujets sont constitués de termes très techniques. Cette situation est aggravée dans les modèles de thèmes hiérarchiques où les sous-thèmes les plus profonds deviennent extrêmement ésotériques. Par conséquent, cet article soutient que les topic models nécessite des experts du domaine étudié pour être utilisée efficacement.
Des topics models plus efficace en utilisant uniquement des noms communs
Cet article démontre que le processus de nettoyage des données est essentiel pour les topic models. Il est surprenant de constater que de nombreuses implémentations des topic models n’accordent pas beaucoup d’importance au nettoyage des données. Néanmoins, cet article démontre qu’en sélectionnant uniquement les noms communs dans les textes, les thèmes résultants sont beaucoup plus interprétables.
Tomographie thematic a échelles variable
Cet article propose un nouveau topic model qui modélise la temporalité. Cela permet aux utilisateurs d’étudier l’évolution des thèmes dans le temps. Cela peut être utilisé pour détecter les nouveaux thèmes, les thèmes qui disparaissent ou les changements dans un thèmes à travers le temps. En particulier, ce modèle fournit une structure arborescente où les données sont découpées en périodes de plus en plus petites. Cela permet aux utilisateurs d’étudier des périodes de différentes tailles, des années aux jours, avec un seul modèle.
Cet article fournit également une étude des thèmes à travers le temps. Leurs méthode extrait des sujets à différentes périodes et relie ensuite les sujets similaires à travers le temps. Le modèle est alors capable d’étudier l’évolution des thèmes. Plus précisément, nous pouvons voir les thèmes se diviser et fusionner avec le temps. Par exemple, le thème de l’espace dans une période peut se diviser en deux thèmes dans une autre : l’exploration spatiale et l’astronomie.
Visualisation interactive pour la verification de topic models
La modélisation de thèmes peut parfois produire des sujets ininterprétables. En effet, il s’agit d’un processus automatisé qui est agnostique à la sémantique des mots. Par conséquent, il n’est pas garanti que les sujets extraits aient un sens. Cet article propose une interface pour étudier les topic models et énumère les raisons pour lesquelles les thèmes extraits peuvent sembler suspects :
- Deux thèmes ou plus sont fusionnés en un seul thèmes.
- On extrait deux thèmes qui, pour les humains, ressemblent à des doublons.
- Les mots-clés extraits des thèmes ne semblent pas avoir de sens
- Les thèmes contiennent trop de termes génériques.
- Les thèmes qui sont basés sur des termes apparemment sans rapport.
- Les thèmes ne correspondent pas au jugement humain.
- Les thèmes semblent non pertinents.
- La relation entre les thèmes et les documents n’est pas apparente.
Chacun de ces problèmes peut être résolu dans une certaine mesure avec un meilleur nettoyage et un meilleur filtrage des données, un meilleur paramétrage du modèle ou des annotateurs plus avertis.
Résumer le contenu des thématiques a l’aide de la fréquence et de l’exclusivité des mots
Les thèmes extraits à l’aide de modèles thématiques sont des ensembles de mots co-occurrents. Ces mots sont généralement classés en fonction de leur probabilité dans ce thèmes. Cependant, cet article propose une meilleure mesure de la pertinence des mots : FREX. FREX mesure à la fois la probabilité d’un mot et son exclusivité pour un thèmes donné. Cette exclusivité définit l’importance d’un mot pour un thèmes par rapport à tous les autres. Ils ont démontré que cette mesure peut aider à mieux interpréter les thèmes.
Trouver les frontières des thématique dans des textes littéraires
Cet article propose d’utiliser un topic model pour découvrir les transitions entre les thèmes dans un texte. Ils divisent les longs textes en plusieurs extraits qui sont introduits dans le modèle. Ensuite, pour chaque pair d’ extraits qui se suivent, ils examinent comment la distribution des thèmes diffère pour détecter les transitions. Pour évaluer leur modèle, ils concatènent différents textes pour produire des transitions connues qui peuvent être testées. Ils fournissent également un bon résumé de la littérature en ce qui concerne la longueur du texte par rapport au performance des topic models.