Mots-clé : traitement automatique des langues, analyse linguistique, analogie formelle, méthodes non supervisées
Il s'agit de former des classes de termes (n-grammes) de manière non supervisée à partir d'un large corpus francophone. L'idée sous-jacente est d'utiliser ces classes pour construire un analyseur linguistique entièrement non supervisé.
La méthode envisagée pour former ces classes est la recherche et la construction de proportion analogiques entre phrases du corpus. Il s'agit d'un travail exploratoire et la première étape sera donc d'analyser les classes obtenues par rapport à la composition du corpus.
Le sujet de stage complet accompagné de la description détaillée et d'une bibliographie est disponible à l'adresse : http://perso.limsi.fr/letard/?p=stage&l=fr