Le curseur du post-éditeur

Par Gilles Bailly, 15 janvier, 2024

Projet pour 2 à 4 étudiants
contact : gilles.bailly@sorbonne-universite.fr et yvon@isir.upmc.fr

Les systèmes de traduction automatique sont encore trop imparfaits pour que les traductions puissent être publiées telles quelles. La tâche de post-édition consiste pour un réviseur humain à valider, et éventuellement à réviser les textes pour les rendre complètement corrects. Si la traduction de départ est de bonne qualité, post-éditer un texte s'avère souvent plus rapide (et moins coûteux) que réaliser une traduction depuis zéro. Pour faciliter le travail du post-éditeur, une idée ancienne est d'identifier par avance les segments (source) de la traduction qui sont les plus difficiles à traduire, ou ceux qui sont les plus incertains. Cette identification est réalisée par des outils d'estimation de qualité (quality estimation), qui peuvent fournir des informations soit au niveau des mots soit au niveau des phrases.

Le projet consiste à intégrer un modèle d'estimation de qualité fonctionnant au niveau des mots et au niveau des phrases dans une interface de post-édition pour aider un utilisateur à optimiser le temps passé à réviser et à post-éditer un texte. Pour ce faire, on ajoutera dans une fenêtre de post édition d'un document un "curseur" (slider) qui permettra à l'utilisateur de localiser les corrections les plus pressantes étant donné le temps (ou le niveau d'effort) qu'il souhaite y passer.

Les tâches à réaliser sont les suivantes (R pour requis, O pour optionnel)

1- préparer des données pour apprendre un modèle d'estimation de qualité. On pourra utiliser des post-éditions disponibles dans l'équipe pour des résumés d'articles scientifiques. (O)

2- apprendre un modèle d'estimation de qualité au niveau des mots avec l'outil [openkiwi](https://unbabel.github.io/OpenKiwi/) (O)

2'- reproduire l'architecture de [cometkiwi](https://aclanthology.org/2022.wmt-1.60.pdf) et l'appliquer à des données en français (O)

3- appliquer l'estimation de qualité au niveau mot et phrases (avec [Comet-QE]() ou l'outil développé en 2' ou des systèmes pré-existants) (R)

4- en déduire une mesure du rendement (rapport entre le temps passé et l'amélioration de la tradution) de chaque révision possible sur la qualité finale d'abord en considérant que les phrases d'un document sont indépendantes entre elles (R)

5- développer une interface d'édition qui permette de rendre visible et exploiter dynamiquement cette information (par exemple un slider qui permet de localiser les révisions les plus rentables. Au fur et à mesure de la correction, cette informations doit être mises à jour. (R)

6- étendre les mesures de rendement au cas où l'on considère des documents complets. Dans ce cas, si une erreur a lieu dans plusieurs phrases, il faudra rajouter la possibilité de corriger toutes les instances en une seule fois. (O)

Encadrant
Francois Yvon
Nombre d'étudiants
3
Attribué
Non
Obsolète
Oui
Tags