La montée en puissance de la traduction automatique

LEMONDE.FR | 23.02.10 | 20h22 •

"Au fil des ans, nous avons appris à ajouter rapidement de nouveaux langages à Google Traduction. Pour nous, c’est devenu facile ; cette année, nous avons décidé de nous concentrer sur un plus grand défi et d’améliorer la qualité de notre service de traduction automatique." Alfred Spector, le vice-président chargé de la recherche et des projets chez Google, est sûr de lui : les subtiles difficultés de la traduction automatisée peuvent être résolues à brève échéance. "Notre approche, c’est ’l’intelligence hybride’, la combinaison de l’informatique et des apports humains, grâce aux suggestions de nos utilisateurs."

Google peut-il réellement améliorer de manière significative son outil de traduction, aujourd’hui très imparfait ? Le service doit compter aujourd’hui avec deux difficultés principales. Tout d’abord, c’est un outil généraliste, censé pouvoir s’adapter à tous types de textes, qu’il s’agisse de documents techniques, d’articles de journaux ou de textes littéraires. "C’est un positionnement ambitieux", note Marie Candito, maître de conférences en linguistique à l’université Paris-VII et spécialisée dans le traitement automatique des langues. "Les entreprises spécialisées dans la traduction travaillent toutes sur des ’domaines’, élaborés à partir des documents de leurs clients. Cela leur permet, notamment, de réduire de manière importante la polysémie." Dans un contexte juridique, par exemple, le sens du mot "avocat" ne sera bien sûr pas le même que dans un contexte culinaire.

Autre défi pour le moteur de recherche : son modèle de traduction, qui s’appuie sur la statistique, permet d’obtenir des phrases qui "sonnent" bien dans la langue cible, mais au prix d’un plus grand risque de contresens. Il existe en effet deux approches principales pour la traduction automatique. Historiquement, les outils de traduction automatique fonctionnent par règles : les machines "apprennent" les règles de syntaxe, de grammaire, et les appliquent au texte pour le traduire. Google s’appuie sur une autre approche, plus récente, qui fonctionne par analogie statistique. L’entreprise compare d’importants corpus de textes dans les deux langues, par exemple les documents publiés par l’Union européenne, et en déduit des règles de traduction. "Plus nous avons de données à comparer, plus le résultat sera bon", explique M. Spector.

L’ÉQUILIBRE ENTRE PRÉCISION ET FLUIDITÉ

L’approche statistique a un avantage majeur : elle aboutit à des phrases plus cohérentes, qui semblent plus naturelles parce qu’elles ressemblent à des phrases élaborées par des humains. Mais elle n’a pas la précision de l’approche par règles. "Pour schématiser, si vous prenez deux phrases en anglais, strictement identiques mais avec, dans un cas, un verbe au présent, et dans l’autre un verbe au futur, c’est une différence de sens majeure. Mais pour un moteur statistique, la différence entre les deux phrases est minime, et le plus souvent il traduira les deux phrases de la même manière", explique Pierre Bernassau, directeur marketing chez Systran, entreprises pionnière dans la traduction par règles.

Les deux approches sont loin d’être incompatibles. Systran a d’ailleurs enrichi l’an dernier son système par règles d’un système statistique, pour aboutir à un moteur hybride, et l’entreprise juge que cela lui a permis un bond qualitatif qu’elle n’aurait pu atteindre autrement. "Il y a quelques années, le niveau de qualité de nos traductions n’était pas suffisant pour intéresser les traducteurs professionnels ; utilisée seule, la traduction par règles donne des traductions précises, mais très littérales. Aujourd’hui, nous sommes sollicités par des agences de traduction, pour qui nos logiciels deviennent des outils suffisamment efficaces pour leur faire gagner du temps", note M. Bernassau.

Chez Google, on lorgne aussi une approche double. "Nous avons besoin d’introduire davantage de syntaxe dans notre outil", juge ainsi M. Spector. Mais l’entreprise compte surtout sur sa gigantesque base d’utilisateurs pour améliorer la qualité de ses traductions automatiques. Depuis plusieurs semaines, elle déploie un outil qui permet aux utilisateurs de suggérer une meilleure traduction. Couplée aux différents services de la marque, qui fournissent également une importante base de données de textes, cette fonctionnalité devrait permettre d’obtenir une amélioration significative sur le long terme, estime l’entreprise.

L’évolution vers une meilleure qualité ne pourra de toute manière se faire que très graduellement, en partie à cause du choix de modèle de Google. "Les systèmes basés sur les règles sont assez lourds à mettre en place, mais ils ont l’avantage d’être facilement mofidiables, par l’ajout ou la suppression de règles. Dans l’approche statistique, telle que la pratique Google, l’éditeur a moins de prise sur le système", détaille Marie Candito. Pour la chercheure, l’apport des internautes peut avoir une utilité, mais celle-ci restera au mieux marginale.

Mais si la combinaison de règles et d’un outil statistique semble être la voie la plus prometteuse pour améliorer la traduction automatique, l’équilibre entre les deux approches reste délicat à fixer. Le moteur hybride de Systran, par exemple, a nécessité cinq années de recherche. Et il faut également compter avec la diversité des langues : en fonction de la structure de la langue source et de celle de la langue cible, l’approche par règles, par exemple, sera plus ou moins efficace. Dans tous les cas, "l’analyseur parfait n’existe pas encore", résume Mme Candito.

Damien Leloup
Vers la traduction vocale en temps réel

Google souhaite s’appuyer sur l’amélioration de ses traductions automatiques pour proposer, d’ici à cinq ans, un service vocal de traduction en temps réel. Théoriquement, cela permettrait à deux personnes de parler au téléphone, chacune dans sa langue. "Ce n’est pas du tout aberrant, juge Marie Candito. Le principal problème, c’est que la reconnaissance vocale elle-même est source d’ambiguïtés, même si, dans certains cas, la traduction peut aider à les résoudre : confronté à une ambiguïté lors de l’étape de reconnaissance vocale, le système peut conserver les deux options, et trancher ensuite lors de la traduction."

En parallèle, Google travaille donc à perfectionner la reconnaissance vocale, une technologie qui est également la clé d’autres services que l’entreprise souhaite développer, comme la transcription de vidéos et, surtout, la recherche dirigée par la voix. "La lecture automatique d’un texte est à peu près au point. Mais le taux d’erreurs dans la reconnaissance vocale est trop important, note Alfred Spector. Lorsque je fais le test avec la voix de mon fils, seuls 30 % des mots sont correctement reconnus."

http://www.lemonde.fr/technologies/article/2010/02/23/la-montee-en-puissance-de-la-traduction-automatique_1309888_651865.html