Los traductores humanos todavía están en la cima, por ahora

Es posible que se haya perdido el estallido de corchos de champán y la lluvia de cinta de teletipo, pero en los últimos meses los lingüistas computacionales han comenzado a afirmar que la traducción automática neuronal ahora coincide con el rendimiento de los traductores humanos.



La técnica de usar una red neuronal para traducir texto de un idioma a otro ha mejorado a pasos agigantados en los últimos años, gracias a los avances continuos en el aprendizaje automático y la inteligencia artificial. Así que no es realmente una sorpresa que las máquinas se hayan acercado al rendimiento de los humanos. De hecho, los lingüistas computacionales tienen buena evidencia para respaldar esta afirmación.

Pero hoy, Samuel Laubli de la Universidad de Zúrich y un par de colegas dicen que el champán debería volver a congelarse. No cuestionan los resultados de sus colegas, pero dicen que el protocolo de prueba no tiene en cuenta la forma en que los humanos leen documentos completos. Cuando se evalúa esto, las máquinas van significativamente a la zaga de los humanos, dicen.



El problema es cómo debe evaluarse la traducción automática. Esto se hace actualmente en dos medidas: adecuación y fluidez. La idoneidad de una traducción la determinan traductores humanos profesionales que leen tanto el texto original como la traducción para ver qué tan bien expresa el significado de la fuente. La fluidez es juzgada por lectores monolingües que solo ven la traducción y determinan qué tan bien se expresa en inglés.



Los lingüistas computacionales están de acuerdo en que este sistema otorga calificaciones útiles. Pero según Laubli y compañía, el protocolo actual solo compara las traducciones a nivel de oración, mientras que los humanos también evalúan el texto a nivel de documento.

Por eso han desarrollado un nuevo protocolo para comparar el rendimiento de traductores automáticos y humanos a nivel de documento. Pidieron a traductores profesionales que evaluaran qué tan bien las máquinas y los humanos tradujeron más de 100 artículos de noticias escritos en chino al inglés. Los examinadores calificaron cada traducción por adecuación y fluidez al nivel de la oración pero, de manera crucial, también al nivel del documento completo.

Los resultados hacen una lectura interesante. Para empezar, Laubli y sus colegas no encontraron diferencias significativas en la forma en que los traductores profesionales calificaron la idoneidad de las oraciones traducidas por máquinas y humanos. Según esta medida, los humanos y las máquinas son igualmente buenos traductores, lo que está en línea con hallazgos anteriores.



Sin embargo, cuando se trata de evaluar todo el documento, las traducciones humanas se califican como más adecuadas y fluidas que las traducciones automáticas. Los evaluadores humanos que evalúan la adecuación y la fluidez muestran una mayor preferencia por la traducción humana sobre la automática cuando evalúan documentos en comparación con oraciones aisladas, dicen.

Los investigadores creen que saben por qué. Nuestra hipótesis es que la evaluación a nivel de documento revela errores como la mala traducción de una palabra ambigua o errores relacionados con la cohesión y coherencia textual, que siguen siendo difíciles o imposibles de detectar en una evaluación a nivel de oración, dicen.

Por ejemplo, el equipo da el ejemplo de una nueva aplicación llamada 微信挪 车, que los humanos traducen constantemente como WeChat Move the Car pero que las máquinas suelen traducir de varias maneras diferentes en el mismo artículo. Las máquinas traducen esta frase como Twitter Move Car, WeChat mobile y WeChat Move. Este tipo de inconsistencia, dicen Laubli y compañía, hace que los documentos sean más difíciles de seguir.



Esto sugiere que la forma en que se evalúa la traducción automática debe evolucionar lejos de un sistema en el que las máquinas consideran cada oración de forma aislada.

A medida que mejore la calidad de la traducción automática, será más difícil discriminar las traducciones en términos de calidad, y puede ser el momento de pasar a la evaluación a nivel de documento, lo que brinda a los evaluadores más contexto para comprender el texto original y su traducción, y también expone los errores de traducción relacionados. a los fenómenos discursivos que permanecen invisibles en una evaluación a nivel de oración, dicen Laubli y compañía.

Ese cambio debería ayudar a mejorar la traducción automática. Lo que significa que todavía está listo para superar la traducción humana, pero todavía no.



Ref: arxiv.org/abs/1808.07048 : ¿Ha logrado la traducción automática la paridad humana? Un caso para la evaluación a nivel de documento

esconder