Acerca de Mainumby

Mainumby es un componente del proyecto Procesamiento de Idiomas del Sur Global (PISur), dirigido por Michael Gasser, profesor asociado emérito de la Escuela de Informática, Computación, y Ingeniería de la Universidad de Indiana en Estados Unidos de América. Será el primero de una planeada serie de sistemas para la traducción asistida por computadora a lenguas a las que faltan recursos computacionales.

Motivación

Aunque el Paraguay tiene dos lenguas oficiales y un índice de bilingüismo más alta que en todos los demás países americanos, en otros sentidos falla en realizar el ideal de un país bilingüe. Esto resulta sobre todo por la asimetría que caracteriza la situación sociolingüística de sus lenguas oficiales. Mientras que el castellano se beneficia de todos los recursos y materiales de una lengua internacional, el guaraní padece una carencia de recursos y materiales. Esta situación tiene dos consecuencias significativas: los guaraní-hablantes monolingües se quedan a menudo sin acceso a la información necesaria para participar en la sociedad y para aprovecharse de los beneficios de ser ciudadanos, y el alfabetismo guaraní, un gran objetivo de la educación primaria paraguaya, resulta ser de poca utilidad porque no existen muchos materiales para leer en guaraní, y los que hay no motivan a los estudiantes a practicar la lengua [1][2].

Aunque no puede ser una solución completa a la crisis al que se enfrenta el guaraní, el aumento del material en la lengua podría tener un gran papel en el acceso a mejores oportunidades para las personas que manejan mejor el guaraní. Este aumento podría manifestarse en forma de escritura independiente por autores guaraní-hablantes o de traducciones de material al guaraní de otras lenguas. En otras situaciones comparables — en países que alcanzaron su independencia durante el siglo XX como Israel, Indonesia, y Eslovenia, y en otros países o regiones bilingües como Irlanda, el País Vasco, y Gales — la traducción ha posibilitado el uso en la educación, el gobierno, y el comercio de lenguas que habían carecido de textos.

Trasfondo teórico

La traducción es una tarea, aun cuando la hacen expertos, que necesita muchas horas de trabajo. En el mundo actual, la mayoría de los traductores utilizan computadoras en su trabajo, no sólo para guardar sus traducciones en forma digital sino también para facilitar la tarea misma. No cabe duda de que el uso de herramientas computacionales haya acelerado la producción de traducciones [3], y que de esta manera podría servir para el fortalecimiento de las lenguas indígenas [4].

Las herramientas, a menudo integradas en sistemas de traducción asistida por computadora (TAC), pertenecen a tres categorías: diccionarios, memorias de traducción, y traducción automática. Una memoria de traducción (MT) es un conjunto de “unidades de traducción” (UT): cada unidad consiste en una oración (u otro segmento de texto) en una lengua (digamos L1) y su traducción en otra (L2). Supongamos que un usuario esté traduciendo un documento de L1 a L2. Introduce el documento en el sistema TAC. Primero el sistema segmenta el documento en oraciones. Enseguida busca para cada oración en su MT UTs cuya oración de L1 coincide con la del documento. Finalmente le muestran los resultados al usuario. En el ejemplo fijado abajo, el usuario está a punto de traducir la oración castellana a la izquierda (la "oración fuente"), y el sistema TAC le ha mostrado una UT que coincide con la oración fuente en ocho palabras.

Documento: Resultados de la búsqueda de la MT:
...
En la montaña vivieron los inmigrantes por mucho tiempo en paz y armonía con la naturaleza.
...
En esas comunidades vivieron por mucho tiempo en paz y amistad, juntos y solidariamente.
Umi táva rupi oiko heta ára teko marangatu ha mborayhu pa'ũme, oñondivepa, jekupytýpe.

Algunos sistemas presentan además el alineamiento entre las palabras en las dos oraciones de las UTs que coinciden; esto se fija en el ejemplo por la coloración de las palabras. Por ejemplo, el color verde muestra la correspondencia entre la palabra castellana vivieron y la palabra guaraní oiko.

El usuario puede usar las sugerencias que le da el sistema o rechazarlas. Su traducción final se registra en la MT; es decir, cuánto más se usa el sistema TAC, más aumenta la MT.

La utilidad de una MT depende de su tamaño y de la concordancia entre su contenido y el del documento fuente. Obviamente los pocos corpus bilingües castellano-guaraní que existen en la actualidad no sirven para una MT adecuada.

Los sistemas de traducción automática (TA) se clasifican en dos tipos: sistemas basados en reglas (TABR) y sistemas basados en datos (traducción automática estadística y neuronal (TAE, TAN)). Los sistemas basados en reglas (p.ej., Apertium) se componen de diccionarios bilingües y reglas que implementan correspondencias gramaticales entre las lenguas. Dependen del conocimiento lingüístico de expertos; no aprenden automáticamente. Los sistemas basados en datos (p.ej., Traductor de Google), como las memorias de traducción, dependen de corpus bilingües grandes. Utilizando el aprendizaje automático, se descubren tendencias estadísticas en las relaciones entre las dos lenguas, en la traducción de palabras y frases y en el orden de palabras, sin depender de conocimiento gramatical explícito o de diccionarios. Para pares de lenguas para las que existen corpus bilingües adecuados, domina hoy en día la traducción estadística o neuronal.

En resumen, los sistemas TAC incluyen herramientas (MT, TA) que sólo se pueden implementar a través de corpus bilingües grandes de las lenguas en cuestión. En falta de un corpus adecuado, sólo se pueden incorporar diccionarios y TABR.

Metas

El objetivo principal del proyecto es ayudar en la tarea de la traducción castellano-guaraní a través del desarrollo de una serie de herramientas computacionales integradas en una aplicación web, es decir, un sistema de TAC. Como en los sistemas TAC convencionales, se planea integrar una MT y un traductor automático (TA) en la aplicación. Aunque se ha desarrollado una versión inicial de un sistema de TABR, incluso un diccionario bilingüe digital (Mbojereha), ya sabemos que padece de muchas lagunas en su cobertura de las lenguas. Por otro lado, una MT usable todavía no existe por causa de la falta de corpus bilingües. Pretendemos complementar los pocos recursos disponibles con datos que solicitaremos de los usuarios del sistema, específicamente para llenar lagunas que se han identificado en la MT y el TA.

Creemos que Mainumby va a representar un logro importante no solo para la traducción castellano-guaraní sino también para los ámbitos de investigaciones computacionales dedicados a la traducción automática y la traducción asistida por computadora en el contexto de lenguas sin recursos suficientes.

Podés enterarte más sobre la teoría subyacente a Mainumby, Traducción por Segmentos Generalizados (también llamada Traducción de Dependencias Minimales), en Gasser (2017) [5], un artículo en inglés que ilustra la teoría con ejemplos de otra implementación, y sobre Mainumby mismo en Gasser (2018) [6]. Si sos programador(a), podés acceder al código del proyecto en Github aquí: https://github.com/hltdi/mainumby.

Cómo funciona

Mainumby tiene un diccionario bilingüe de frases y conocimiento básico de la gramática castellana, la gramática guaraní, y las relaciones entre ellas. El diccionario y la gramática se basan en varios recursos publicados o disponibles en forma digital, pero todavía padece lagunas grandes.

Para cada oración castellana que el usuario introduce, Mainumby analiza las palabras, extrayendo las raíces y las propiedades gramáticas. Entonces busca frases en la oración analizada que coinciden con frases en su diccionario. Finalmente, para cada frase coincidente genera una o más traducciones en guaraní, usando su conocimiento de la morfología y ortografía del idioma. En la interfaz, se le muestran estos resultados al usuario.

Cuando el usuario corrige la salida del sistema o reemplaza una traducción por una diferente, Mainumby aprende de esta retroalimentación, mejorando su diccionario o su conocimiento gramatical. Además Mainumby añade la traducción producida por el usuario a una memoria de traducción, de manera que se use en sesiones futuras cuando otro usuario traduzca una oración semejante.

Bibliografía

[1] De Granda, G. (1988). Sociedad, historia y lengua del Paraguay. Bogotá: Instituto Garo y Guervo.

[2] Melià, B. (2007). La crisis del bilingüismo en Paraguay. IV Congreso Internacional de la Lengua Española. Cartagena, Colombia.

[3] Candel-Mora, M. A. (2015). Comparable corpus approach to explore the influence of computer-assisted translation systems on textuality. Procedia: Social and Behavioral Sciences, 198, 67-73.

[4] Gasser, M. (2006). Machine translation and the future of indigenous languages. I Congreso Internacional de Lenguas y Literaturas Indoamericanas, October, 2006, Temuco, Chile.

[5] Gasser, M. (2017). Minimal dependency translation: a framework for computer-assisted translation for under-resourced languages. EAI International Conference on ICT for Development for Africa, 25-27 septiembre, 2017, Bahir Dar, Etiopía.

[6] Gasser, M. (2018). Mainumby: un ayudante para la traducción castellano-guaraní. Tercer Seminario Internacional sobre Traducción, Terminología y Lenguas Minorizadas, Asunción, Paraguay, 19-21 julio, 2018, San Lorenzo, Paraguay.