Mainumby es un componente del proyecto
Procesamiento de Idiomas del
Sur Global (PISur), dirigido por Michael Gasser, profesor
asociado emérito de la Escuela de Informática,
Computación, y Ingeniería de la Universidad de Indiana en Estados
Unidos de América.
Será el primero de una planeada serie de sistemas para la traducción asistida
por computadora a lenguas a las que faltan recursos computacionales.
Motivación
Aunque el Paraguay tiene dos lenguas oficiales y un índice de
bilingüismo más alta que en todos los demás países americanos, en
otros sentidos falla en realizar el ideal de un país bilingüe.
Esto resulta sobre todo por la asimetría que caracteriza la
situación sociolingüística de sus lenguas oficiales.
Mientras que el castellano se beneficia de todos los recursos y
materiales de una lengua internacional,
el guaraní padece una carencia de recursos y materiales. Esta
situación tiene dos consecuencias significativas:
los guaraní-hablantes monolingües se quedan a menudo sin acceso a la
información necesaria para participar en la sociedad
y para aprovecharse de los beneficios de ser ciudadanos, y el
alfabetismo guaraní,
un gran objetivo de la educación primaria paraguaya,
resulta ser de poca utilidad porque no existen muchos materiales
para leer en guaraní,
y los que hay no motivan a los estudiantes a practicar la lengua [1][2].
Aunque no puede ser una solución completa a la crisis al que se
enfrenta el guaraní, el aumento del material en la lengua podría
tener un gran papel en el acceso a mejores oportunidades para las personas que manejan
mejor el guaraní.
Este aumento podría manifestarse en forma de escritura independiente
por autores guaraní-hablantes o de traducciones de material al guaraní de otras lenguas.
En otras situaciones comparables — en países que alcanzaron su
independencia durante el siglo XX como Israel,
Indonesia, y Eslovenia, y en otros países o regiones bilingües como Irlanda,
el País Vasco, y Gales — la traducción ha posibilitado el uso en la educación,
el gobierno, y el comercio de lenguas que habían carecido de textos.
Trasfondo teórico
La traducción es una tarea, aun cuando la hacen expertos, que
necesita muchas horas de trabajo.
En el mundo actual, la mayoría de los traductores utilizan computadoras en su trabajo,
no sólo para guardar sus traducciones en forma digital sino también
para facilitar la tarea misma.
No cabe duda de que el uso de herramientas computacionales haya
acelerado la producción de traducciones [3],
y que de esta manera podría servir para el fortalecimiento de las lenguas indígenas [4].
Las herramientas, a menudo integradas en sistemas de
traducción
asistida por computadora (TAC), pertenecen a tres categorías:
diccionarios, memorias de traducción, y traducción automática. Una
memoria de traducción (MT) es un conjunto de “unidades de traducción”
(UT): cada unidad consiste en una oración (u otro segmento de texto)
en una lengua (digamos L1) y su traducción en otra (L2). Supongamos
que un usuario esté traduciendo un documento de L1 a L2.
Introduce el documento en el sistema TAC.
Primero el sistema segmenta el documento en oraciones.
Enseguida busca para cada oración en su MT UTs cuya oración de L1
coincide con la del documento.
Finalmente le muestran los resultados al usuario.
En el ejemplo fijado abajo,
el usuario está a punto de traducir la oración castellana a la izquierda (la
"oración fuente"), y el sistema TAC le ha mostrado una UT que coincide
con la oración fuente en ocho palabras.
Documento:
|
Resultados de la búsqueda de la MT:
|
...
En la montaña vivieron los
inmigrantes
por mucho tiempo en paz y armonía con la naturaleza.
...
|
En esas
comunidades
vivieron
por mucho
tiempo
en paz y
amistad, juntos y solidariamente.
Umi táva rupi
oiko
heta ára
teko marangatu
ha mborayhu
pa'ũme,
oñondivepa, jekupytýpe.
|
Algunos sistemas presentan además el alineamiento entre las palabras
en las dos oraciones de las UTs que coinciden; esto se fija en el
ejemplo por la coloración de las palabras.
Por ejemplo, el color verde muestra la correspondencia entre la
palabra castellana vivieron y la palabra guaraní oiko.
El usuario puede usar las sugerencias que le da el sistema o
rechazarlas. Su traducción final se registra en la MT; es decir,
cuánto más se usa el sistema TAC, más aumenta la MT.
La utilidad de una MT depende de su tamaño y de la concordancia entre
su contenido y el del documento fuente. Obviamente los pocos corpus
bilingües castellano-guaraní que existen en la actualidad no sirven para una MT
adecuada.
Los sistemas de
traducción automática (TA) se clasifican en dos tipos:
sistemas basados en reglas (TABR) y sistemas basados en datos
(traducción automática
estadística y
neuronal (TAE, TAN)). Los sistemas
basados en reglas (p.ej., Apertium) se componen de
diccionarios bilingües y reglas que implementan correspondencias
gramaticales entre las lenguas.
Dependen del conocimiento
lingüístico de expertos; no aprenden automáticamente. Los sistemas
basados en datos (p.ej., Traductor de Google), como las memorias de
traducción, dependen de corpus bilingües grandes. Utilizando el
aprendizaje automático, se descubren tendencias
estadísticas en las relaciones entre las dos lenguas, en la traducción de palabras y frases y en el orden de
palabras, sin depender de conocimiento gramatical explícito o de diccionarios.
Para pares de lenguas para las que existen
corpus bilingües adecuados, domina hoy en día la traducción estadística o neuronal.
En resumen, los sistemas TAC incluyen herramientas (MT, TA) que sólo
se pueden implementar a través de corpus bilingües grandes de las
lenguas en cuestión. En falta de un corpus adecuado, sólo se pueden
incorporar diccionarios y TABR.
Metas
El objetivo principal del proyecto es ayudar en la tarea de la
traducción castellano-guaraní a través del desarrollo de una serie de
herramientas computacionales integradas en una aplicación web, es
decir, un sistema de TAC.
Como en los sistemas TAC convencionales, se planea integrar una MT
y un traductor automático (TA) en la aplicación.
Aunque se ha desarrollado una versión inicial de un sistema de TABR, incluso un diccionario
bilingüe digital
(Mbojereha), ya sabemos que padece de muchas lagunas en su cobertura
de las lenguas.
Por otro lado, una MT usable todavía no existe por causa de la falta
de corpus bilingües.
Pretendemos complementar los pocos
recursos disponibles con datos que solicitaremos de los usuarios del
sistema, específicamente para llenar lagunas que se han identificado
en la MT y el TA.
Creemos que Mainumby va a representar un logro importante no solo para la
traducción castellano-guaraní sino también para los ámbitos de investigaciones
computacionales dedicados a la traducción automática y la
traducción asistida por computadora en el contexto de lenguas sin recursos
suficientes.
Podés enterarte más sobre la teoría subyacente a Mainumby,
Traducción por Segmentos Generalizados (también llamada
Traducción de Dependencias Minimales), en Gasser (2017) [5],
un artículo en inglés que ilustra la teoría con ejemplos de
otra implementación,
y sobre Mainumby mismo en Gasser (2018) [6].
Si sos programador(a), podés acceder al código del proyecto en
Github aquí: https://github.com/hltdi/mainumby.
Cómo funciona
Mainumby tiene un diccionario bilingüe de frases y
conocimiento básico de la gramática castellana, la
gramática guaraní, y las relaciones entre ellas.
El diccionario y la gramática se basan en varios recursos publicados o
disponibles en forma digital, pero todavía padece lagunas grandes.
Para cada oración castellana que el usuario introduce, Mainumby
analiza las palabras, extrayendo las raíces y las propiedades gramáticas.
Entonces busca frases en la oración analizada que coinciden con frases en su diccionario.
Finalmente, para cada frase coincidente genera una o más traducciones en guaraní, usando
su conocimiento de la morfología y ortografía del idioma.
En la interfaz, se le muestran estos resultados al usuario.
Cuando el usuario corrige la salida del sistema o reemplaza una
traducción por una diferente, Mainumby aprende de esta
retroalimentación, mejorando su diccionario o su conocimiento
gramatical.
Además Mainumby añade la traducción producida por el usuario a una
memoria de traducción, de manera que se use en sesiones futuras cuando
otro usuario traduzca una oración semejante.
Bibliografía
[1] De Granda, G. (1988). Sociedad, historia y lengua del
Paraguay. Bogotá: Instituto Garo y Guervo.
[2] Melià,
B. (2007).
La crisis del bilingüismo en Paraguay. IV Congreso Internacional de la Lengua Española. Cartagena, Colombia.
[3] Candel-Mora,
M. A. (2015).
Comparable corpus approach to explore
the influence of computer-assisted translation systems on
textuality. Procedia: Social and Behavioral Sciences, 198, 67-73.
[4] Gasser, M. (2006). Machine translation and the future of
indigenous languages. I Congreso Internacional de Lenguas y
Literaturas Indoamericanas, October, 2006, Temuco, Chile.
[5] Gasser, M. (2017). Minimal dependency translation:
a framework for computer-assisted translation for under-resourced
languages.
EAI International Conference on ICT for Development for Africa,
25-27 septiembre, 2017, Bahir Dar, Etiopía.
[6] Gasser, M. (2018). Mainumby: un ayudante para la traducción
castellano-guaraní. Tercer Seminario Internacional sobre Traducción,
Terminología y Lenguas Minorizadas, Asunción, Paraguay, 19-21 julio, 2018, San Lorenzo, Paraguay.