Comunidades en Defensa

Desarrollan traductor de lenguas de los pueblos originarios

Un traductor de forma automática para lenguas de los pueblos originarios es desarrollado por especialistas del Instituto de Investigaciones en Matemáticas Aplicadas y Sistemas (IIMAS) de la UNAM.

¿Cuáles son las lenguas traducidas?

Wixárika (Nayarit)
Ayuuk (Oaxaca)
Náhuatl (clásico y moderno)
Mexicanero (Durango)
Yorinoqui (Estado de México)

Desarrollan traductor de lenguas de los pueblos originarios

De acuerdo con el catálogo del Instituto Nacional de Lenguas Indígenas, en México hay 68 agrupaciones lingüísticas las cuales tienen 364 variantes y hasta hace poco solo la empresa Microsoft desarrolló, en colaboración con universidades de Querétaro y Yucatán, software de interpretación del otomí y maya, como parte de su programa Heritage.

Desarrollan traductor de lenguas de los pueblos originarios

¿Cómo comenzó el proyecto?

Iván Vladimir Meza Ruiz, del Departamento de Ciencias de la Computación del IIMAS y titular del proyecto es especialista en Inteligencia Artificial.

Explicó que a partir de 2014 comenzó con el trabajo gracias a un estudiante que tiene relación con la comunidad wixárika, conocidos por la mayoría como huicholes, y tenía la intención de apoyarla.

Poco a poco se sumaron voluntarios a esta labor, principalmente aquellos que tienen relación con comunidades originarias, estudian una carrera técnica y trabajan con náhuatl, mexicanero y yoem noki.

Por ejemplo, el investigador del IIMAS asesora a su estudiante de licenciatura César Cruz, en el IIMAS, para documentar el sistema inteligente para el mazahua, o como ellos se denominan J ñatio, que el alumno desarrolló en forma de una aplicación para celular que se llama MazahuApp, la cual está a disposición a través de GoogleApps.

Otro caso es el de su estudiante de maestría Delfino Zacarías Márquez Cruz, hablante de Ayuuk (mixe), quien trabaja en un método de interpretación, labor en la cual participaron varios miembros de su sitio de origen en la recolección de datos.

«La idea surgió porque desde hacía tiempo quería diseñar un traductor, pero no sabía aterrizar mi idea, así que me acerqué al doctor Iván quien me propuso hacer la red neuronal», explicó el estudiante.

Narró que requería trabajo de campo «porque cuando empecé no había recursos para entrenar el modelo y se necesitaba algo que se llama corpus -que son los textos entre el español y la lengua que se quiere trabajar-«.

«El reto fue trabajarlos, encontrar quien traduzca y que las personas estén dispuestas a compartir», relató Zacarías Márquez.

¿Cómo funciona el traductor de lenguas de los pueblos originarios?

Meza Ruiz explicó que para este trabajo se utilizan redes neuronales, un modelo computacional que imita un proceso, que en este caso es la traducción de una lengua a otra.

Explicó que se requieren ejemplos, como datos de frases traducidas entre ambas. Para ello se utilizan conceptos matemáticos comunes, y hasta cierto punto básicos, como las operaciones matrices y cálculo vectorial.

La complejidad surge al calibrar los modelos, es decir, encontrar valores específicos para cada una de las acciones que debe realizar el sistema, de tal manera que una frase en una lengua sea transformada a otra, sin ser confundida.

«Afortunadamente tenemos varios algoritmos que funcionan bien, pero dado que los modelos actuales llamados profundos tienen numerosos módulos y valores para procesar, se necesita un equipo de cómputo especializado».

Alimentar la base de datos

Meza Ruiz detalló que los elaborados hasta ahora, incluidos los de Microsoft, son deficientes debido a que este tipo de tecnologías son más exitosas cuando tienen un cuerpo de datos, es decir, millones de ejemplos de frases equivalentes en ambos idiomas para que el programa aprenda a reconocerlas.

“Para lenguas originarias los corpus más grandes están cerca de los 10 mil ejemplos, en comparación con los millones de los sistemas comerciales».

«Estamos muy lejos de tener una experiencia similar a la que tenemos al usar un traductor normal, porque tenemos muy poquitos datos».

«Esa es parte de nuestra batalla ahorita: conseguir más datos e incrementar nuestros ejemplos”, subrayó Zacarías Márquez.

A lo anterior se agrega que las voces originarias de México son predominantemente orales, precisó, por lo que la normalización de su escritura es contemporánea y en diversos casos no está decidido aún cómo se escriben palabras, conceptos e inclusive frases completas.

Por ejemplo, dijo, el caso del wixárika se compone de numerosos vocablos con partículas morfológicas, entonces lo que para nosotros puede ser una frase para ellos es una sola palabra, una situación difícil de procesar para las redes neuronales.

Meza Ruiz añadió que también se deben considerar algunas pérdidas en la traducción, pues para el huichol una oración se estructura en base a cuánta gente escucha lo que se dice y si hay alguien de mayor jerarquía que nosotros, algo que en español no se suele hacer y esto influye para que algunos textos queden incompletos.

Por ejemplo, la frase m’k’pa:pa ya p’-ta-ti-u-ti-wawi-ri-wa entre otras cosas indica que el evento descrito es visto por el hablante, situación que no se marca en español y la traducción más cercana sería: Ella siempre nos pide tortillas.

Para consultar estos trabajos, Zacarías Márquez comentó que en el caso del wixárika se cuenta con el sitio de internet http://turing.iimas.unam.mx/wix/, y está en proceso otro para el ayuuk.

Se requiere más apoyo

El investigador enfatizó que hace falta apoyo para el desarrollo de este tipo de tecnologías a fin de rescatar las lenguas de los pueblos indígenas, pues tradicionalmente se estudian a partir de la lingüística o la antropología para documentarlas.

Además, surge la discusión de qué tanto estas comunidades necesitan de las herramientas, si es benéfico para ellas o cómo lo utilizarían, pues tienen otras prioridades.

“Lo que hemos detectado es que hay un reconocimiento de los habitantes de México de que sí debemos apoyar a preservarlas, promover su uso, y tener un traductor automático podría ayudar a esto y a facilitar esta situación”, subrayó Zacarías Márquez.

Esto te puede interesar

SEMARNAT formaliza prohibición de minería en Áreas Naturales Protegidas tras aval de la SCJN

La dependencia emite un acuerdo en el DOF que restringe trámites ambientales, licencias y depósitos de residuos dentro de polígonos protegidos de jurisdicción federal. La medida aplica de forma estricta incluso a titulares de concesiones otorgadas antes de las reformas de mayo de 2023.

por en15días julio 23, 2026julio 23, 2026

La ciudad mercancía o la ciudad como bien común

Morelia atraviesa una disputa que va mucho más allá de los cambios de uso de suelo o los desarrollos inmobiliarios. Lo que está en juego es el modelo de ciudad que se construye desde el poder y la posibilidad de imaginar otro basado en la defensa de lo común, el territorio y la democracia.

por en15días julio 22, 2026julio 22, 2026

Aulas en llamas, cómo el cambio climático altera la vida escolar en Yucatán

Las escuelas de Yucatán enfrentan un desafío que ya transforma la educación: el calor extremo. Este reportaje documenta cómo docentes, estudiantes y autoridades improvisan estrategias para adaptarse a temperaturas cada vez más altas, mientras la infraestructura escolar y las políticas públicas avanzan a un ritmo mucho más lento que la crisis climática.

por en15días julio 22, 2026julio 22, 2026

Últimas notas

Opinión

entre periodistasOpinión

Desarrollan traductor de lenguas de los pueblos originarios

¿Cuáles son las lenguas traducidas?

Wixárika (Nayarit)
Ayuuk (Oaxaca)
Náhuatl (clásico y moderno)
Mexicanero (Durango)
Yorinoqui (Estado de México)

Desarrollan traductor de lenguas de los pueblos originarios

Desarrollan traductor de lenguas de los pueblos originarios

¿Cómo comenzó el proyecto?

Explicó que a partir de 2014 comenzó con el trabajo gracias a un estudiante que tiene relación con la comunidad wixárika, conocidos por la mayoría como huicholes, y tenía la intención de apoyarla.

¿Cómo funciona el traductor de lenguas de los pueblos originarios?

Explicó que se requieren ejemplos, como datos de frases traducidas entre ambas. Para ello se utilizan conceptos matemáticos comunes, y hasta cierto punto básicos, como las operaciones matrices y cálculo vectorial.

«Afortunadamente tenemos varios algoritmos que funcionan bien, pero dado que los modelos actuales llamados profundos tienen numerosos módulos y valores para procesar, se necesita un equipo de cómputo especializado».

Alimentar la base de datos

“Para lenguas originarias los corpus más grandes están cerca de los 10 mil ejemplos, en comparación con los millones de los sistemas comerciales».

«Esa es parte de nuestra batalla ahorita: conseguir más datos e incrementar nuestros ejemplos”, subrayó Zacarías Márquez.

Por ejemplo, dijo, el caso del wixárika se compone de numerosos vocablos con partículas morfológicas, entonces lo que para nosotros puede ser una frase para ellos es una sola palabra, una situación difícil de procesar para las redes neuronales.

Por ejemplo, la frase m’k’pa:pa ya p’-ta-ti-u-ti-wawi-ri-wa entre otras cosas indica que el evento descrito es visto por el hablante, situación que no se marca en español y la traducción más cercana sería: Ella siempre nos pide tortillas.

Se requiere más apoyo

Además, surge la discusión de qué tanto estas comunidades necesitan de las herramientas, si es benéfico para ellas o cómo lo utilizarían, pues tienen otras prioridades.

Esto te puede interesar

SEMARNAT formaliza prohibición de minería en Áreas Naturales Protegidas tras aval de la SCJN

La ciudad mercancía o la ciudad como bien común

Aulas en llamas, cómo el cambio climático altera la vida escolar en Yucatán