Idiomas nunca descifrados podrían revelarse a través de Inteligencia Artificial
En California han desarrollado un sistema de aprendizaje automático basado en mapeos del lenguaje, capaz de descifrar idiomas perdidos.
Jiaming Luo y Regina Barzilay del MIT y Yuan Cao del laboratorio de IA de Google en Mountain View, California han desarrollado un sistema de aprendizaje automático capaz de descifrar idiomas perdidos, y lo han demostrado al descifrar Lineal B, la primera vez que esto se hace automáticamente. El enfoque que usaron fue muy diferente de las técnicas estándar de traducción automática.
Primero algunos antecedentes. La gran idea detrás de la traducción automática es comprender que las palabras están relacionadas entre sí de manera similar, independientemente del idioma involucrado.
Entonces, el proceso comienza mapeando estas relaciones para un lenguaje específico. Esto requiere enormes bases de datos de texto. Luego, una máquina busca este texto para ver con qué frecuencia aparece cada palabra al lado de cada otra.
Este patrón de apariencias es una firma única que define la palabra en un espacio de parámetros multidimensional. De hecho, la palabra puede considerarse como un vector dentro de este espacio. Y este vector actúa como una restricción poderosa sobre cómo puede aparecer la palabra en cualquier traducción que surja con la máquina.
Estos vectores obedecen algunas reglas matemáticas simples. Por ejemplo: rey – hombre + mujer = reina. Y una oración puede considerarse como un conjunto de vectores que siguen uno tras otro para formar una especie de trayectoria a través de este espacio.
La idea clave que permite la traducción automática es que las palabras en diferentes idiomas ocupan los mismos puntos en sus respectivos espacios de parámetros. Eso hace posible asignar un idioma completo a otro idioma con una correspondencia uno a uno.
De esta manera, el proceso de traducción de oraciones se convierte en el proceso de encontrar trayectorias similares a través de estos espacios. La máquina nunca necesita “saber” lo que significan las oraciones.
Este proceso se basa fundamentalmente en los grandes conjuntos de datos. Pero hace un par de años, un equipo alemán de investigadores mostró cómo un enfoque similar con bases de datos mucho más pequeñas podría ayudar a traducir idiomas mucho más raros que carecen de las grandes bases de datos de texto. El truco es encontrar una forma diferente de restringir el enfoque de la máquina que no se base en la base de datos.
Ahora Luo y compañía han ido más allá para mostrar cómo la traducción automática puede descifrar los idiomas que se han perdido por completo. La restricción que usan tiene que ver con la forma en que se sabe que los idiomas evolucionan con el tiempo.
La idea es que cualquier idioma puede cambiar solo de ciertas maneras; por ejemplo, los símbolos en idiomas relacionados aparecen con distribuciones similares, las palabras relacionadas tienen el mismo orden de caracteres, etc. Con estas reglas que limitan la máquina, resulta mucho más fácil descifrar un idioma, siempre que se conozca el idioma progenitor.
Luo y compañía pusieron a prueba la técnica con dos idiomas perdidos, Linear B y Ugaritic. Los lingüistas saben que Linear B codifica una versión temprana del griego antiguo y que Ugaritic, que fue descubierto en 1929, es una forma temprana de hebreo.
Dada esa información y las limitaciones impuestas por la evolución lingüística, la máquina de Luo y compañía puede traducir ambos idiomas con notable precisión. “Pudimos traducir correctamente el 67,3% de los cognados del Lineal B a sus equivalentes griegos en el escenario de descifrado”, dicen. “Hasta donde sabemos, nuestro experimento es el primer intento de descifrar Lineal B automáticamente”.
Ese es un trabajo impresionante que lleva la traducción automática a un nuevo nivel. Pero también plantea la interesante cuestión de otros idiomas perdidos, particularmente aquellos que nunca han sido descifrados, como Linear A.
En este artículo, el lineal A es notable por su ausencia. Luo y compañía ni siquiera lo mencionan, pero debe ser muy importante en su pensamiento, como para todos los lingüistas. Sin embargo, aún se necesitan avances importantes para alcanzar la traducción automática.
Por ejemplo, nadie sabe qué lenguaje codifica el Lineal A. Los intentos de descifrarlo en griego antiguo han fracasado. Y sin el lenguaje progenitor, la nueva técnica no funciona.
Pero la gran ventaja de los enfoques basados en máquinas es que pueden probar un idioma tras otro rápidamente sin fatigarse. Por lo tanto, es muy posible que Luo y compañía aborden el Lineal A con un enfoque de fuerza bruta y simplemente intenten descifrarlo en todos los idiomas para los que ya funciona la traducción automática.