Idiomas nunca descifrados podrían revelarse a través de Inteligencia Artificial

Jiaming Luo y Regina Barzilay del MIT y Yuan Cao del laboratorio de IA de Google en Mountain View, California han desarrollado un sistema de aprendizaje automático capaz de descifrar idiomas perdidos, y lo han demostrado al descifrar Lineal B, la primera vez que esto se hace automáticamente. El enfoque que usaron fue muy diferente de las técnicas estándar de traducción automática.

Primero algunos antecedentes. La gran idea detrás de la traducción automática es comprender que las palabras están relacionadas entre sí de manera similar, independientemente del idioma involucrado.

Entonces, el proceso comienza mapeando estas relaciones para un lenguaje específico. Esto requiere enormes bases de datos de texto. Luego, una máquina busca este texto para ver con qué frecuencia aparece cada palabra al lado de cada otra.

Este patrón de apariencias es una firma única que define la palabra en un espacio de parámetros multidimensional. De hecho, la palabra puede considerarse como un vector dentro de este espacio. Y este vector actúa como una restricción poderosa sobre cómo puede aparecer la palabra en cualquier traducción que surja con la máquina.

Estos vectores obedecen algunas reglas matemáticas simples. Por ejemplo: rey – hombre + mujer = reina. Y una oración puede considerarse como un conjunto de vectores que siguen uno tras otro para formar una especie de trayectoria a través de este espacio.

La idea clave que permite la traducción automática es que las palabras en diferentes idiomas ocupan los mismos puntos en sus respectivos espacios de parámetros. Eso hace posible asignar un idioma completo a otro idioma con una correspondencia uno a uno.

De esta manera, el proceso de traducción de oraciones se convierte en el proceso de encontrar trayectorias similares a través de estos espacios. La máquina nunca necesita “saber” lo que significan las oraciones.

Este proceso se basa fundamentalmente en los grandes conjuntos de datos. Pero hace un par de años, un equipo alemán de investigadores mostró cómo un enfoque similar con bases de datos mucho más pequeñas podría ayudar a traducir idiomas mucho más raros que carecen de las grandes bases de datos de texto. El truco es encontrar una forma diferente de restringir el enfoque de la máquina que no se base en la base de datos.

Ahora Luo y compañía han ido más allá para mostrar cómo la traducción automática puede descifrar los idiomas que se han perdido por completo. La restricción que usan tiene que ver con la forma en que se sabe que los idiomas evolucionan con el tiempo.

La idea es que cualquier idioma puede cambiar solo de ciertas maneras; por ejemplo, los símbolos en idiomas relacionados aparecen con distribuciones similares, las palabras relacionadas tienen el mismo orden de caracteres, etc. Con estas reglas que limitan la máquina, resulta mucho más fácil descifrar un idioma, siempre que se conozca el idioma progenitor.

Luo y compañía pusieron a prueba la técnica con dos idiomas perdidos, Linear B y Ugaritic. Los lingüistas saben que Linear B codifica una versión temprana del griego antiguo y que Ugaritic, que fue descubierto en 1929, es una forma temprana de hebreo.

Dada esa información y las limitaciones impuestas por la evolución lingüística, la máquina de Luo y compañía puede traducir ambos idiomas con notable precisión. “Pudimos traducir correctamente el 67,3% de los cognados del Lineal B a sus equivalentes griegos en el escenario de descifrado”, dicen. “Hasta donde sabemos, nuestro experimento es el primer intento de descifrar Lineal B automáticamente”.

Ese es un trabajo impresionante que lleva la traducción automática a un nuevo nivel. Pero también plantea la interesante cuestión de otros idiomas perdidos, particularmente aquellos que nunca han sido descifrados, como Linear A.

En este artículo, el lineal A es notable por su ausencia. Luo y compañía ni siquiera lo mencionan, pero debe ser muy importante en su pensamiento, como para todos los lingüistas. Sin embargo, aún se necesitan avances importantes para alcanzar la traducción automática.

Por ejemplo, nadie sabe qué lenguaje codifica el Lineal A. Los intentos de descifrarlo en griego antiguo han fracasado. Y sin el lenguaje progenitor, la nueva técnica no funciona.

Pero la gran ventaja de los enfoques basados en máquinas es que pueden probar un idioma tras otro rápidamente sin fatigarse. Por lo tanto, es muy posible que Luo y compañía aborden el Lineal A con un enfoque de fuerza bruta y simplemente intenten descifrarlo en todos los idiomas para los que ya funciona la traducción automática.

Un poco de historia

En 1886, el arqueólogo británico Arthur Evans encontró una piedra antigua con un curioso conjunto de inscripciones en un idioma desconocido. La piedra provenía de la isla mediterránea de Creta, y Evans viajó inmediatamente allí para buscar más evidencia. Rápidamente encontró numerosas piedras y tabletas con guiones similares y las data de alrededor de 1400 AC.

El Descifrado lineal B hizo que la inscripción sea una de las primeras formas de escritura jamás descubiertas. Evans argumentó que su forma lineal se derivaba claramente de imágenes de líneas groseramente rayadas pertenecientes a la infancia del arte, estableciendo así su importancia en la historia de la lingüística.

Él y otros más tarde determinaron que las piedras y las tabletas estaban escritas en dos guiones diferentes. El más antiguo, llamado Lineal A, data de entre 1800 y 1400 AC., cuando la isla estaba dominada por la civilización minoica de la Edad de Bronce.

El otro guión, Lineal B, es más reciente y aparece solo después de 1400 AC., cuando la isla fue conquistada por micénicos del continente griego.

Evans y otros trataron durante muchos años de descifrar los antiguos guiones, pero los idiomas perdidos resistieron todos los intentos. El problema permaneció sin resolver hasta 1953, cuando un lingüista aficionado llamado Michael Ventris descifró el código de Linear B.

Su solución se basó en dos avances decisivos. Primero, Ventris conjeturó que muchas de las palabras repetidas en el vocabulario Lineal B eran nombres de lugares en la isla de Creta. Eso resultó ser correcto.

Su segundo avance fue asumir que la escritura registraba una forma temprana del griego antiguo. Esa idea inmediatamente le permitió descifrar el resto del lenguaje. En el proceso, Ventris mostró que el griego antiguo apareció por primera vez en forma escrita muchos siglos antes de lo que se pensaba anteriormente.

El trabajo de Ventris fue un gran logro. Pero el guión más antiguo, Lineal A, ha seguido siendo uno de los grandes problemas pendientes en lingüística hasta nuestros días.

No es difícil imaginar que los recientes avances en la traducción automática puedan ayudar. En solo unos años, el estudio de la lingüística ha sido revolucionado por la disponibilidad de enormes bases de datos anotadas y técnicas para que las máquinas aprendan de ellas.

En consecuencia, la traducción automática de un idioma a otro se ha convertido en rutina. Y aunque no es perfecto, estos métodos han proporcionado una forma completamente nueva de pensar sobre el lenguaje.

Lee también: Inteligencia Artificial, robots y biotecnología, así es el futuro de la agricultura