Dos años les tomó a los aliados descifrar Enigma en medio de una lucha a vida o muerte. Hoy, en cambio, en el mercado existe un gran número de herramientas que podemos adquirir para implementar nuestros proyectos de analítica y big data.

 

Por Alex Infanzon

En la película Descifrando Enigma, los pioneros de la computación Alan Turing (Benedict Cumberbatch) y Hugh Alexander (Matthew Goode) muestran la importancia del procesamiento oportuno de los datos y la existencia de big data antes que ese término se acuñara.

La cinta narra el objetivo ultrasecreto para romper el cifrado de la máquina Enigma de la Alemania nazi. La trama se desarrolla en el cuartel general de comunicaciones del gobierno británico, situado en la mansión de Bletchley Park.

Durante la Segunda Guerra Mundial, las comunicaciones alemanas eran encriptadas utilizando Enigma. Los aliados podían interceptar las comunicaciones que los alemanes transmitían en código morse. El problema era descifrarlas oportunamente. Los aliados se habían adueñado secretamente de una máquina Enigma, pero para descifrar los mensajes era necesario conocer la configuración de la máquina. Los alemanes cambiaban la configuración todos los días a la medianoche. Por lo general, el primer mensaje se interceptaba a las 6 a.m., lo que daba 18 horas para descifrar el código antes que cambiara y empezar de cero.

El número de posibles configuraciones de Enigma era de ciento cincuenta y nueve mil billones (159,000,000,000,000,000,000). Suponiendo que 10 personas pudieran verificar 10 configuraciones cada minuto las 24 horas y 7 días a la semana, el tiempo requerido para comprobar cada una de las configuraciones sería de 20 millones de años. Esto es, para descifrar los mensajes y detener un ataque alemán, los aliados tenían que realizar 20 millones de años de trabajo en minutos.

 

En la cotidianidad

Con la tecnología que poseemos, los analistas aún dedican entre 70 y 80% de su tiempo a la recopilación, exploración y adecuación de los datos. Equivalente a lo que las señoritas de la Marina Real Británica hacen en la película. En otras palabras, obtener los datos de diferentes fuentes (interceptar las comunicaciones en diferentes localidades) en su forma original (código morse), entender su estructura (puntos y rayas), transformarlos (de morse a texto encriptado), moverlos y cargarlos a un destino diferente (enviar el resultado a los criptoanalistas).

El proceso descrito en el párrafo anterior se conoce como extracción, transformación y carga (ETL). El ETL puede generar Analytical Base Tables (ABT). Una ABT es una tabla plana, como una hoja electrónica de cálculo, que se utiliza para la construcción de modelos analíticos y de “scoring” (una ecuación derivada estadísticamente que produce un número o calificación).

El reto se presenta cuando en las fuentes tenemos un gran volumen de datos, una frecuencia de actualización alta, o bien, datos en múltiples formatos. Los procesos ETL suelen ser complejos y costosos. Su desarrollo toma tiempo y pueden presentar graves problemas de desempeño.

Dos variantes del proceso ETL son:

  1. Extracción, carga y transformación (ELT).
  2. Extracción, transformación, carga y transformación (ETLT).

Ambas han encontrado un aliado natural en Hadoop. Es por eso que muchas empresas en diferentes industrias están reemplazando los procesos ETL por una combinación de Hadoop (bodega de datos analítica), bases de datos tradicionales (bodega de datos para Inteligencia de Negocios) y procesos ELT o ETLT.

Siguiendo con la analogía de la película, el proceso ETLT se vería de la siguiente manera:

La extracción (E) equivale a las señoritas de la Marina Real interceptando las comunicaciones alemanas en su forma analógica. La primera transformación (T) es convertir de señal analógica a digital. El resultado de la transformación se carga (L) en Hadoop. Una vez almacenadas las comunicaciones se pueden realizar transformaciones (T) adicionales; por ejemplo: mejorar la calidad de los datos, convertirlas en texto, aplicar el algoritmo para decodificar los mensajes, analizar frecuencias, complementar los datos con localidad, duración, hora y fecha. Y, si se desea, traducir el texto decodificado del alemán al inglés.

En la vida real, 20 o 30% del tiempo restante de los analistas se dedica a la creación y ejecución de modelos analíticos. En la película, una vez que se mecanizó el proceso para descifrar las comunicaciones. Alan Turing desarrolla un modelo estadístico para ayudar a determinar, con base en los mensajes descifrados y analizados (“scoring”), la cantidad de inteligencia que se puede utilizar, es decir, qué ataques se pueden detener y cuáles dejar pasar. En otras palabras, utilizar modelos matemáticos y análisis estadístico para definir el número mínimo de acciones necesarias para ganar la guerra, pero el máximo que se puede tomar antes que los alemanes sospechen que los aliados pueden descifrar los mensajes encriptados por Enigma.

Dos años les tomó a los aliados completar ese proyecto. Claro que ellos tuvieron que empezar de cero. Crear máquinas, dispositivos, algoritmos y modelos analíticos para vencer a su enemigo y ganar la guerra. Una lucha a vida o muerte. Por fortuna para nosotros, hoy en el mercado existe un gran número de herramientas que podemos adquirir para implementar nuestros proyectos de analítica y big data.


Alex Infanzon es Arquitecto de la Práctica de High Performance Analytics en SAS.

 

Contacto:

Twitter: @SASMexico

Facebook: SASMx

Página web: SAS

 

Las opiniones expresadas son sólo responsabilidad de sus autores y son completamente independientes de la postura y la línea editorial de Forbes México.

 

Siguientes artículos

Inclusión financiera, una clave para el desarrollo en el Caribe
Por

El 93% de la población dominicana realiza sus pagos en efectivo, lo que convierte al país en un mercado de gran oportuni...