Por José Gustavo Fuentes Cabrera*

Uno de los cuestionamientos más recurrentes cuando se habla de datos digitales y su explotación en el negocio surge siempre la misma pregunta: ¿Por dónde empezar?

Consideremos el siguiente escenario: los datos abundan dentro de la organización, los esfuerzos e inversiones en tecnología de años previos han ayudado a digitalizar el negocio; sin embargo, son tantos los sistemas de información y tan diversos los usos, que los datos se encuentran altamente dispersos, la calidad de los mismos no es óptima —ya que, en su momento, la prioridad fue establecer los mecanismos de digitalización, pero no los criterios de calidad del almacenamiento—, hay áreas más “maduras” que otras, se está contemplando un proyecto ambicioso para concentrar los datos en un solo repositorio y los primeros resultados no son muy alentadores. Si al menos una de estas circunstancias te es familiar, entonces debes considerar una estrategia integral para explotar el valor de los datos digitales. 

Lo primero que debe entender tu equipo son los tipos de datos que están recabando, los cuales, en términos generales, se agrupan en tres tipos: estructurados, semiestructurados y no estructurados. Los datos estructurados son aquellos que se almacenan en forma de tabla de datos, por ejemplo, tickets de venta, catálogos de clientes, transacciones o datos de los diversos productos, la clave aquí es que cada dato está asociado a una columna, tipo de dato y estructura específica definida a priori. Los datos semiestructurados no poseen la estructura tabular formal de los anteriores, sin embargo, contienen etiquetas o separadores semánticos que permiten su entendimiento. Algunos ejemplos son las facturas fiscales (XML) o los documentos generados por páginas web como Google Analytics, Facebook, Twitter, etc (JSON). Finalmente, los datos no estructurados son el complemento de los dos anteriores, carecen de estructura predefinida y son intrínsecamente abundantes. Los datos no estructurados son generados principalmente en grandes volúmenes de texto, imágenes, audio, interacciones de redes sociales, etc. 

Una vez que se conocen los tipos de datos involucrados, estamos en posibilidad  de hacer una mejor elección de las tecnologías adecuadas para su almacenamiento. Los dos enfoques más populares son Datawarehouse y Datalake, donde el primero es recomendado cuando los datos son mayormente estructurados, otra consideración adicional es la rapidez de cambio de nuestro negocio, si tenemos procesos estables, controlados y con métricas claras un paradigma de Datawarehouse será un aliado. 

Lee también: Ventanas falsas, suplantación y secuestro, lo último de los cibercriminales para robar tus datos

En este paradigma se establecen los esquemas de datos (residentes en un sistema de bases de datos relacionales) preparados para business intelligence y business analytics y se alimentan mediante un proceso de transformación de los sistemas transaccionales de operación diaria de la organización para “traducirse” a su forma analítica (listos para convertirse en información de negocio valiosa).

Se trata de un enfoque que requiere mayor esfuerzo ante los cambios, aunque un correcto y concienzudo modelado de la información de la empresa generará grandes beneficios de automatización y estructura a las decisiones asistidas por datos. Con respecto al segundo enfoque, datalake, se omite por completo la estructura, facilitando el almacenamiento de todo tipo de datos “en caliente” y dejando el trabajo de procesamiento, transformación y análisis a herramientas con enfoque Bigdata, donde las más populares son las tecnologías Open Source del proyecto Apache, tales como Hadoop o Spark. 

Es importante señalar que los esfuerzos de los que hemos hablado no son mandatorios para iniciar con la explotación de los datos digitales, ya que los científicos de datos son capaces de proveer valor, incluso, sin contar con una infraestructura tecnológica robusta; no obstante, contar con ella potencia enormemente la labor de estos profesionales y es una de las herramientas estratégicas en la transformación digital. 

En resumen, entender los tipos y escala de los datos que estamos almacenando nos permitirá enfocar los esfuerzos sobre los paradigmas a implementar, así como las tecnologías que les darán soporte en paralelo. Iniciar la explotación de cualquier información disponible es posible con el talento adecuado y, una vez que converjan las labores descritas, estaremos en una posición mucho más orientada hacia la maximización del valor latente que los datos digitales guardan en cada bit.

 

Contacto:

Correo: [email protected]

LinkedIn: José Gustavo Fuentes Cabrera

 

*El autor es CEO de la compañía Insaite y profesor de Ciencia de Datos, Actuaría y Matemáticas Aplicadas y Computación en la UNAM

Las opiniones expresadas son sólo responsabilidad de sus autores y son completamente independientes de la postura y la línea editorial de Forbes México.

 

Siguientes artículos

concierto
La cultura como fuente de entretenimiento
Por

La idea de cultura deambula constantemente por el pensamiento de las personas, se escribe y se discute sobre ello de for...