¿Cómo puede mi negocio aprovechar el Big Data? apareció originalmente en Quora: un lugar para adquirir y compartir conocimiento, y entender mejor el mundo. Respuesta por Marcos Jiménez Rodríguez, Experto en Big Data. Project Leader en Viewnext

Resumiendo, los pasos a seguir serían estos:

  1. Definir claramente qué se quiere conseguir, qué preguntas se van a formular y qué tipo de respuestas se quieren ofrecer.
  2. Catalogar los datos que se necesitan para obtener esas respuestas, sus fuentes, tipologías y criterios de calidad aplicables.
  3. Analizar qué operaciones hay que poner en marcha para acceder a estos datos (ingestas), y las herramientas más adecuadas para cada caso.
  4. Analizar si es necesario persistir los datos y, en su caso, dónde y cómo se persisten (como archivos o registros de bases de datos, los formatos de archivo y registro, etc)
  5. Analizar las fases de transformación y enriquecimiento (workflows) que han de producirse para convertir los datos de entrada en las fuentes válidas para los procesos analíticos que deben generar las respuestas previstas en el primer punto.
  6. Evaluar las magnitudes de los conjuntos de datos, tanto en tamaño actual como tasa de crecimiento para determinar qué solución es la más adecuada. Evaluar tanto los datos procedentes del exterior como los archivos y tablas intermedios que se puedan originar en el curso de los procesos de transformación.
  7. Analizar y definir claramente qué restricciones de tipo orgánico afectan a los datos y los procesos que hemos identificado. En concreto, los aspectos de seguridad de la información, privacidad, calidad, retención legal, etcétera, que a menudo se ignoran.

En un sentido más general, lo primero que hay que hacer es reflexionar si las necesidades y oportunidades de la empresa dependen de la capacidad de operar con datos masivos o se trata más bien, de aplicar técnicas de Machine Learning a conjuntos de datos que ya tienen y cuya escala entra dentro de los parámetros convencionales de un Data Warehouse.

Una cosa es almacenar datos masivos y otra tratar datos masivos almacenados. Si solamente se trata de almacenar grandes bases de datos (por ejemplo como sistema de backup), existen alternativas a bajo coste muy eficientes. Si estos datos son la entrada de procesos de cómputo -por ejemplo de tipo analítico-, es indispensable un sistema capaz de operar con estos datos tan enormes con cierta eficiencia y agilidad, y en la actualidad eso se consigue con dos estrategias tecnológicas distintas: los grandes clústers de bases de datos relacionales con procesamiento in-memory o los clústers basados en el paradigma de Hadoop/Map-Reduce/programación distribuida, mucho más baratos que los anteriores, pero a cambio de renunciar a algunas funcionalidades típicas de los sistemas RDBMS.

La segunda parte de mi respuesta en el párrafo inicial es también importante aclararla: hay cierta confusión en los medios y en la web entre Big Data y lo que se denomina Data Science. Si lo que necesita tu empresa es aplicar modelos predictivos a la información propia y combinarla, por ejemplo, con datos procedentes de Internet, no necesariamente las fuentes de datos son gigantescas. Yo he creado modelos predictivos basándome en series temporales de sensores en donde un dataset completo con datos de 15 años no superaba los 100Mb y me permitía trabajar con más de 1 millón de eventos registrados. Este archivo está muy lejos de ser “big data”, pero era perfectamente válido para entrenar una red neuronal DNN y obtener predicciones con un margen de error no superior al 2%.

Esta pregunta apareció originalmente en Quora, un lugar para adquirir y compartir conocimiento en el mundo. Más preguntas:   Contacto: Twitter: @QuoraES Facebook: QuoraES Las opiniones expresadas son sólo responsabilidad de sus autores y son completamente independientes de la postura y la línea editorial de Forbes México.

 

Siguientes artículos

ethereum-criptomonedas
La blockchain, ¿Cómo sé si un ICO es estafa?
Por

Considerando que la ICO es una fase de la creación de una criptomoneda o criptoactivo, debemos asumir que para el moment...