Big Data : de problema de tecnología a solución de negocio

Ahora se está hablando de Big Data en todas partes, poco a poco nos damos cuenta de la potencia que puede tener el recopilar tantos datos y de tan diversas fuentes y contenidos. A mí la parte más difícil del Big Data me parece todo lo que tenga que ver con la tecnología, por lo que me he decidido a escribir una introducción a la parte tecnológica, para hacerlo todo algo más fácil de entender aunque no tengas perfil técnico.

Me he decidido a hablar de esto porque creo que el Big Data empezó siendo únicamente tecnológico (almacenamiento de todo tipo de datos) para convertirse en estos últimos tiempos en Big Data Analytics. Ahora bien, la parte más importante es pasar de un problema de tecnología a una solución de negocio. ¿Cómo lo hacemos?

Lo primero que tenemos que tener claro es que no por tener muchos datos vamos a alcanzar el conocimiento. Lo realmente importante es analizar los datos y determinar los que son importantes para el negocio. La tecnología nos ayudará pero no podemos basar todo el trabajo en la tecnología.

Ahora tenemos datos de distinta tipología y de distintas fuentes, datos de los clientes, de marketing y publicidad, de productos y servicios y de financiación. Además tendremos que tener en cuenta que los datos hay que extraerlos, transformarlos y cargarlos (técnicamente llamado ETL – Extract, Transform, Load), hay que analizarlos, hay que saber transmitirlos visualmente y que tenemos que tener muy en cuenta la precisión y calidad de dichos datos. Este es el ciclo de explotación del Big Data.

¿Y cuantos sistemas hay? Muchísimos, hay aplicaciones verticales, sistemas de business intelligence, de visualización, operacionales, infraestructura como servicio, bases de datos y diferentes tecnologías. La decisión de la infraestructura a implementar en cada compañía solamente depende de las necesidades de cada uno. ¡Y del dinero! No siempre lo más caro es lo mejor para nuestro negocio. Si hacemos el ejercicio previo de identificar nuestras necesidades de negocio, tendremos más claro qué tipo de sistema utilizar para almacenar y extraer nuestros datos.

Hay que decidir si vamos a ir a por una base de datos relacional o una base de datos no relacional. La principal diferencia entre ellas es el acceso de los datos. Las bases de datos relacionales son las tradicionales, las que tienen los datos bien estructurados, pero no tienen un almacenamiento muy versátil, ya que las queries de acceso a los datos se hacen complejas y el acceso y la velocidad se resienten.

Por eso nacen las bases de datos no relacionales, que guardan la información en bruto y luego van tomando piezas de dicha información según la necesidad de cada momento. Es decir, tienen ausencia de esquema, su escalabilidad horizontal es sencilla y, por tanto, ofrecen mayor velocidad y rendimiento.

En este gráfico tenemos las principales BBDD catalogadas por sistema de almacenamiento y acceso:

bbdd bigdata

Las BBDD Operativas son generalmente utilizadas para funcionamiento de aplicaciones, y son éstas las que las nutren de datos y las analíticas son solamente para almacenar los datos y extraerlos (datawarehouse de toda la vida) para hacer el análisis correspondiente.

Dentro de las no relacionales tenemos las bases de datos con propósitos especiales. Si la aplicación está orientada a documentos, se utiliza MongoDB o CouchDB… Si la aplicación está orientada a grafos o mapas, se utiliza Neo4j, si necesitamos una BBDD de acceso muy rápido, se toman las de clave valor como Redis o Cassandra y si tienen una gran cantidad de datos muy pequeños se utilizan las herramientas Big Table.

Si no queremos tener nuestros datos en nuestros propios servidores podemos tener las BBDD en la nube, tanto no relacionales como relacionales.

Finalmente, tenemos las bases de datos relacionales NewSql que son arquitecturas modernas en BBDD tradicionales.

Para ilustrar y poner de ejemplo una tecnología, he elegido Hadoop. Es la tecnología dominante ahora mismo para Big Data puesto que tiene almacenaje y procesamiento barato, además de que tiene un ritmo de crecimiento alto y constante.

Hadoop se compone de 4 módulos, el común que contiene las librerías y utilidades principales, el HDFS que es un sistema de ficheros de alta disponibilidad. Yarn es la plataforma de gestión de recursos y el map-reduce es el motor de extracción y programación.  

El map-reduce es el divide y vencerás de toda la vida. Se compone de dos pasos, se mapean los datos de diversas fuentes y se reducen para formar el output correspondiente. Como sabemos de antes, Hadoop es una base de datos no relacional. Los datos son almacenados en nodos o workers y se etiquetan de forma que solamente accedamos a los nodos que nos interesan en cada momento.

Se trata de probar algoritmos para comprobar las correlaciones entre variables, de forma que vayamos encontrando las causalidades. Es decir, que encontremos datos que tienen relación entre sí hasta que demos con lo que produce esta correlación, será donde deberemos actuar para cambiar el curso de las cosas.

Hay tecnologías complementarias que ayudan en el análisis y extracción de los datos, como Pig, que es una plataforma para crear programas de map reduce que irán contra Hadoop. Solr (solar) es un buscador de texto avanzado en documentos (docs, pdfs, txt). Mahout es una librería de aprendizaje adaptativo, regresiones, algoritmos… (por ejemplo para tecnologías de recomendaciones basadas en los datos propios como Amazon). Sap Hana es un producto que da almacenamiento y procesamiento de datos cargado en memoria que da servicio de analítica real time.

El procesamiento masivamente paralelo (MPP) conecta los nodos en distintos servidores para permitir escalabilidad. Y por otro lado, los softwares que extraen los datos para transformar los datos en conocimiento, mediante modelos de predicción como el PMML y los contendientes para hacer analítica avanzada y aplicar inteligencia empresarial de alto rendimiento.

Las posibilidades son infinitas si sabemos qué tipo de datos necesitamos almacenar para contestar nuestras preguntas de negocio.

Pero la base es siempre la misma, partir por un lado de una base de datos donde almacenar los datos de una forma masiva, en memoria para poder acceder con velocidad y de manera sencilla a ellos. Es decir, no solamente se trata de tener un dispositivo moderno para almacenamiento masivo de datos sino aplicarle las más novedosas técnicas de análisis para poder extraer la información de los datos y convertirla en conocimiento.

Estas tecnologías nos permiten afrontar distintos problemas de negocio.

Por ejemplo, si quisiéramos saber el ranking de ventas por región, cualquier software de Business Intelligence nos permitirá acceder a los datos de nuestra BBDD y determinar cómo van nuestras ventas segmentadas por región.

Pero no nos servirá para identificar los clientes que quieren dejar el servicio, para eso necesitamos entender el comportamiento de estos clientes para adelantarnos a los que muestren las mismas pautas, por ejemplo una frecuencia de visitas, de compras, reacción a los elementos de marketing, etc… Para ello habría que programar un barrido en la BBDD que nos permita construir un modelo que extrapolar al resto de clientes. La idea es encontrar estos clientes y hacerles un seguimiento para impedir su fuga. Creando este modelo en la herramienta R, que es software libre contra la BBDD, podremos obtener lo que necesitamos en cada momento.

Finalmente queremos adelantarnos a una serie de necesidades aún no identificadas, para ello no podemos cruzar datos en nuestra BBDD sino comprobar la perspectiva de los usuarios respecto a nuestra marca, nuestro producto o nuestro servicio. Con una herramienta de software como Luminoso complementaria a nuestra BBDD, podemos entender qué se dice en internet de nosotros, cómo se dice y por qué se puede estar diciendo por lo que podemos saber antes de enterarnos por otras vías más dolorosas qué podemos hacer al respecto.

De esto se trata. De partir de nuestros problemas de negocio para poder dar soluciones en base a los datos: la tecnología nos ayuda, pero es la explotación de los datos lo que nos da las respuestas. Elige la tecnología que mejor se adapte a resolver problemas de tu negocio, no al revés.

“Gemma es diplomada en informática y tiene un master en Web Analytics por la Universidad British Columbia. Sus 8 años de experiencia como Web Analytics Manager en Bankinter, Panda Security y sus colaboraciones con clientes como Iberdrola, Fundación Telefónica, Grupo Meliá, Carrefour y Línea Directa le avalan como una de las mejores profesionales de analítica web a nivel nacional.
Ha sido nombrada en octubre 2012 como una de las 100 Mujeres Líderes en España en la categoría de Emprendedoras e Innovadoras por Mujeres&Cia (www.lastop100.com).
Es autora de los libros “Analítica Web en una Semana” (Gestión 2000, 2012), “El Arte de Medir” (Profit, 2011) y “Métricas del Marketing” (Esic, 2010).
Es la directora del primer máster español en Analítica Web en Kschool y participa como docente en la Universidad Politécnica de Valencia y Francisco de Vitoria además de en diversas escuelas de negocio.
Única española finalista en 2011 al premio internacional de Excelencia Web Analytics Rising Star de la Web Analytics Association.”

Twitter Google+ 

2 Responses to Big Data : de problema de tecnología a solución de negocio

  1. EuniceHV agosto 14, 2014 at 1:16 pm #

    Muy interesante post. Gracias por toda la info recopilada. Además, estoy totalmente de acuerdo en que lo primero es definir qué objetivo tenemos, qué trabajamos y sobre qué BBDD.

    Por aquello de aportar, añadiría también como tecnología SPARK, combina SQL y además, si trabajas con un clúster Hadoop 2, puedes ejecutarlo sin ninguna instalación y también puede leer de HDFS, HBase, Cassandra, y cualquier fuente de datos Hadoop.

    Os dejo el enlace: https://spark.apache.org/

    Un saludo y enhorabuena por los contenido geniales que publicáis.

  2. manuel agosto 28, 2014 at 5:53 pm #

    Me gusto mucho el articulo.

    Ahora toca releerlo para mirar cada uno de los nombres de herramientas y tecnologias!!!!

Hecho con cariño desde Madrid por las Madrid Geek Girls.