Introducción a Google BigQuery

Hay un realidad constante en el día a día de las compañías, y es que se generan más volúmenes de datos, se acumulan más silos de información y para llegar al conocimiento del negocio, se hace necesario manejar cada vez más fuentes.

Esta realidad empresarial sucede especialmente en analítica digital, ya que el análisis de datos no solo ha de centrarse en el sitio web con la potencia que una herramienta nos puede aportar, sino que la riqueza del análisis sube de nivel cuando somos capaces de relacionar adecuadamente la información de las distintas fuentes, cruzándola con los datos de navegación de los usuarios de nuestra herramienta de analítica digital para sacarle todo el partido a los datos.

Google no fue ajeno a esta situación y para ello se planteó la creación de una solución basada en Dremel, que es un sistema distribuido desarrollado para la consulta interactiva de grandes conjuntos de datos, consistente en un motor de queries SQL que puede realizar consultas complejas sobre los datos almacenados. Dremel es el motor de consulta del servicio que se conoce como BigQuery.

BigQuery como solución de Big Data de Google, tiene el objetivo de facilitar el análisis de datos y permitir a las empresas adoptar decisiones de negocio de una forma más rápida y precisa, ya que se ejecuta en la nube y permite análisis en tiempo real.

Google ofrece para sus clientes de Google Analytics Premium un voucher de acceso a BigQuery con un límite de crédito de 500 dólares al mes para poder realizar consultas sobre todos sus datos de GA, cantidad que permite un uso intensivo de la herramienta, ya que los costes de almacenamiento son de tan solo $0.020 por GB/mes y para la ejecución de queries el coste es de $5 por TB.

Los datos pueden exportarse a nivel de sesiones y de hits desde una cuenta de GA Premium, con la ventaja de que en BigQuery, la propiedad de los datos es del cliente y mediante un sistema de administración, protección y compartición de tablas de datos, se permite a los usuarios acceder a los contenidos gestionados desde cualquier parte a través de listas de control de acceso (LCA) para administrar los permisos en proyectos y conjuntos de datos.

Mientras que Google Analytics posee APIs para acceder a los datos para construirte tus propios informes, tanto la API como los informes personalizados utilizan esencialmente las mismas estructuras de acceso a datos agregados, sin embargo en BigQuery los datos de Google Analytics se exportarán a una tabla donde cada fila contendrá información de cada visita al sitio web y toda una serie de datos sobre la visita: las páginas visitadas, las fuentes, las transacciones, el ID del visitante si navegó identificado… etc, todo ello almacenado como datos desagregados o “granular data”.

table_details

Debido a que estos datos está a nivel de hit o sesión, podemos conseguir relacionar la búsqueda de todas las visitas de los usuarios que han visto determinado producto por ejemplo, todo ello sin sampling y con la potencia del motor de procesamiento de BigQuery. El acceso se hace mediante una interfaz web que nos permite editar cómodamente las queries o una herramienta de línea de comandos, incluso haciendo llamadas a la API REST BigQuery usando una variedad de bibliotecas de clientes como Java, PHP o Python.

Una de las cualidades que nos ofrece este producto es que pueden importarse datasets de otras fuentes de información, como Analítica (El dataset de Google Analytics Premium tiene una integración directa), CRM, social, mobile, search, offsite data de proyectos opendata…, etc, importándolos en forma de tablas para aprovechar la capacidad de streaming, ya que el flujo de datos puede procesar hasta 100.000 filas por segundo en la ingesta de datos y de este modo relacionar de una manera muy eficiente la información que más nos interesa.

¿Os imaginéis un análisis que investigue la influencia del tiempo meteorológico en el comportamiento de compra de nuestros usuarios?, este tipo de preguntas puede contestarse con BigQuery haciendo las consultas adecuadas y mezclando los datasets relevantes con nuestros datos de Google Analytics.

compose_query

La capacidad de esta herramienta ofrece otra fabulosa posibilidad para el análisis web, ya que la limitación que tienen las herramientas SaaS de analítica web que no pueden almacenar datos personales (PII: Personally Identifiable Information) por motivos legales de protección de datos, podemos suplirla cruzando los datos de navegación en BigQuery subiendo la PII que precisemos, de este modo ya podremos trabajar con nombres, apellidos, sexo, emails… relacionando los userID con los datos personales que almacenamos de nuestros clientes en el CRM por ejemplo. Todo ello en un entorno cerrado y privado para la explotación de datos, lo que garantiza la necesaria privacidad en el manejo de este tipo de información.

Desde BQ es posible utilizar herramientas “machine learning” en la nube de Google, como el producto Prediction API. A través de esta “cloud-based machine learning tool” se pueden realizar predicciones en tiempo real, que permiten abordar análisis del tipo “sentiment analysis”, análisis de “churn” (identificar a clientes descontentos con mayor probabilidad a dejar de usar nuestro producto o servicio), análisis de riesgos, análisis de oportunidades de upselling (venta incremental), profiling y clasificación de clientes, sistemas de recomendación, filtrado de correo…, etc, aunque la evolución de esta utilidad Machine Learning pasa necesariamente por una configuración más flexible y por mejoras en visualización, que harían un producto más fácil de utilizar para todos, ya que en la actualidad su gestión está más cercana a perfiles de developers, tal y como describe el post de Alex Casalboni.

Este video ilustra algunas aplicaciones de BigQuery y recientemente Google ha publicado en su blog de Analytics el caso de estudio de una compañía que gracias a utilizar este servicio ha logrado reducir sus costes de CPA y al mismo tiempo, incrementar las tasas de conversión provenientes de acciones por email.

Sea como fuere, a los analistas digitales se nos presenta el reto de utilizar técnicas más avanzadas de análisis, como las que se mencionan en este post de Lunametrics, aprovechando la potencia conjunta de de Google Analytics, junto con la capacidad de procesamiento de BigQuery y las herramientas de cloud computing de Google, sumando además soluciones de tercera parte como son Tableau y R para una mejor visualización y reporting de los datos.

Pero para ir empezando, hemos de familiarizarnos con una sintaxis muy parecida a SQL para consultar los datos en Bigquery y como analistas hemos de detectar las mejores relaciones entre los silos de información que más conocimiento nos aporten sobre el negocio.

Aquí os dejo una guía de referencia de query de SQL y una guía de inicio rápido de la interfaz UI para inciarse en el análisis manejando datos con BigQuery.

¿Te atreves con el reto? ;)

Gema Mora

Analista en importantes compañías como Carrefour, Vocento e Iberia, donde ejerce en esta última como Responsable de Analítica Digital y colabora como docente en varias Escuelas de Negocio.
Gema tiene estudios de Diplomatura en Informática por la Universidad Politécnica de Madrid, es Master Executive en Relational Marketing, CRM and e-Commerce por ESIC-ICEMD y posee el Award of Achievement in Web Analytics por la Universidad British Columbia.

Twitter LinkedIn 

Hecho con cariño desde Madrid por las Madrid Geek Girls.