Data Leakage o el riesgo de la fuga de datos

De vuelta de las vacaciones veraniegas me gustaría tratar un tema relacionado con mi anterior entrada “3rd party scripts, ¿caballos de Troya?”, donde reflexionaba sobre el impacto de peticiones o “request” de third party content en las páginas web, en esta ocasión me gustaría profundizar en una realidad silenciosa relacionada con el marketing online, llamada “Data Leakage” que puede suponer un riesgo real y no muy conocido de fuga de información.

Todas las empresas entienden los riesgos que implica la pérdida o robo de información, por lo que es tarea crucial que la información que poseen sea protegida, como son los datos de carácter personal de sus clientes o PII (Personally Identifiable Information), propiedad intelectual, datos sobre pagos, información comercial, sobre procesos, patentes… etc.

Las fugas de información suceden cuando los datos se filtran bien por omisión o error involuntario, o bien por sufrir un ataque del exterior, haciendo que la información sensible llegue hasta personas no autorizadas a la organización.

Una buena práctica para las empresas sería plantear estrategias para proteger los datos críticos haciendo uso de procedimientos de gobierno de datos (Data Governance o DG por sus siglas en inglés) que prevengan las fuga de datos y faciliten el cumplimiento de las normativas vigentes en materia de protección de datos, pudiendo hacer uso de soluciones DLP (Data Leak Prevention) con herramientas que permiten salvaguardar la información corporativa a través de la gestión de la integridad, la seguridad y el control de los datos.

Hoy en día no se entiende el marketing digital sin pensar en los beneficios que aporta el marketing automation y las tácticas data-driven que requieren de datos que doten de inteligencia a las campañas, con el objetivo de lograr una mejor conversión de los usuarios hacia los servicios y productos que ofrece una página web o un aplicación móvil.

Las empresas comienzan a combinar herramientas de MarTech (término informal para referirse al “Marketing Tech” o herramientas internas como el CRM que disponen de información de clientes conocidos) y herramientas AdTech, tecnología utilizada por la industria de la publicidad digital en la compra programática, redes de anuncios, mensajes publicitarios, intercambios, DSP, SSP, real-time bidding o RTB, viewability…, etc.

El ecosistema de la compra-venta programática de medios con AdTech es compleja, por lo que os recomiendo la descarga del libro blanco de la compra programática de IAB aquí.

compraprogramática_definitiva AF CC

Lo más corriente es que un anunciante no disponga de un DMP propio (sigla de Data Management Platform en inglés, que es plataforma de gestión de datos centralizada que permite a los anunciantes crear audiencias), por lo que será necesario contratar vendors de publicidad de tercera parte que proveerán de este servicio, y para que la puja de anuncios tenga éxito, deben aprovecharse datos onSite / onAPP de la navegación de los usuarios que permitan evaluar la intención de compra actual de esos usuarios para mostrar anuncios relevantes a la audiencia y lograr ese objetivo de conseguir impactar con publicidad adecuada a aquellos usuarios con una mayor probabilidad de convertir.

¿Pero de dónde se sacan los datos para lograr todo esto?, hay dos tipos de datos que se utilizan con mayor frecuencia en las campañas publicitarias:

  • First-party data: Son los datos extraídos de un usuario de forma directa, recopilados a través de un pixel insertado en la página web, que recogerá información sobre el comportamiento de navegación y la intención de compra de los usuarios.
  • Third-party data: datos adquiridos a proveedores y data exchanges.

Si queréis profundizar un poco más, en esta entrada se explica la diferencia entre first, second y third party data en publicidad programática.

Precisamente la información de intención de compra son datos first party data propios de los ecommerce, que conocen el comportamiento de navegación de los usuarios en sus activos digitales (webs o APPs) donde los usuarios o bien se interesan por comprar ciertos productos o bien abandonan sin convertir.
Las herramientas de publicidad AdTech “succionarán” (si, si, succionarán), datos de navegación de los usuarios de tu sitio web o APP sin que te estés dando cuenta, ya que estas herramientas están precisamente programadas para capturar lo que la gente quiere comprar y poner esos datos disponibles para las redes de anuncios, que cuando identifican a los usuarios de tu sitio web en una web diferente, les mostrarán anuncios relevantes, con el objetivo de conseguir incrementar el CLV (Customer Lifetime Value) y la eficacia publicitaria al menor coste posible, aplicando diversas técnicas publicitarias, como campañas personalizadas, retargeting, prospecting, y loyalty, es decir lograr cobertura, captación y fidelización de clientes.

¿Qué es Data Leakage?

dataleakageLas herramientas de publicidad de tercera parte recogen y almacenan datos sobre los usuarios desde tu página web, por lo que esos datos pueden ser utilizados por otros, ya que Adtech optimizará tu publicidad, pero también la de otras webs y puede suceder un efecto de fuga de información no deseado, por el que los datos recogidos de tus usuarios sean utilizados para optimizar anuncios de otras empresas y por tanto tus usuarios acaben impactados por anuncios de tu competencia, tal y como demostró el experimento realizado por Webtrekk ilustrado en este informe, donde al cabo de un tiempo, la marca Adidas llegaba a compartir anuncios en ciertas páginas con sus competidores directos en repetidas ocasiones, ¿creéis que es por casualidad?.

Por otra parte, los medios o publishers también están preocupados sobre cómo AdTech puede depreciar el valor de su inventario, ya que el proceso de RTB se basa en servir los anuncios adecuados a los usuarios adecuados en el momento adecuado, durante este proceso, a los usuarios se les inserta una cookie para poder dirigirse a estos mismos usuarios con anuncios en otras plataformas que pueden ser más baratas que su inventario.

Ejemplo hipotético: tenemos un medio XYZ con un audiencia fashionista femenina donde una marca anuncia un producto de bisutería de alta gama, pagando a 5€ CPM y a través de los píxeles se identifican a aquellas usuarias que han visto el anuncio en XYZ, de modo que un ad exchange podría alcanzar con otra campaña a esas mismas usuarias pero en otros soportes, por lo que en lugar de tener que pagar un CPM de 5€ en XYZ el ad Exchange servirá otra campaña con el mismo anuncio dirigido a las mismas usuarias, pero a un coste de 2€ CPM.

Impacto en el performance de la web

Otro efecto no deseado surge cuando los proveedores third-party que contratamos solicitan añadir un tag en nuestro sitio web para recopilar los datos de intención de compra, pero resulta que este tag en realidad es un snippet de un contenedor que a su vez contiene etiquetas de otros vendors, por lo que estas etiquetas conocidas como “piggyback tags” pueden generar fugas de datos de usuarios en cuarta, quinta o sexta parte, y van a ejecutarse muchas llamadas de otros vendors a un segundo nivel, por ejemplo el tag que se inserta directamente hace a su vez 30 llamadas en segundo nivel, todas esas llamadas suceden en tiempo de ejecución de tu web y suponen un retardo extra, imaginaos si una de estas llamadas no se resuelve bien, habrá problemas de retardo de algo que queda fuera del control de IT.

Hay estudios que demuestran que  entre un 60 – 80% de todas las request que genera un sitio web son de tercera parte, siendo este porcentaje aún mayor en sitios de ecommerce y APPs, por lo que adicionalmente a la fuga de datos, tendremos otro efecto pernicioso en nuestros activos al sufrir retardos en carga de página y degradarse el performance, al tener que ejecutarse un “rosario” de píxeles sobre los que no tenemos control ni relación contractual directa con esos vendors. Si deseáis medir cómo son las request de vuestro site, podéis usar Webpagetest.
Cuidado porque los retardos entorpecen la experiencia del usuario y la ralentización tiene efectos negativos sobre la conversión, ya que la paciencia del usuario puede rebasarse y provocar que termine abandonando el proceso de compra.

Los píxeles forman parte del proceso de la publicidad digital, y lo normal es que las fugas de datos sean “benignas”, ya que los píxeles permiten controlar la frecuencia por la que un usuario ve un anuncio determinado, pero como en todo, puede haber malos actores y malas prácticas, por lo que hay que controlarlo.
Además, debido a la creciente presión por impulsar la conversión y los ingresos, es fácil acabar trabajando con varios proveedores de tercera parte, pero el exceso puede perjudicarnos, porque si deseo dirigirme a un target concreto (coloreado en amarillo en la gráfica más abajo) y decido añadir una red más (en la gráfica, la Red 6 con el círculo en negro), al verse solapadas las mismas audiencias entre varias redes, sólo conseguiré alcanzar a una mínima parte de ellas (círculo coloreado en gris), mientras que los datos de nuestros usuarios serán enviados a las 6 redes publicitarias. ¿Esto compensa?.

redes

¿Entoces, qué hacemos?

Pero ¿cómo podemos controlar esto?, en mi anterior entrada explicaba cómo medir las llamadas de tercera parte de un sitio web con herramientas como  Webpagetest, y recomendaba la instalación del complemento Ghostery en el navegador para revisar rápidamente un panel con los “rastreadores” javascript encontrados cada vez que se carga una página web, este panel nos muestra un listado de proveedores de tercera parte clasificando su naturaleza (publicidad, analítica, widgets… etc), y desde aquí se pueden ver las llamadas de estos píxeles de segundo nivel que no hemos etiquetado directamente. Podemos sorprendernos al ver llamadas que no teníamos ni idea que se ejecutaban en nuestra web al no haberlas etiquetado directamente. Aquí un ejemplo para goear.com:

Goear

En muchas ocasiones ni si quiera los equipos de Marketing e IT son conscientes de que datos valiosos de audiencia están saliendo de la página web, y cuando son conscientes de esta realidad, existe una gran dificultad para hacer un seguimiento de esto y controlar a las terceras partes, que supone estar expuestos según Ghostery a:

1.- La recolección de datos de primera parte puede suponer un riesgo de data leakage cuando algunos vendors de tercera parte revenden los datos o bien nuestra propia audiencia es impactada por la competencia, todo ello sin ser informados ni recibir ninguna compensación económica por ello.

2.- Ralentización del sitio, con perjuicios para el rendimiento de la página y la conversión.

3.- Empeoramiento del tráfico orgánico al verse penalizado en los rankings de búsqueda por Google.

4.- Activación de advertencias de contenido mixto en el navegador que “asustan” a los usuarios y provocan el abandono inmediato.

5.- Dejar una brecha de seguridad que permita ataques.

Ahora que ya sabemos que el ecosistema publicitario se hace complicado al tener una serie de “players ocultos” cuyas llamadas recursivas de sus píxeles hacen que perdamos el control de quién maneja los datos de nuestra web, es necesario tomar un control “Ad tag Governance” y hacer un seguimiento que permita averiguar cómo actúa la tecnología AdTech en nuestra web y saber cómo y quién está comercializado nuestros datos en tercera, cuarta y quinta parte, analizando cómo se relacionan entre ellos y tener una visión clara de en qué redes de anuncios alcanzan a nuestros usuarios para disponer de una visión completa de cómo nos afecta esta tecnología.

Afortunadamente ya se ofrecen soluciones para visualizar y gestionar esta realidad y existen herramientas como Media Scanner y el producto de pago de la conocida extensión Ghostery, llamado Ghostery MCM.

Dichas herramientas permiten monitorizar y protegerse contra la fuga de datos, detectando, analizando y reportando en informes la actividad de los anunciantes y hacer un seguimiento de datos a través de la ejecución de los tags insertados en nuestro sitio web, proporcionando información detallada de los dominios involucrados y las cookies utilizadas.

Ghostery además ofrece mapas visuales de las request y cómo se relacionan entre ellas, de modo que podemos detectar de un modo muy rápido qué vendors y redes publicitarias están nutriéndose de nuestros datos y encontrar ineficiencias si comprobamos que varios vendors están impactando sobre las mismas redes y por tanto, alcanzando a las mismas audiencias, tal y como mostrábamos en la gráfica anterior.

Aquí se muestran varios ejemplos visuales de mapas de Tag Paths clasificados en AdTech, analítica, publisher, tracker, widget… etc, para varias empresas e industrias, y este es el aspecto del mapa para Hertz.

TagpathHertz

Un modo de evitar data leakage es contar con soluciones data-driven integradas como disponer de un Adserver y DMP propio que permitan controlar las cookies que serán impactadas con publicidad, si esto está medido por una solución de analítica que esté también integrada con la parte de programática, se reducen las herramientas y los datos se mantendrán en un solo sitio.

Evidentemente una solución de este estilo supone un coste que muchas empresas no se pueden permitir, por lo que si se trabaja con tecnología AdTech de tercera parte, sería muy recomendable incluir cláusulas contractuales que regulen cómo se comparten los datos de los usuarios, donde se limiten los request de segundo nivel, así como negociar una compensación económica si verificamos una pérdida de datos que beneficie a otros negocios.

El uso de Adtech es necesario para alcanzar audiencias y mercados que difícilmente se podrían hacer de otro modo, pero es conveniente ser consciente de lo que implica para asegurar que la comercialización de los datos de AdTech se gestiona correctamente.

¿Os habíais percatado de esto?.

Gema Mora

Analista en importantes compañías como Carrefour, Vocento e Iberia, donde ejerce en esta última como Responsable de Analítica Digital y colabora como docente en varias Escuelas de Negocio.
Gema tiene estudios de Diplomatura en Informática por la Universidad Politécnica de Madrid, es Master Executive en Relational Marketing, CRM and e-Commerce por ESIC-ICEMD y posee el Award of Achievement in Web Analytics por la Universidad British Columbia.

Twitter LinkedIn 

Hecho con cariño desde Madrid por las Madrid Geek Girls.