Como eliminar referal SPAM de Google Analytics

Hay una gran cantidad de desinformación sobre el concepto  conocido como “referals spam”, por lo que aquí está la guía definitiva para intentar eliminar “la basura”.

Cuando se comienzan a recibir visitas de bots y se muestran en los informes, podemos empezar a tener quebraderos de cabeza para crear reports cercanos a la realidad.

En primer lugar, hay tres tipos de visitas “spam” y hay diferentes maneras de lidiar con cada tipo:

  1. Bots y arañas que se comportan bien
  2. Rastreadores como semalt
  3. Referals fantasmas como darodar / ilovevitaly / priceg

Buenas prácticas

Antes de empezar a buscar una solución a la configuración de Google Analytics, algunas ideas de ayuda para implementar nuevos filtros (este post de Lunametrics es un gran recurso):

  1. Asegúrate siempre de tener una vista sin filtrar en tu propiedad que no tenga filtros.
  2. No aplicar el filtro nuevo de inmediato en la vista principal. Es preferible crear una nueva vista de prueba, que sea duplicada de la vista principal, en la que agregar el filtro nuevo.
  3. Si el nuevo filtro testado en la vista de prueba funciona correctamente , puedes ponerlo en práctica en la vista principal.

Bots y arañas “buenos”

La web existe gracias a bots y arañas, por tanto, esto son buenos, en tanto en cuando descubren tu contenido y lo comparten con los demás, Google jamás llegaría al contenido de nuestra web sin usar bots y rastreadores.

botsy spiders

Para prevenir que ese tráfico aparezca en las herramientas de analítica, existen estándares que permiten identificar este tráfico, y por tanto, las herramientas como Analytics, las pueda filtrar automáticamente.

Google Analytics tiene un simple checkbox  que puede marcarse para excluir la mayoría de estos “bots buenos”, pero es necesario activarlo para cada vista que utilicemos.

En el panel “Admin” de Google Analytics, desde la Vista que utilicemos, seleccionamos Ver Configuración (de la Vista) y marcamos la casilla Excluye todas las visitas de robots y de arañas conocidos (si lo tienes en inglés, la opción dice: “Exclude all hits from known bots and spiders”).

Este es un gran punto de partida, pero no nos resuelve todo :(

Rastreadores “creepy” como semalt

No todos los bots y rastreadores se identifican y siguen las reglas, algunos ya son conocidos en el sector por su capacidad de ensuciar los informes de Analytics

Estos bots parece que merodean por la web y no queda muy claro con qué fin van absorbiendo información.

En algunos casos, como el crawler Semalt, tenemos la opción de acceder a su web y solicitar que excluyan nuestro sitio de su web.

En muchos otros casos,  lo último que debemos hacer es visitar el sitio web de referencia, ya que corremos el riesgo de estar dando entrada a nuestro ordenador a virus o troyanos.

semaltUna alternativa es hacer una búsqueda en Google para determinar si es una fuente de confianza o no, llegando más allá de la primera página para testar distintas opiniones y tratar de identificar si son malas fuentes o no.

Y otra opción, si con la anterior no somos capaces de determinar el peligro de acceder a esos referals extraños, es visitar los grupos de Google Analytics o su página de Google+

Si no puedes o no quieres tomar la determinación de solicitarles que dejen de crawlear tu sitio, puede excluirlos de tus informes de Google Analytics creando un filtro.

La forma de hacer esto es encontrar un footprint o “patrón único” que les identifique (solo a ellos) y crear el filtro basado en estos criterios. Por ejemplo para Semalt, usar un filtro Referral, usando el patrón “semalt.com”, funciona

 

Algunos aspectos a tener en cuenta al respecto:

  • A pesar de que se filtren estos referrals de los informes, las visitas a tu sitio web, seguirán ocurriendo y se incluirán en los datos totales, el umbral que dispara el sampling (muestreo) de datos en Google Analytics. Si puedes y sabes cómo hacerlo, bloquear las visitas desde el servidor, sería lo mejor. En servidores Apache, se puede hacer modificando el fichero .htaccess. Este post puede serte de utilidad

  • Mucha personas creerán que el patron “semalt\.com” es el más apropiado, porque es una expresión regular (el punto debería “escaparse” con una barra, para prevenir que sea interpretado como cualquiero otro “caracter”), pero Google no lo tiene en cuenta así en su documentación  para la concordancia de dominios sencillos, por lo tanto puede que lo arreglen por ti.

  • Puedes necesitar en un futuro, crear o modificar el filtro para cada nuevo crawler o bot, y como sabrás, hay límites para el uso de filtros. Trata de mantener siempre una vista sin filtros y chequea periódicamente el comportamiento de estos referrals. Algunos bots desaparecen a los pocos meses, cuando su efectividad cae en picado.

Malas prácticas: Usar la lista de exclusión de Referrals

[Actualización: usando la lista de exclusión de referrals a veces puede resultar efectivo, pero depende de las especificaciones y parámetros del referral usados por el spammer. No es una solución fiable.]

Muchos sitios recomiendan usar la lista de exclusión de referrals (ubicada en : administración – propiedad – tracking info), [y no funciona bien del todo de una forma consistente).

Quizás pueda eliminar parte de las entradas “raras” de tu informe de referrals, pero también puede modificar la sesión a visita directa y seguirá apareciendo en tus informes.

En esta lista puedes añadir sitios como paypal,com, que son parte de tu ecosistema web, pero se supone que son parte de la sesión de los visitantes], normalmente en sistemas de pago de ecommerce.

Google une su sesión inicial con su vuelta del proceso de compra. Por otra parte, son vistas como segunda sesión desde paypal.com cuando vuelven. Todas sus visitas se mantienen en tu analytics (la segunda sesión se mezcla con la anterior, si existe).

Referrals Fantasma

Los últimos en llegar (darodar.com / econom.co / ilovevitaly.co) son lo que llamo “referrals fantasma” porque de hecho, NUNCA HAN VISITADO LA WEB. Usando la magia del protocolo de medición de Google Analytics, consiguen generar páginas vistas falsas que trackea Google, usando series aleatorias de tracking IDs. Cuando eligen o usan series que incluyen tu tracking ID, Google graba una visita de referral desde esa fuente, en tus informes.

Considerando que nunca han visitado tu sitio, no puedes bloquear sus visitas en el servidor, usando javascripts o métodos en .htaccess. No tienes demasiada elección, pero si puedes crear un filtro que les excluya (como se describe arriba).

El mayor problema con estos referrals fantasma es que pueden cambiar tan rápido como aparecen y necesitarán estar continuamente construyendo filtros para excluirlos.

Cómo eliminar todos los referrals fantasma

[Actualización: he visto que los objetivos de estos spammers, suelen ser trackings IDs que acaban en -1 (como por ejemplo: UA-1234567-1). Si haces una segunda propiedad en tu cuenta de GA y cambiar tu código de tracking al “-2”, “-3” u otra variante, la mayoría de los referrals fantasma no quedarán registrados en tu sitio. Nota: perderás continuidad en tu analytics, desde el momento en que no puedas transferir los datas de una propiedad a otra.

Un método que requiere menos esfuerzo de mantener es crear el filtro basado en hostnames validos. Considerando que los referrals spam no conocen a qué web corresponde o pertenece cada tracking ID (ellos prueban números aleatoriamente), envían el “referral” usando un hostname que no es tuyo. Puedes crear un filtro INCLUIR que se cargue todo lo que no coincida con tus hosts válidos, y así, puedes dejar de preocuparte de darodar.com / economo.co / ilovevitaly.co / o los que vengan después.

hostnamesPara implementar esta solución, OJO, hay que tener MUCHO CUIDADO o corres el riesgo de excluir tráfico válido. DEBES identificarr TODOS los hostnames válidos que usan el tracking ID de tu web, y esto podría incluir otras webs que estás trackeando como parte de tu ecosistema -wordpress, youtube, paypal, el carrito de compra de tu ecommerce, y todos tus dominios-

Empieza con un informe multi-año que muestre solo los hostnames, luego confirma que cada uno de ellos es válido, inválido, o spam. Suelo hacerlo así:

  • Usar el informe de Todo el Tráfico

  • Seleccionar Medio

  • Seleccionar Referral

  • Añadir Comportamiento – Hostname, como dimensión secundaria.

include filter

 

Todo este proceso a mi me resulta y me parece válido (tengo multiples dominios y subdominios con procesos de compra, y trackeo Youtube y apps de Shopify) o posiblemente válido (translate.googleusercontent.com entra en esta última categoría). 

También he investigado a otros para asegurarme que no he pasado mi tracking ID dentro de sus sistemas, por razones largamente olvidadas.

Antes de ponerlo en producción, haz test, test, test! 

Asegúrate de que lo tienes controlado.Después he creado un filtro con una expresión que recoge todos los dominios que considero válidos.

 

 

Expresiones Regulares en el Filtro

No es fácil componer la expresión del filtro porque se compone de Regex y aquí añadimos una pequeña y simplificada guía que pueda ayudar:

.*analyticsedge.com|.*analyticsedge.ca|.*youtube.com

Puristas notarán que los filtros pueden hacer match con cosas no deseadas como www.notanalyticsedge.com, pero dado que hago un control diario de la web, si diera algún problema, se podría cambiar.

Para una versión más estricta y avanzada, podría ser algo como esto (regex puede solventar, normalmente, el mismo problema con muchas soluciones, cualquier persona puede sugerir variantes a esta, test, test, test!):

.+\.analyticsedge\.com|analyticsedge\.com|.+\.analyticsedge\.ca|analyticsedge\.ca

donde

.+ significa 1 o más caracteres
\. significa punto

Entonces .+\.mydomain\.com coincidiría con el patrón www.mydomain.com y www2.mydomain.com

La segunda entrada coincidiría con el dominio root en si mismo: mydomain\.com

Es CRÍTICO que mantengas este filtro CADA VEZ que introduzcas tu tracking ID dentro de un nuevo servicio wb, y deberías confirmarlo usando una vista sin filtrar cada mes que no estás excluyendo tráfico válido.

¿Necesito estos 3 filtros?

Si. Como puedes ver en la imagen de abajo, filtros de Bots eliminan algunas visitas, filtros de Hostnames eliminan las fantasmas, pero algunos de los otros bots requieren filtros específicos para eliminar su tráfico.

filtros de bots

Resumen

  1. Buenos bots y arañas pueden facilmente ser excluidos de tus informes desde Admin – Vista – Configuración

  2. Crawlers Cuestionables, la mejor forma de eliminarlos es a través del servidor (vía .htaccess file). También se pueden eliminar de los informes usando filtros (Admin – Vista – Filtro), pero la visita seguirá siendo contada por Google cuando determine si lleva a cabo sampleo en tu informe.

  3. Referrals Fantasma nunca visitas tu web y deben ser eliminados con Filtro. Usando un Filtro Incluir con los hostnames válidos, los hará disminuir notablemen con menos esfuerzo, pero se debe revisar y mantener o se corre el riesgo de excluir tráfico válido de hostnames nuevos en un futuro.

¿Te preguntas por qué hacen esto?

Hay ciertas razones para construir este tipo de bots: primero, quizás quieran crawlear la web para extraer información de webs, tal y como los crawlers de Google hacen.

A veces el propósito puede ser un poco turbio, por ejemplo que estén buscando vulnerabilidades para atacar. La web está llena de bots.

En segundo lugar, los que están detrás de estos bots, pueden querer analizar a los propietarios de las webs, por eso fuerzan con estos referrals links hacia los sitios web para hacer que los dueños de los sitios abran los enlaces y comprueben quien le pone links a su sitio.

Si vendes servicios SEO como Semalt, ¿qué mejor manera para vender? Ellos se garantizan la forma de llegar a pequeños propietarios web, con el pensamiento de que algunos de ellos linkaran de vuelta sus sitios.

La tercera razón puede ser, simplemente, la pretensión de captar tráfico. Puede ser visto como un servicio SEO algo cutre, “puedo conseguirte cientos de páginas vistas….” Y es tráfico que no generará rebote alto, ya que los usuarios que llegarán al site, estarán buscando dónde está el enlace que les aparece en GA como referral, antes de descubrir que es spam. Camuflar esto como “tráfico de calidad” y vender tráfico SEO, aunque contratar este tipo de cosas, no auguraría nada bueno. 

¿Te preguntas cómo hacen esto?

Los crawlers son muy constantes/directos/disciplinados/estructurados/ (??), empiezan con una lista de webs, miran sus links, los siguen y buscan más. Los nuevos crawlers manejan Javascript de las páginas y eso les posibilita obtener contenidos de páginas dinámicas, por lo tanto terminan llegando a los tracking de GA.

Los referrals fantasmas realmente no llegan a tu sitio en ningún momento; aprovechan la ventaja de conocer el funcionamiento de Google Analytics y explotar sus grietas o puntos débiles.

Cuando un usuario visita tu sitio, se ejecuta el javascript de GA y eso manda un “ping” a los servidores de Google Analytics, con información sobre la web visitada (identitifcado por el UA-###### tracking ID), un ID de usuario único (que se supone viene de la cookie que se deposita en el navegador del ordenador del usuario), la página visitada, el hostname y la fuente del referral.

Los spammers envían millones de “pings” falsos, especialmente con información manipulada y la información de su web como fuente de referral.

No visitan tu web para obtener los trackings IDs, probablemente porque solo usan rangos aleatorios de trackings IDs.

Dado que nunca han visitado tu web, no saben ni conocen tu hostname, y por eso, los hostnames que aparecen  son ‘iedit.ilovevitaly.com’ o ‘apple,com’. Eso demuestra o es la prueba de que el tráfico ha sido fabricado.

Fuente del post y de las imágenes

Este post ha sido escrito por Mike Sullivan, creador de la herramienta Analytics Edge, una interesante solución para vincular herramientas en un entorno Excel, para manejar la información en un mismo lugar, y automatizar en lo posible, la creación de reports y agilizar el seguimiento de métricas. Nos quedamos con su frase:

“It’s not about emptying your wallet; it’s about helping people get their job done faster”

Si quieres leer más sobre su conectores de Excel, lee nuestra review

Todas las imágenes usadas provienen del post original, han sido utilizadas con permiso del autor.

Para leer el artículo original en inglés, puedes hacerlo en el siguiente link: http://www.analyticsedge.com/2014/12/removing-referral-spam-google-analytics/

 

Diplomada en Ciencias Empresariales. Hasta 2013 SEO Head Manager en Relevant Traffic, aprendiz constante de Analítica Web, mega-adicta a la Coca Cola Zero, Twitter y Michael Jordan!
Actualmente, consultora SEO Tribal Worldwide, y tengo una empresa que se llama como yo -mjcachon.es- y los clientes son muy majos

Sígueme en Google+

Twitter LinkedIn Google+ YouTube 

6 Responses to Como eliminar referal SPAM de Google Analytics

  1. Ricard Menor enero 18, 2015 at 1:39 pm #

    Hola MJ y por extensión MGGs,
    Gracias por dar eco y adaptar el post original (ese Mr. Sullivan!), la información es muy completa y útil.
    Entre tantos proyectos y las cosas del día a día uno desearía tener más tiempo para profundizar en ciertos aspectos de nuestro mundillo, pero no se puede sembrar y recoger a la vez :)
    Gracias por el enlace y una pequeña actualización que publicaré cuanto antes en mi post: aplicar el filtro por htaccess Y excluir los bots conocidos vía GA de alguna forma anula ambos y el hit llega a registrarse en las estadísticas, por lo visto en mis experimentos debería dejarse solamente el filtro htaccess…

    “Filter, Fail, Repeat…”

    Un abrazo

  2. mjcachon enero 18, 2015 at 11:27 pm #

    Gracias a ti Ricard, yo empecé a recibir visitas de este tipo, luego la petición de adaptar la versión de Mike, y entre medias tu post, qué menos que enlazar a post de utilidad del mismo tema :)
    Aquí, por cierto, hay otro post de lo mismo http://www.optimizesmart.com/geek-guide-removing-referrer-spam-google-analytics/

    Abrazo!

  3. Natalia enero 19, 2015 at 10:34 am #

    Hola MJ
    me estoy iniciando en Analytics y llevaba unos días detectando ese tráfico de webs de Rusia… y referrals rarísimos.
    Gracias por la información, aunque no consigo aplicar el filtro :-( Cada vez que lo intento me dice que el filtro no afecta a los datos.
    Seguiré investigando en el otro post que facilitas.
    Gracias por vuestra ayuda
    Saludos

  4. mjcachon enero 19, 2015 at 2:20 pm #

    Hola Natalia, pues mándame un email con los pasos que estás dando y te intento ayudar :)

  5. Natalia enero 20, 2015 at 8:18 pm #

    Hola MJ
    dime dónde te lo puedo enviar, no he encontrado ningún email ni en esta web ni en la tuya.
    Gracias por tu ayuda!!
    Un saludo

Trackbacks/Pingbacks

  1. Recopilación semanal de enlaces 2 - enero 25, 2015

    […] Como eliminar referal SPAM de Google Analytics, un problema que está destrozando los datos de fuentes de tráfico de miles de webs. […]

Hecho con cariño desde Madrid por las Madrid Geek Girls.