Caída de tráfico SEO: ¿por dónde empiezo?

Dentro de las preguntas sobre SEO que me suelen hacer en muchas ocasiones,  hace poco me he encontrado con un caso que me ha hecho animarme a escribir este post.

Basado en hechos reales :)

Tenemos una web de la que conocemos los siguientes datos:

  • URL de la web
  • Evolución mensual de tráfico orgánico

Y lo que no sabemos:

  • Evolución de otros datos: indexación, PR, enlaces entrantes
  • Últimos cambios/desarrollos hechos en la web
  • Vamos a decir que no tenemos acceso a Analytics ni a Webmaster Tools

Como veréis, tenemos un escenario algo delicado, sobra decir que tampoco vamos a oler ni FTP, Logs de servidor, ni nada similar.

Sabemos que ha perdido tráfico y no sabemos por qué.

¿Qué miramos?

Como mi tendencia natural cuando me dicen “mírame mi web a ver qué le sacas, solo serán 5 minutos”, es mirar las cosas básicas, navegación básica por la web en primer lugar y chequear comandos sencillos, que nos darán pistas.

  • site:dominio.com

El número de páginas indexadas en Google de dominio.com

Incluye en este caso subdominios y subcarpetas.

Hasta aquí parecía todo normal

  • site:www.dominio.com -site:dominio.com
  • site:dominio.com -site:www.dominio.com

Las páginas indexadas por versión, incluyendo o excluyendo las urls con o sin www.

El tema de urls canónicas es importantes para evitar duplicidades y perder autoridad SEO.

Vistos los resultados, lo primero que encuentro es que ambas versiones de la web, (con www, y sin www), ofrecen un código de respuesta 200, por lo tanto, no existe redirección hacia la versión canónica o preferida.

  • site:dominio.com -inurl:http
  • site:dominio.com -inurl:https

Con esto sabemos si pueden existir problemas de indexación asociados al protocolo que usa la web, puede que determinadas partes de la web usen https para cifrar la navegación, y esto actualmente tiene impacto y no menos reacciones.

http://googlewebmastercentral.blogspot.com.es/2014/03/more-precise-index-status-data-for-your.html 

https://yoast.com/web-https/

  • A continuación, pasarle el Screaming Frog, que para algo pagamos las herramientas. Y también porque le pasamos el Screaming Frog hasta a las webs de panfletos de publicidad que nos echan en el buzón (ya, ya,…).

Con este análisis, pues nos hacemos una idea de la salud de la página, podemos ver urls rotas o redirigidas, revisar la velocidad de carga de las distintas urls, ver cómo se enlazan entre sí o hacia fuera, el estado de todas las etiquetas más importantes para SEO (títulos, descripciones, headings, alt text….), y otras opciones como canonical links y otras directivas (paginados, follow, nofollow, etc.).

Con la configuración normal que suelo usar, en esta ocasión el crawler solo rastreaba la url introducida (la home sin www) y se paraba ahí.

Reviso un poco más a ver qué está pasando

Configuracion Screaming Frog

 

Y esto me da la pista, voy a mirar el robotst.txt, porque la web está indexada, pero si el crawler no es capaz de pasar….

BINGO

¿Cómo no he caído antes en mirar el robot.txt? Pues allá me voy:

  • www.dominio.com/robots.txt

Y ahí estaba, el silencioso, sinuoso, y nada simpático, “disallow:/”

Yo lo veía como el “Fumar mata” de los paquetes de tabaco, pues así…

disallow :/

Llegados a este punto, cabría preguntarse, ¿por qué?

Pero al no tener datos ni información suficientes, se hace lo que se suele hacer en estos casos: picarse.

Bueno, y hacer cábalas de las posibles causas, con las herramientas que Internet pone a nuestro alcance.

Divagando con la indexación

Todos sabemos que para que se indexen contenidos en Google, hay varios métodos, aunque desde la implantación de Caffeine, la cosa ha sido más sencilla:

Las redes sociales, al estar incluidas en los contenidos que se rastrean e indexan por parte de los buscadores, ya toman un papel importante no solo en términos de “engage” y tráfico, sino en aspectos de indexación, son de gran ayuda para agilizar el proceso de indexación de páginas nuevas.

A lo que voy, si la web ya tiene resultados indexados, esto nos puede hacer pensar que alguien ha puesto ese robots.txt a posteriori.

¿Estarán subiendo páginas nuevas?

¿Haciendo cambios?

¿Irán a migrar de dominio o de rutas?

¿A alguien se le fue el dedo?

Pue seguimos sin saber….

¿Cómo sabemos si ya hemos perdido indexación o no?

Dado que no tenemos esta información a nivel histórico de indexación del resto de meses, ni tenemos acceso a GWT, pues podemos usar Screaming Frog, con la opción “ignore robots.txt” para saber qué tamaño tiene el site completo y compararlo con las páginas que están indexadas actualmente.

Aprovechando, añado un campo custom para ver si hay etiquetas “noindex” en alguna página del site. Pero no, nada de nada.

De manera alternativa, vamos a ver si existe un fichero sitemap, o incluso, un mapa web, para hacer el mismo ejercicio

  • www.dominio.com/sitemap.xml
  • www.dominio.com/mapa-web/

Y tal cual, coinciden las cifras, más o menos, con el número de páginas indexadas en Google.

Por tanto, “parece” un cambio reciente.

Extraer y analizar las urls indexadas

En este blog ya conté hace tiempo algún truco para hacer “prospección de sitios web”, pues con ese mismo truco, podemos “scrapear” todas las urls que aparecen cuando hacemos “site:dominio.com”

Y una vez lo hagamos, subimos las URLs a Screaming Frog, pero esta vez, elegimos la configuración modo lista, y adjuntamos un fichero txt con las urls, para que nos analice el estado de todas.

¿Qué hacemos con esto?

Intentamos descubrir si todas las rutas responden con un código de status 200, o si hay redirecciones o páginas rotas, que podrían ser síntoma o pista de posibles migraciones, cambios estructurales o estratégicos.

No sabemos si nos va a servir para determinar cambios y comparar, pero al menos, en análisis posteriores, conocer cómo está la web nos va a poder ayudar a descartar o detectar penalizaciones, como causa de la pérdida de tráfico.

Otro intento frustrado de ver cambios recientes en la web, es entrar en WayBack Machinne, pero ya que tenemos el robots que tenemos, pues esto nos impide cualquier análisis :((((

wayback machine

En nuestro caso, por tanto, con las cosas comentadas hasta aquí, nada reseñable, ya con el paso anterior, todo parece “normal”, y esto nos puede reafirmar que el disallow se ha puesto hace relativamente poco.

Analizando otro de los factores de indexación:backlinks

Una de las herramientas que más uso es MajesticSEO, y en este caso, no iba a ser menos.

Hemos dicho que otro factor para que se indexen contenidos, son los enlaces entrantes que recibe el sitio.

Podemos pensar que a pesar de tener el disallow:/ en robots bloqueando todo el sitio, quizás la página tenga enlaces entrantes por los que Google no pasa muy frecuentemente.

Para revisar qué enlaces apuntan al sitio en cuestión, o si ha recibido enlaces recientemente, podemos tratar de ver principalmente: enlaces nuevos/perdidos, páginas enlazadas, y de los principales dominios que enlazan, cuándo fue la última vez que los visitó Google.

  • Enlaces nuevos/perdidos. Con Majestic podemos observar los comportamientos a este respecto.
  • Páginas que reciben enlaces, en www.dominio.com. La pestaña de “Páginas” en Majestic, nos ofrecerá esta información detallada. También podemos usarla para repetir el mismo paso que con las urls indexadas, subirlas a Screaming Frog en modo lista, y obtener su estado actual (200, 301, 404, etc.), y demás análisis.
  • Caché de Dominios que enlazan: los dominios que enlazan, los podemos obtener de Majestic en “Dominios Ref.”. Sin embargo, para sacar la última fecha de caché de estos, habría que sacarlos de Seoquake, por ejemplo, en su opción de “Check / Compare URLs and Domains”

seoquake check

 

Lo que nos ofrecería una información como la que sigue

cache google seoquake

Revisar menciones sociales recientes

Otra de las pistas que haga indexar contenidos de www.dominio.com sería analizar si hay actividad social, en sus perfiles,o si se están compartiendo en las distintas redes.

Con BuzzSumo y otras herramientas de menciones sociales podríamos ver a fondo las urls con más impactos, y dado que no tenemos accesos a Google Analytics ni Google Webmaster Tools, agotamos este cartucho

Quizás dejando un poco de lado el tema indexación y fuentes de tráfico, mejor pasar a ver Semrush, a ver si detectamos de donde vienen los drops y deshacemos el entuerto.

¿Han caído los rankings?

Pues un vistazo a Semrush, nos hace pensar que si

grafica de trafico semrush

 

Si nos vamos a las posiciones de las keywords, y filtramos las brand, para observar el comportamiento de las genéricas (ojo, que el universo es muy pequeño, para sacar conclusiones SOLO de esto), hay pequeñas bajadas:

filtro kw semrush

 

 

 

rankings semrush genericas

 

¿Puede ser estacionalidad?

Pues por poder, puede, pero el disallow:/ no augura buenas cosas, próximamente.

Las keywords que se reflejan en esta tabla, tienen una tendencia de búsquedas como sigue:

Trends keywords volume

 

Lo que seguro que apunta a que se deben poner las pilas para mantener y mejorar su posicionamiento, para estar preparados antes de diciembre, que aumenta la demanda de todos esos términos.

¿Y si están penalizados?

Por partes.

Tenemos herramientas que detectan o tratan de anticipar actualizaciones de algoritmo o cambios

Y más allá, para revisar los updates que han tenido lugar, tenemos http://moz.com/google-algorithm-change

Si tuviéramos acceso a Google Analytics, tenemos 2 herramientas útiles para tratar de ver si nos afectó algún update:

Pues pistas para saber si nos han podido penalizar:

  • Contenido del site: poco o mucho, sobreoptimizado, cutre, copiado, plagado de publicidad, duplicado. En www.dominio, apenas hay etiquetas duplicadas y el ratio de texto, es bastante aceptable, hay contenido en todas las páginas, y aparentemente, con el análisis de crawler, se ve que está cuidado, se podría descargar ataque panda (muy muy muy a priori, sin ver nada de analítica no podemos afirmar NADA).
  • Enlaces Entrantes: el único matiz aquí es el histórico de enlaces que ha tenido el dominio, ha pasado de más de 5 mil, a unos 1200, 90 dominios de referencia a 60. ¿Apuestas? No me atrevo a jugármela, pero el perfil no parece spammy, tiene variedad de fuentes, anchor text mayoritariamente de marca, velocidad de enlaces nada brusca, y las páginas enlazadas, diversificadas, pero con gran prominencia en la home (con y sin www.)
  • Enlaces Salientes: no hay síntomas o razones para sospechar en este sentido.

Todo esto serían penalizaciones algorítmicas (necesariamente necesitaríamos revisar Analytics), o bien, susceptibles de aviso por Google Webmaster Tools, es decir, manuales…

No tengo información suficiente para extender este post y pensar en otro tipo de baneos o filtros.

Conclusiones

No tengo muchas conclusiones para compartir, pero como moraleja:

  1. La información es poder, sea como SEO In House o SEO de Agencia (freelance, o whatever), necesitamos responder muchas preguntas, antes de poder determinar causas y que la atribución, causalidad o como queráis llamarlo, sea correcta o la certeza sea proporcional a la información disponible.
  2. Aislar las distintas facetas del proyecto web, es fundamental
  3. Accesos a herramientas, comunicación con equipo de desarrollo, conocimiento de planes estratégicos
  4. Herramientas, como veis, hay muchas y muy útiles, pero solo las podremos (bien)exprimir conociendo una base del proyecto y su histórico
  5. Ayudar a ayudar

Y ahora, ¿cuánto tiempo pasará hasta que sean desindexados?

Espero comentarios….

Diplomada en Ciencias Empresariales. Hasta 2013 SEO Head Manager en Relevant Traffic, aprendiz constante de Analítica Web, mega-adicta a la Coca Cola Zero, Twitter y Michael Jordan!
Actualmente, consultora SEO Tribal Worldwide, y tengo una empresa que se llama como yo -mjcachon.es- y los clientes son muy majos

Sígueme en Google+

Twitter LinkedIn Google+ YouTube 

8 Responses to Caída de tráfico SEO: ¿por dónde empiezo?

  1. ant agosto 5, 2014 at 12:44 am #

    Hola MJ. No hay ningun servicio q monitorice la evolucion del pagerank?

    Esta genial el post! :-)

  2. mjcachon agosto 5, 2014 at 1:03 pm #

    No me suena ningún servicio que lo haga :)
    Pero usando cualquier servicio de bulk checking, tendrías que ir almacenando.Incluso con Excel SEO Tools, extrayendo los datos periódicamente.
    O si me apuras, scrapebox seguro que te lo saca :)
    Con programación, quizás puedas hacerlo medio automático cada “equis” tiempo, que te lo guarde.

  3. Alberto agosto 6, 2014 at 12:20 am #

    Mi experiencia augura 1 mes de media en desindexar tras ponerlo en el robots y algo similar al colocar la meta en la cabecera de todas las urls. Buen post MJ!

  4. mjcachon agosto 6, 2014 at 12:16 pm #

    ¿Un mes? Ya ha caído a 3 páginas indexadas…..Se ha dado prisa googlebot

  5. Ricard Menor agosto 6, 2014 at 8:49 pm #

    Hola MJ,
    Al leer que se basa en casos reales me tomo tu post con mucho cariño porque un problema que desata un post (de este estilo cercano y personal) es uno de esos desafíos que se plantan en la puerta de tu casa a las tantas de la noche y no te dejan dormir: “habré mirado esto?”, “se habrán dejado aquello”…?
    Sé lo que se siente y eso hace gremio :)

    Es curioso que el Robots sea muchas veces un gran olvidado siendo uno de los botones de autodestrucción más evidentes; reconozco que me ha pasado una vez “en público”. Este “detallito” trae el fondo de mi comentario:

    Qué bueno es leer de vez en cuando cosas aparentemente básicas, comunes e incluso tópicas pero de gente que está acostumbrada a pelearse con response headers, robots, penalizaciones, redirecciones, etc (y no hablo de Gatos, todo el mundo sabe que los gatos no usan foros ;)

    Leer a los compañer@s es bueno! Y si son MGGs más (peloteo jaja-jiji ;)

    Algún día repescaré tu idea, a ver si saco a alguien de algún apuro de paso con mis batallitas.

    Respecto a la parte técnica y de problema abierto no voy a emitir una opinión, sino algo sabido pero que debemos recordar:

    Google va muy muy rápido desde hace tiempo en hacer lo que hace, para bien y para mal. Me refiero a la parte que depende de la infraestructura tecnológica, no hablo de reconsideraciones, levantamiento de revisiones manuales, etc

    Gracias a la dependencia CMS que el mercado necesita (por tiempo, productividad, auto-contenido, etc) cualquier desliz en el desarrollo puede propagarse en nada a toda una categoría de productos, o a todos los artículos de un blog corporativo, o dejar todos los enlaces salientes cegados, todo ello sin señales evidentes a la vista.

    Hay que marcar a Desarrollo de cerca, y lo digo desde el cariño y el respeto de alguien que ha tratado con muuuchos desarrolladores, TOD@S desde la mayor mediocridad hasta el mayor ingenio cometen errores, ahí un consultor TIENE que meter la nariz; y si no puedes o no te dejan alguien tiene que abrirte la puerta, llámese CEO, CTO, CIO o “er hefe”.
    Añadir a la ecuación que un servidor y usted misma también cometemos nuestros errores, lo cual da pie a un montón de situaciones “divertidas”.

    Un abrazo y que La Indexación esté contigo! Saluda al Señor de mi parte :)

  6. Sergio Simarro agosto 8, 2014 at 1:17 pm #

    Muy bien MJ! Buen trabajo y mejor verano (azul o del color que quieras)

  7. mjcachon agosto 8, 2014 at 1:19 pm #

    Gracias crack :)

Trackbacks/Pingbacks

  1. Screaming Frog: utilidades para SEO | Consultora SEO - mjcachon - agosto 14, 2014

    […] Podemos hacer varias cosas, rastreamos el sitio web que queramos, y después, a revisar distintos aspectos antes de quejarnos porque nos cae el tráfico : […]

Hecho con cariño desde Madrid por las Madrid Geek Girls.