El sitemap, el rastreo y la indexación

El fichero sitemap es un elemento importante en lo que se refiere a SEO, desde el punto de vista del rastreo y la indexación de contenidos por parte de Googlebot (y otros rastreadores de otros motores de búsqueda).

Recordando cómo funciona el rastreo o crawling de contenidos, dentro de la mecánica de Google:

crawler

[Si quieres saber el proceso completo del funcionamiento de Google, puedes verlo de forma muy visual y dinámica aquí]

En este sentido debemos tener claro qué páginas queremos que googlebot rastree e indexe y tenemos varias formas de facilitarle la vida:

  • Fichero Sitemap.xml
  • Fichero Robots.txt
  • Etiquetas meta robots
  • Linking interno

Antes de seguir, veo super necesario matizar que googlebot no va a “visitar” tu web cuando tu quieras, ni cada vez que se pase a rastrear tu web, verá todos los contenidos/urls que tienes.

Resumiendo, digamos que cada sitio web tiene asignado un tope de rastreo por parte de googlebot, que viene determinado por su autoridad…

No es un límite como tal, pero el grado en el que googlebot puede descubrir páginas interiores puede venir de links externos desde los que llegue, o porque existe un buen linkado interno, etc.

Es decir, una parte está relacionada con la autoridad que tenga cada página, pero a medida que naveguemos desde la home a páginas más profundas, es normal que vaya disminuyendo dicha autoridad.

Por tanto la idea que arroja esto es que googlebot tratará de priorizar cada vez que rastree nuestra web y seleccionará el mejor contenido posible, no significa que limite el número de páginas a indexar de un sitio, pero puede tardar en llegar a ellas más tiempo, si no tienen suficiente autoridad, calidad, fuerza…

[Matt Cutts habló de esto en una entrevista en 2010, también comentó sobre páginas indexadas y crawling en uno de sus videos de Google Webmaster, y aquí Rand Fishkin también haciéndose eco]

Por este motivo, es primordial no desperdiciar la presencia del bot ni hacerle menos eficaz cada vez que nos visita, algunas ideas:

  1. Revisar las estadísticas de rastreo a través de Google Webmaster Tools, (en el panel lateral, desde Rastreo >> Estadísticas de Rastreo)
  2. Evitar duplicados. ¿Vas a hacer rastrear a googlebot 3 urls con contenido duplicado parcial o totalmente? Y antes de liarte a poner “canonicals” para seguir haciendole trabajar “en vano”, mejor tratar de arreglar los duplicados.
  3. Solucionar los errores 404. Arregarlos, cambiarlos por las urls correctas en el linkado interno, o si hay que redirigir, ya ver el caso concreto y tratar de dar con la mejor opción.
  4. Cuanto menos le hagas esperar, mejor. Dale caña a optimizaciones de rendimiento y velocidad de carga.
  5. Cuidado con Contenido malo o pobre, mejor que no lo rastree ni indexe, no seas bambu para Panda, ni induzcas a googlebot a no volver.
  6. La info de GWT puede quedarse corta, los LOGs te darán muchos más detalles. (Es nivel avanzado, pero  Este post es bastante bueno al respecto).
  7. Revisar y manejar urls con parámetros.
  8. La autoridad de la web debe ir más allá de la home, linking interno y obtención de enlaces externos, tanto en la home como en páginas profundas, favorecen rastreo e indexación
  9. La optimización de la estructura web y los enlaces que usamos en las distintas páginas, también serán determinantes para este flujo de crawling.
  10. Usar el atributo nofollow para determinados links que no queramos que sean rastreados o seguidos.
  11. Utilizar meta robots para las distintas páginas que tengamos y lo que queramos rastrear/indexar, o no. Más info aquí y aquí
  12. Bloquear a través de robots.txt determinadas páginas o carpetas. (***Ojo con lo que añadamos aquí, que puede chocar con lo que haya en sitemap y con etiquetas meta robots, que van a nivel de página).
  13. El sitemap puede ser de ayuda para darle facilidades de las páginas que debe rastrear
  14. Directrices técnicas de Google, disponibles: https://support.google.com/webmasters/answer/35769?hl=es#technical_guidelines

Eh que yo he venido aquí a hablar del Sitemap

El sitemap es un documento o fichero ubicado en la raíz de un sitio y que tiene como proposito informar de las páginas disponibles para ser rastreadas por crawlers como googlebot (lista de crawlers de Google y otros crawlers)

Aspectos destacados de este fichero:

  • Listamos para Google las páginas de nuestro sitios, que consideramos prioritarias o que queremos que sean visibles y son susceptibles de captar tráfico orgánico, asociadas a querys (y obtener buenos rankings).
  • Los sitemaps permiten añadir un campo de “prioridad” para decir qué páginas son más importantes dentro de la lista.
  • También tenemos la opción de indicar la frecuencia con la que cambian las urls listadas, o decir la fecha de última modificación.
  • Por contra, si marcamos toda esa información en el fichero, le estamos dando pistas a los competidores
  • A veces puede ser complicado, en función del proyecto, generar de forma óptima este fichero.

En lo que nos va a ayudar, sin duda es a:

  1. Nuevas páginas y nuevos contenidos que quizás no tengan aún mucha autoridad ni enlaces internos / externos.
  2. Páginas muy profundas a las que no es capaz de llegar googlebot
  3. Páginas profundas que a googlebot le cuesta rastrear

Para crear un sitemap

Los formatos que se pueden usar:

  • XML, es el estandar
  • RSS, mRSS y Atom 1.0, para el caso de feed de blogs, o de contenidos nuevos o que se modifican mucho, mejor que leas las recomendaciones de Google de 2014.
  • Txt

Directamente puedes crear un xml y subirlo, así como enviarlo a través de Google Webmaster Tools (y ver si da errores o las urls totales que tiene y las que rastrea googlebot) o linkarlo en una linea de tu robots.txt, para hacerle saber que dispones de uno.

El aspecto que tendría el código del sitemap:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> 
  <url>
    <loc>http://www.example.com/foo.html</loc> 
  </url>
</urlset>

Directrices para crear sitemaps

  • Es necesaria la línea de “urlset” para declarar el sitemap
  • Usar codificación UTF8
  • No pongas urls con parametros o sesiones
  • Si tienes varios idiomas, cada sitemap con las urls de su idioma correspondiente
  • Añade máximo 50.000 urls y no más de 50MB
  • Si es muy grande, haces un índice de sitemaps, y fraccionas en distintos sitemaps. Aquí el criterio debería estudiarse en función del tipo de arquitectura que tengas, a qué distancia en clics estén las secciones, nivel de profundidad, etc. En wordpress, el plugin de Yoast por defecto te hace sitemap de páginas, de categorías, de post, de autores, de tags…
  • Si tienes distintos tipos de contenido puedes separar el sitemap por tipo: vídeo, imágenes, noticias, móviles

Existen distintas herramientas para generar el sitemap, sin embargo para sitios de hasta 500 urls, puedes usar xml-sitemaps y en general, para cualquier web, usar Screaming Frog.

Las etiquetas que incluye el sitemap:

etiquetas sitemaps

Las tres últimas son las que comentábamos sobre ultima modificación de la url concreta, frecuencia de actualización y prioridad.

Puedes ver la documentación más amplia en el propio Support de Google: https://support.google.com/webmasters/answer/183668

Otras consideraciones a tener en cuenta:

  • El sitemap va asociado al protocolo, asi que las urls incluidas deben usar dicho protocolo (http vs https)
  • Lo mismo para subdominios, el fichero es específico y tendrás que añadir uno por subdirectorio, al igual que tienes que dar de alta el subdominio de forma específica en Google Webmaster Tools.
  • Hemos comentado antes el tema de anotaciones en sitemaps para mobile, para proyectos Internacionales, también existen especificaciones para añadir rel alternate y que quede reflejado en sitemap.

Grandes mitos de los Sitemaps

  1. Lo que entra en el sitemap, tiene garantía de indexarse
  2. Lo que quitas o dejas fuera del sitemap, se desindexa
  3. Son ficheros muy difíciles de crear y mantener
  4. ….
  5. (¿Alguno que queráis añadir? Comentad, comentad…)

¡Queremos Sitemaps limpios y lo queremos ya!

Ayuda a Googlebot a ayudarte

ayudame a ayudarte

– Interpretación libre de la frase que aparece en Jerry Maguire –

Veamos, ¿qué hemos aprendido de todo lo que llevamos de post y cómo tener los sitemaps más limpios que una patena?

Analizar un sitemap con Screaming Frog

Analicemos un sitemap de una web y veams paso a paso como hacerlo con Screaming.

  • Paso 1: ve a la web que quieras, normalmente el fichero se coloca en la raíz, con lo que daría una url tipo “example.com/sitemap.xml”. Yo uso la web floter.com

sitemap floter

  • Paso 2: Guarda el fichero en formato xml.
  • Paso 3: Vamos a usar el “modo lista” de Screaming Frog, desde “modo”, elegimos “lista”.

elegir modo lista screaming

  • Paso 4: Seleccionar el archivo que vamos a subir, formato XML.

elegir formato sitemap xml screaming

  • Paso 5: Esperar que lo crawlee y ver resultados.

Como veis en el paso previo lista el número total de urls encontradas en el fichero, pero si existen duplicados dentro, lo pulirá

total urls sitemap screaming

Y el resultado, casi casi está limpito:

status code sitemap

Revisar esas 8 urls sería la opción.

Aunque en algunas ocasiones, hay propósitos “temporales” para añadir urls 404 o 410 al sitemap para forzar a googlebot a rastrearlas.

En cualquier caso, de aquí sacamos distintas recomendaciones para mantener limpito este archivo y seguir con el objetivo de no hacer perder el tiempo a googlebot y aprovechar al máximo el tiempo que le dedique a nuestra web:

  1. URLs que respondan 200, es decir, evitar urls con redirecciones y errores
  2. Si hay urls con un canonical a otra página, que también de 200 y no duplique
  3. Incluir las urls que queremos que rastree, únicamente
  4. No añadir urls que están bloqueadas en robots.txt
  5. No añadir urls duplicadas
  6. Se puede combinar el uso de sitemap xml y de sitemap rss/atom

Y esto es todos amigos del online, pasen por los comentarios y dejen sus impresiones :)

Diplomada en Ciencias Empresariales. Hasta 2013 SEO Head Manager en Relevant Traffic, aprendiz constante de Analítica Web, mega-adicta a la Coca Cola Zero, Twitter y Michael Jordan!
Actualmente, consultora SEO Tribal Worldwide, y tengo una empresa que se llama como yo -mjcachon.es- y los clientes son muy majos

Sígueme en Google+

Twitter LinkedIn Google+ YouTube 

9 Responses to El sitemap, el rastreo y la indexación

  1. Sergio Simarro Villalba febrero 4, 2015 at 8:30 am #

    Una gran aportación al mundo online por parte de MJ, felicidades!

    Si su señoría me lo permite, un pequeño consejo ya que has mencionado WordPress & Yoast: cuidado con la generación del Sitemap a través del Yoast. Muchas plantillas emplean los llamados “custom types” para la generación de sliders, fichas de empleados, etc. que no se enlazan directamente desde la Web y que además no queremos que se indexen ya que son páginas que no aportan nada o que simplemente repiten contenido ya mostrado en una página tipo listado. Sino indicamos específicamente en Yoast que no queremos generar en el Sitemap ese tipo de páginas, este magnífico plugin SEO nos va a generar un sitemap para esas páginas que Google nos lee al momento.

    Un abrazo!

  2. mjcachon febrero 4, 2015 at 11:23 am #

    El plugin Yoast y algunos warnings a tener en cuenta, dan para un post a parte :)
    Gracias por el consejo!!

  3. Roger febrero 4, 2015 at 3:56 pm #

    Muy interesante, ultimamente he estado tratando con sitemaps y lo de screaming frog me ayudó mucho con unas URL que por barra al final o no daban codigos 301

    Una duda: cuando subes tus sitemaps a WT, la presencia de errores y advertimientos que influencia crees que tiene en el rastreo que va a hacer google de las URL informadas?

    Por ej, tengo un sitemap muy grande de video, y de miles de urls algunas tienen la URL del thumbnail del vídeo que no existe. Más alla de que lo optimo es solucionar estos errores, crees que tiene influencia en que pare de indexar el resto de URL’s? (en el caso de URLs con codigos 301 ya lo he comprobado, pero en otro tipo de errores no parece que pase esto)

  4. mjcachon febrero 4, 2015 at 4:25 pm #

    Roger, se supone que la etiqueta de thumbnail, es obligatoria, https://support.google.com/webmasters/answer/80472?hl=es, no debería responder 404.

  5. Roger febrero 4, 2015 at 4:41 pm #

    Si, si, lo se, y siempre esta informada en el sitemap, pero en algunos casos por motivos que desconozco, el fichero ha desaparecido del servidor y por eso genera error.

    Y mas allá de que la solucion es arreglar los problemas con los ficheros concretos dudaba si mientras no lo pueda arreglar esto me puede afectar poco o mucho en los otros videos del sitemap que no dan ningun tipo de error…

  6. Javier Lorente febrero 5, 2015 at 10:52 am #

    Enhorabuena MJ! Muy bien explicado, si me permites, 2 miniaportaciones:

    1º) para optimizar más todavía el rastreo, eliminar las 301 internas cambiando el destino de los enlaces que apunten hacia 301 de modo que apunten a los destinos finales.

    2º) para que no te espíen los sitemaps, noindex mediante xrobots.

    Un saludo

  7. mjcachon febrero 5, 2015 at 12:46 pm #

    La verdad que no podría darte una respuesta basada en datos o en una experiencia real, no he vivido algo así.
    Pero yo evitaría dar 404 en sitemaps en el caso que comentas :)

  8. mjcachon febrero 5, 2015 at 12:46 pm #

    Gracias por los consejos Javi, ¡un placer!

Trackbacks/Pingbacks

  1. De los 404 a la ¿co-citacion? - Consultora SEO - mjcachon - febrero 15, 2015

    […] del blog de la Madrid Geek Girls, poniendo un poco de orden y revisando lo que había indexado, sitemaps, y […]

Hecho con cariño desde Madrid por las Madrid Geek Girls.