Cómo optimizar un sitemap para ayudar a la indexación

Rocío Rodríguez

Escrito por Rocío Rodríguez

¿Qué es el archivo sitemap?

El sitemap es un archivo que incluye un listado de todas las páginas relevantes de tu sitio junto con información adicional sobre éstas, como la frecuencia con la que cambia la información de una página, cuándo se ha actualizado por última vez o la importancia de una determinada URL con respecto al resto de páginas del sitio. La frecuencia de modificación del contenido de una página le indica a Google la frecuencia con la que deben rastrearse estas páginas del sitio.

La finalidad de este archivo es ayudar a los motores de búsqueda a que encuentren e indexen las paginas de tu sitio web. Por norma general, los rastreadores indexan todas las páginas que encuentran, a  no ser que éstas incluyan algún tipo de instrucción de bloqueo.

Existen varios formatos de sitemap pero el más utilizado es el que contiene la extensión XML. Los archivos sitemap pueden crearse manualmente o hacer uso de herramientas de terceros para su generación, como programas (por ejemplo, XML Sitemap Generator) o plugins específicos para cada gestor de contenidos (por ejemplo, existen algunos para WordPress o Drupal).

La creación del archivo sitemap no es una cuestión obligatoria, pero sí recomendable. Todos los webmasters deberían tener en cuenta su generación para aquellos sitios web que todavía no hayan contemplado su inclusión. Es importante que atendamos a las especificaciones y requisitos de Google durante la generación del sitemap para evitar cualquier tipo de error o problema. Si aún así apareciesen errores o advertencias tras su creación, es importante que las analicemos y las solucionemos con detenimiento para que Google pueda acceder y procesar este archivo correctamente.

¿Cómo encuentran las arañas las páginas de nuestro sitio?

Los buscadores van descubriendo nuevas páginas a través de enlaces, tanto externos como internos. Por ejemplo, si hemos creado una nueva landing y no contiene enlaces entrantes y tampoco la hemos enlazado de manera interna desde el sitio web, Google no podrá encontrarla y, por ende, tampoco indexarla. No obstante, también puede ocurrir que una página esté correctamente enlazada desde el sitio pero ocupe un lugar muy profundo dentro de la jerarquía por lo que para los rastreadores puede ser difícil llegar hasta ella.

Con el archivo sitemap facilitamos a los buscadores este trabajo de localización y descubrimiento. Sin embargo, debemos tener en cuenta que la inclusión de las páginas en este archivo no nos asegura su rastreo e indexación. Las páginas con contenido de poca calidad (thin content) suelen ser algunas de esas URLs que, a pesar de incluir y enviar en el sitemap, el buscador puede que no termine de indexar. Normalmente suelen ser páginas de tags, URLs de listados con 2 o menos productos, etc.

Todas aquellas páginas que no hayan sido encontradas y rastreadas no podrán ser añadidas al índice de Google.es y, por tanto, tampoco podrán ser devueltas como resultado tras una búsqueda pertinente realizada por el usuario.

Tipología de sitemaps

Existen diferentes tipos de sitemaps para describir contenido multimedia y otros contenidos que pueden ser complejos de analizar para los buscadores.

Vídeo

Los sitemaps de vídeo nos permiten informar a los buscadores sobre el contenido de vídeo que hay en nuestro sitio. Se trata de información que las arañas no lograrían identificar haciendo uso de los mecanismos de rastreo habituales. De esta forma podremos mejorar la visibilidad del sitio para búsquedas realizadas desde Google Vídeos.

Una entrada de vídeo del sitemap puede especificar la duración, la categoría y la calificación por edad recomendada del vídeo.

Sintaxis del sitemap de vídeo

No obstante, también podemos indicar un contenido de vídeo en un sitemap ya existente sin necesidad de crear uno independiente para los vídeos.

Imagen

Este tipo de sitemaps va a mejorar nuestra visibilidad para búsquedas realizadas desde Google Imágenes, al permitir que las imágenes de nuestro sitio sean rastreadas e indexadas por las arañas. Se trata de información que las arañas no lograrían identificar haciendo uso de los mecanismos de rastreo habituales.

Una entrada de imagen del sitemap puede incluir el asunto, el tipo y la licencia de la imagen.

Podemos utilizar un sitemap independiente para incluir imágenes o añadir información sobre imágenes a un sitemap ya existente.

Sitios web en los que sería conveniente contar con un sitemap de imágenes serían, por ejemplo, portales turísticos, páginas de recetas o tiendas online.

Si hacemos una búsqueda en Google Imágenes de la receta «Pollo con almendras» veremos que nos aparece un amplio listado de resultados con imágenes del plato. Cada una de estas imágenes tiene su propia URL:

Cómo mejorar la indexación de imágenes

En el caso del primer resultado podemos comprobar como la dirección de la imagen se ha incluido en uno de los sitemaps del sitio:

Sintaxis de sitemap

Esta práctica está facilitando el proceso de rastreo e indexación de la imagen por parte de los buscadores y está permitiendo, a  su vez, mejorar nuestra visibilidad para ciertas búsquedas en Google Imágenes.

Noticias

Este tipo de sitemap se suele utilizar para que el proceso de descubrimiento de noticias se produzca de una manera más rápida por parte de las arañas.

Este sitemap es ligeramente distinto al que contiene las páginas web. Cuenta con etiquetas específicas como la <news:keywords> o el <title>. La etiqueta <title> es de obligada inclusión y debe contener el título de la noticia tal y como aparece en el sitio web. La <news:keyword> no es obligatoria pero sí recomendable. Los rastreadores utilizan los términos incluidos en ella para clasificar las noticias. Esto permite que nuestro artículo se clasifique en el ranking para búsquedas relacionadas en las que deseamos obtener visibilidad.

No recomendamos hacer uso de más de 8 palabras clave en esta etiqueta del sitemap. Por otro lado, debemos tener en cuenta que el orden de inclusión de los términos no determina su importancia, todos estarían al mismo nivel de relevancia.

También podemos encontrar la etiqueta de stock tickers, que se utiliza para noticias económicas.

Los archivos sitemap de noticias no pueden contener más de 1.000 URLs ni incluir artículos que tengan una antigüedad superior a las 24h, contando siempre desde la fecha de su publicación. Sin embargo, si podrán seguir apareciendo en Google Noticias durante un periodo de 30 días.

Esta sería la sintaxis de un sitemap de news:

Ejemplo de una entrada de sitemap de noticiasEsto va a favorecernos a nivel de posicionamiento ya que si los buscadores descubren nuestra página poco después de haberla publicado, vamos a tener mayores probabilidades de posicionarnos para búsquedas de actualidad justo en el momento en el que éstas alcanzan su pico álgido de tráfico.

Para la generación de los sitemaps de noticias Google marca una serie de directrices que se deben cumplir. Recomendamos revisar estos requisitos si estamos planteándonos generar un sitemap de este tipo para nuestro sitio.

Mejorando la indexación de tu sitio

Etiquetas XML del sitemap

El sitemap está formado por una serie de etiquetas, algunas de las cuales son opcionales: <lastmod>, <changefreq> y <priority>. Las mostramos en cursiva a continuación:

Etiquetas XML del sitemap

Estas etiquetas opcionales, de las que hablaremos a continuación, van a permitir que proporcionemos información relevante sobre nuestras páginas a los motores de búsqueda, lo cual le ayudará durante su proceso de rastreo e indexación.

Prioridad de las páginas dentro de un sitio

La etiqueta <priority> indica a los buscadores la importancia de una URL con respecto al resto de páginas del sitio. Esta sugerencia no afecta a la clasificación de tus páginas en los resultados de Google.es. Los valores de esta etiqueta van desde el 0,0 a 1,0.

Tal y como recoge la documentación de Google «este valor no afecta a la comparación de sus páginas con respecto a las de otros sitios; únicamente permite informar a los motores de búsqueda de las páginas que considera más importantes para los rastreadores«.

Frecuencia de actualización de cada página

La etiqueta <changefreq> también es opcional e indica la frecuencia con la que va cambiando la página. Los valores aceptados para esta etiqueta son:

  • always (documentos que cambian cada vez que se tiene acceso a ellos)
  • hourly (cada hora)
  • daily (diariamente)
  • weekly (semanalmente)
  • monthly (mensualmente)
  • yearly (anualmente)
  • never (debe utilizarse para direcciones URL archivadas)

No obstante, debemos tener en cuenta que la información contenida en esta etiqueta actúa como una sugerencia y no como una directiva absoluta, por lo que los rastreadores podrán tener en cuenta esta información o ignorarla. Por ejemplo, no sería raro encontrar rastreos diarios en URLs que están marcadas como <changefreq>hourly</changefreq>. De igual modo, las arañas podrían rastrear con mayor frecuencia otras páginas marcadas como <changefreq>yearly</changefreq>.

Fecha de modificación

Tal y como su propio nombre indica, la etiqueta <lastmod> indica la fecha de última actualización de la página. La fecha debe indicarse en formato W3C de fecha y hora.

URLs accesibles

Todas las URLs del sitemap deberán ser accesibles, es decir, cualquier robot debería ser capaz de poder acceder a ellas. Por tanto, evitaremos la inclusión de páginas que han sido bloqueadas desde el archivo robots.txt o desde la etiqueta robots del código HTML.

En el caso de éste último, debemos tener en cuenta que para Google puede ser incongruente el hecho de que, por un lado, le estemos enviando las páginas en el sitemap para que las rastree e indexe y que, por otro, le estemos indicando que no queremos que la indexe configurando el valor «noindex» en la etiqueta meta robots del código HTML de la página. Debemos evitar esta práctica si queremos lograr cifras de saturación óptimas.

Páginas que devuelven códigos de respuesta diferentes al 200

Todas las URLs incluidas en el sitemap deben devolver códigos de estado 200OK. Evitaremos la inclusión de páginas con cualquier códigos de respuesta 400 o URLs con redirecciones, sean del tipo que sean (301, 302, etc).

Páginas con identificadores de sesión u otros parámetros de URL

Deberemos evitar la inclusión de URLs con identificadores de sesión ya que se trata de una duplicidad de la página original. Con ello conseguiremos limitar el rastreo a URLs relevantes al mismo tiempo que reducimos el rastreo de páginas duplicadas que no aportan valor en términos de posicionamiento.

Las URLs parametrizadas también se deberán obviar. Estas páginas suelen presentan la totalidad o parte del contenido de la página original pero ordenado a través de un filtro que añade el usuario: precio, color, marca, etc. Por tanto se tratan de URLs que mostrarían información idéntica o similar a la de la página sin parámetros. La inclusión de de estas páginas en el sitemap podría provocar el rastreo de páginas duplicadas o URLs poco relevantes de nuestro sitio que no nos interesa que las arañas rastreen e indexen.

Actualización del sitemap

El sitemap debe actualizarse para que contenga siempre las nuevas URLs de nuestro sitio. Debe de existir una coherencia entre el contenido que le indicamos a las arañas que tienen que indexar con el que hay en nuestro sitio web.

La frecuencia de actualización variará dependiendo del sitio web (puede ser un medio, un blog, una tienda online, etc…) y la regularidad de sus publicaciones. En el caso de que fuese un medio, el sitemap debería actualizarse de manera diaria, ya que lo óptimo es que este archivo vaya incluyendo todas las URL de las nuevas noticias o artículos que se van publicando. En cambio, si es una tienda online, la frecuencia de actualización no será tan asidua. No obstante, al tratarse de un sitio web en el que se van renovando los productos constantemente (algunos se descatalogan, se dan de alta otros nuevos, etc), debemos asegurarnos de mantener el archivo sitemap actualizado.

Podemos hacer uso de plugins para la actualización automática del sitemap. De igual modo, también se puede actualizar este archivo de forma manual, aunque el proceso pede llegar a ser más arduo y complejo.

Sitios multiidioma

Si tu portal es multiidioma, debes tener un sitemap para cada idioma subido en su correspondiente raíz y perfil de Search Console, siempre que sea posible.

Tamaño del sitemap

El sitemap no debe superar los 50MB (52,428,800 bytes), ya sea comprimido o sin comprimir, ni contener más de 50.000 URLs. Con ello nos aseguraremos de que el servidor web no se queda bloqueado al servir un gran número de archivos.

Si tu sitio cuenta con un número de URLs mayor a las mencionadas o si tu sitemap supera el tamaño máximo recomendado, deberás crear varios archivos sitemap que gestionarás a través de un archivo de índice de sitemap.

Para la compresión del sitemap Google recomienda utilizar el formato gzip en lugar de zip.

Administración de varios sitemaps

Simplifica la administración de tus sitemaps con el archivo de índice de sitemaps. El archivo de índice de sitemaps permite enviar todos los sitemaps a la vez por lo que te puede facilitar mucho el proceso.

Ejemplo de índice de sitemaps en formato XML

Esta opción suele ser bastante útil en sitios grandes, como por ejemplo algunos medios que suben índices de noticias por meses del año, pero también para otros portales que, aún no siendo tan grandes, cuentan con un gran número de sitemaps.

A menudo nos solemos encontrar con sitemaps que presentan un tiempo de respuesta demasiado alto, situación que puede afectar directamente a la indexación de las páginas contenidas en éste. En este caso lo más recomendable es dividir las páginas en varios sitemaps. Gestionarlos todos ellos desde el índice de sitemaps te será muy sencillo.

Una opción para organizar de forma correcta las páginas de una tienda online de ropa sería dividirlos de la siguiente manera:

  • Sitemap 1: páginas de categorías (Hombre, mujer, vestidos, pantalones, etc)
  • Sitemap 2: páginas de marcas (Diesel, Desigual, Pedro del Hierro, Bimba y Lola, etc).
  • Sitemap 3: publicaciones del blog
  • Sitemap 4: etiquetas del blog
  • Sitemap 5: productos
  • Sitemap 6: productos
  • Sitemap 7: productos
  • Sitemap 8: imágenes

De esta manera podremos controlar la indexación de cada sitemap por separado y ver si hay problemas específicos en cada una de estas tipologías de páginas.

El archivo de índice de sitemaps puede incluir un máximo de 50.000 URLs y no puede contener otros archivos de índice de sitemaps, solo archivos sitemaps.

Páginas poco relevantes

En el sitemap se deben enviar todas aquellas páginas relevantes del sitio que queremos que las arañas rastreen e indexen. Evitaremos la inclusión de URLs que cuentan con una importancia menor dentro de la arquitectura global del sitio. Nos referimos, por ejemplo, a las páginas de cookies, política de privacidad o términos de uso. De esta forma centraremos toda la fuerza en las URLs que realmente nos interesa que los rastreadores indexen. Éstas URLs podrían ser páginas de noticias, fichas de producto o categorías del sitio.

Comprueba que tu sitemap contiene las páginas correctas

Antes de enviar el sitemap deberemos asegurarnos de que incluye las URLs relevantes del sitio, esto es, aquellas que queremos que Google rastree e indexe. Para ello podemos servirnos de herramientas como Screaming Frog, desde la que podemos descargar el archivo sitemap directamente incluyendo la URL.

Cómo descargar el sitemap en Screaming Frog

Cuando la herramienta haya terminado de rastrear todas las URLs, deberemos fijarnos en la columna «Status Code». Deberían saltarnos las alarmas si encontramos códigos de estados diferentes al 200OK. Las páginas redireccionadas, ya sean redirecciones temporales o permanentes, no deben mantenerse en el sitemap. Recomendamos eliminarlas de este archivo. El procedimiento a seguir será el mismo en el caso de que encontremos páginas no existentes (404, 410, etc).

Otro de los indicadores que deberemos revisar es el «Status», que indica si se ha bloqueado el rastreo de una determinada página desde el archivo robots.txt del sitio. Deberemos revisar si realmente esta instrucción de bloqueo en estas páginas es correcta o se ha incluido por error. También puede darse el caso de que en su momento no queríamos que fuese encontrada por los rastreadores pero ahora sí nos interesa que la incluya en su índice. En caso de que la instrucción de bloqueo fuera correcta deberíamos proceder a quitar estas URLs del sitemap. Del mismo modo, si detectamos que algunas de las URLs se están bloqueando por error, es recomendable que facilitemos su rastreo eliminándolas del robots.txt.

Igual de importante es también revisar la columna «Meta Robots», para identificar qué paginas cuentan con la instrucción «noindex». Las URLs que cuenten con alguna de estas dos instrucciones de bloqueo no deberíamos incluirlas en el archivo sitemap del sitio. Es incoherente que las mismas URLs que estamos enviando en el sitemap para que los buscadores rastreen e indexen, contengan a su vez una instrucción que bloquea el acceso a los robots.

Es conveniente atender a estas recomendaciones ya que, corrigiendo estos errores, lograríamos mejorar las cifras de saturación del sitio.>

Tras corregir las incidencias encontradas, deberemos volver a enviar el sitemap.

Envío del sitemap

Puedes añadir el sitemap al directorio raíz de tu servidor HTML, esto es, en http://midominio.es/sitemap.xml. Una vez creado el archivo sitemap, deberemos ponerlo a disposición de Google. Desde Search Console podemos añadir, enviar y probar el sitemap accediendo a la opción Rastreo > Sitemap, del menú lateral izquierdo. Además, podremos ir haciendo un seguimiento de los archivos enviados y detectar posibles fallos, errores o advertencias que se vayan registrando.

Módulo sitemap en Search Console

Otra opción es incluir la URL del archivo sitemap en el robots.txt del sitio. Bastará con incluir la siguiente línea:

  • Sitemap: http://example.com/ubicacion_sitemap.xml

Si embargo, esta última opción deberíamos valorarla en última instancia. Cualquier persona puede tener acceso al robots.txt de tu sitio, es conveniente que no le ofrezcas información de más que podría utilizar en tu contra.

Seguimiento de la saturación

El índice de saturación es la relación entre las páginas que enviamos a Google y las que éste finalmente termina indexando. Podemos consultar este indicador desde Google Search Console, accediendo a Rastreo > Sitemaps desde el menú lateral de la herramienta.

Por norma general, este valor nunca suele alcanzar el 100%. No obstante, debemos intentar que el porcentaje se acerque lo máximo posible a esta cifra, ello indicará que casi la totalidad de páginas enviadas en el sitemap han sido rastreadas e indexadas por las arañas. A mayor número de páginas relevantes de nuestro sitio indexadas, mayores probabilidades tendremos de que el buscador las devuelva como resultado tras una búsqueda pertinente realizada por el usuario. Las páginas que Google no indexa no podrán ser encontradas por los usuarios tras una búsqueda natural, con todo lo que ello conlleva: pérdida de visitas, páginas que no se pueden posicionar, etc.

Errores comunes a evitar

  • Enviar el sitemap vacío: por mucho que generemos y enviemos el archivo sitemap, si no contiene las URLs que nos interesa que los rastreadores encuentren, no nos va a favorecer de manera positiva a nivel SEO.
  • Superar el tamaño máximo permitido: si supera los 50MB sin comprimir deberemos crear un archivo de índice de sitemap y dividirlo en varios sitemaps.
  • Incluir una fecha incorrecta: debemos asegurarnos de que las fechas tienen la codificación W3C de fecha y hora (la especificación del tiempo es opcional).
  • Inclusión de URLs no válidas: aquellas que cuentan con caracteres o símbolos no admitidos como comillas o espaciados. O otras que incluyen un protocolo erróneo (HTTP en lugar de HTTPS).
  • Duplicidades en etiquetas: para solucionar este problema deberemos eliminar la etiqueta duplicada y volver a enviar el sitemap.
  • Demasiadas URLs en el sitemap: asegúrate de que no contiene más de 50.000 URLs, sino divide el índice de sitemaps en varios archivos teniendo en cuenta que no deben contener más de 50.000 páginas cada uno.
  • No especificar las URLs completas. Se deberá indicar la URL completa. Por ejemplo, www.midominio.com no sería correcto ya que estaríamos prescindiendo del protocolo HTTP/HTTPS.
  • Enviar sitemap sueltos. Incluye todos tus sitemaps en un archivo de índice de sitemaps.
  • Inclusión de etiquetas erróneas. Deberemos asegurarnos de que todas las etiquetas del sitemap están correctamente escritas. Errores ortográficos como poner <news:languaje> en lugar de <news:language> pueden hacer que el sitemap registre numerosos errores y que los buscadores no puedan procesarlo correctamente.
  •  | 
  • Modificado el
Rocío Rodríguez
Rocío Rodríguez
Consultora SEO Senior en Human Level. Licenciada en Publicidad y Relaciones Públicas con un Máster en Comunicación e Industrias Creativas. Especialista en marketing digital y auditoría SEO integral. Profesora en el Máster SEO-SEM Profesional de Kschool.

¿Y tú qué opinas? Deja un comentario

Por si acaso, tu email no se mostrará ;)

Entradas relacionadas

es