Cuando hablamos de SEO siempre nos vienen a la cabeza cosas como “keywords”, “metadatos”, headings, contenido…Pero el SEO técnico es una cara del SEO que también es muy importante y debemos tener muy en cuenta en nuestra estrategia de posicionamiento web.

Dentro de este mundo, encontramos el concepto de crawl budget o presupuesto de rastreo. ¡Vayamos a analizarlo a fondo!

¿Qué es el Crawl Budget o presupuesto de rastreo?

Se denomina crawl budget o presupuesto de rastreo al tiempo que dedica Google cuando visita una web. Este presupuesto incide en el posicionamiento y en la indexación de un site y por ello es clave fijarse en el presupuesto de rastreo que tiene nuestra web. Para conseguir un óptimo presupuesto de rastreo las máximas son:

  • accesibilidad
  • velocidad
  • calidad
  • autoridad

¿Qué es un crawler?

Un crawler es la araña o bot encargado de rastrear las webs y sus URLs de manera automática. Este bot almacena y clasifica el contenido que luego se muestra en los resultados de búsqueda a los usuarios. Recibe el nombre de Googlebot, ya que estamos en España y hablamos de que el buscador más importante es Google. Pues eso, es imprescindible que Google encuentre tu web y sepa que existes.

¿Cómo afecta el Crawl Budget a mi web?

Un presupuesto de rastreo optimizado potenciará un mejor posicionamiento de tu web en los motores de búsqueda. Además de ayudar a una correcta indexación de todas las páginas importantes. No podemos olvidarnos del crawl budget en nuestra estrategia de posicionamiento SEO, porque es muy importante el tiempo que invierte Google en conocer nuestra web.

¿Cómo funciona?

Las arañas de google rastrean tu web, y si el presupuesto de rastreo es pequeño es posible que salgan de tu web sin rastrear todo el contenido nuevo. Asignan el presupuesto basándose en dos factores:

  • Crawl limit: Indica el rastreo máximo que soporta un sitio web y cuales son las preferencias.
  • Crawl demand: Indica la frecuencia con la que debe ser rastreado el sitio web en base a la popularidad del sitio y la frecuencia con la que se actualiza.

¿Sabes con cuánta frecuencia es rastreada tu web?

Gracias a Google Search Console podemos ver las estadísticas de rastreo de los últimos tres meses. En ellas podemos apreciar las páginas que rastrea al día, los kilobytes descargados al día y el tiempo de descarga de una página en milisegundos. Los datos tienen una media clasificada en alto, normal y bajo. Estos datos son muy ilustrativos si tenemos en cuenta el número total de páginas de nuestra web y el dato medio de rastreo por día. Con él podemos saber si estamos dentro de la normalidad o si, en cambio, debemos mejorar el presupuesto de rastreo.

Estadísticas Rastreo

Panel de análisis de rastreo en Google Search Console.

¿Un presupuesto de rastreo menor es perjudicial?

Tener un presupuesto de rastreo menor tiene inconvenientes:

  • Dificultad para que el contenido posicione rápido, pues Google no sabe que existe y por tanto tampoco lo rastrea e indexa.
  • Las zonas alejadas de la web serán zonas delicadas si el presupuesto de rastreo es pequeño. Al bot no le dará tiempo a pasar por las páginas o secciones que están más alejadas en la web.
  • Las optimizaciones de SEO onpage realizadas no serán rastreadas, y por tanto, las mejoras no se harán visibles.
  • Si otra web indexa y posiciona el mismo contenido antes que nuestra web, Google puede identificar que hemos copiado el contenido y penalizarnos por ello.
  • Mucho presupuesto de rastreo no garantiza nada si no lo optimizamos correctamente.

¿Cuál es el comportamiento de las arañas?

Para saber qué páginas visita Google y en las que está invirtiendo su tiempo en rastrear, y si coinciden o no con nuestras prioridades a nivel de posicionamiento SEO, debemos consultar la información que nos dan los logs.

Los logs son peticiones al servidor que quedan almacenadas y a las que podemos acceder para saber qué visita y qué no Googlebot. Exportar y organizar este documento puede ser más fácil con ScreamingFrog Log File Analyser.

ScreamingFrog Log File Analyser

Análisis de logs con ScreamingFrog Log File Analyser

Panel del software de análisis de logs de Screaming Frog

¿Cómo optimizar nuestro Crawl Budget?

Hemos de tener claras nuestras URLs clave, para posicionamiento web y por negocio, para conseguir que sean las más rastreadas. No nos sirve de nada invertir el presupuesto de rastreo en páginas que no son las realmente importantes, como son las páginas con parámetros, las paginaciones…etc.

Será crucial no tener problemas de contenido duplicado, o URLs que canibalicen por la misma Keyword. El contenido de baja calidad también es perjudicial debido a que los bots invertirán tiempo en pasar por él.

Para optimizarlo debemos hacer énfasis en los siguientes ámbitos:

WPO (Web Performance Optimization)

Optimizar la velocidad de carga o WPO para que Google no tarde demasiado en el rastreo de tu web. A Google le gusta el código limpio y la menor cantidad posible de archivos para facilitar la carga y conseguir una óptima experiencia de usuario en la navegación.

Mejoras de WPO para el crawl budget

No te olvides de:

  • Reducir y comprimir los archivos Css y Js
  • Vigilar el peso y el tamaño de las imágenes, y especificar su tamaño
  • Elegir Nginex como servidor para mejorar el posicionamiento mediante caché.

Enlaces y redirecciones

El bot va a rastrear todo el contenido y de tu web, y también, va a seguir todos y cada uno de los enlaces de cada página. Para favorecer un correcto rastreo debes de tener en cuenta:

  • Debes evitar las redirecciones innecesarias, ya que Google se perderá en ellas.
  • Las cadenas de redirecciones o “redirect chains” que son redirecciones de muchas URLs que harán perderse a Google en ellas sin llegar a la URLs destino.

Redirect chains o bucles de redirecciones

  • Enlaces rotos (páginas enlazadas con un status 404 not found) en el enlazado interno.

Screaming Frog y Search Console serán nuestros aliados especiales para detectar redirecciones defectuosas y todo tipo de URLs con errores.

Redirecciones defectuosas con Search Console

Internal linking

El enlazado interno será crucial tenerlo cuidado para no sobrepasarnos enlazando y hacer que los bots se pierdan rastreando las URLs.

  • Debemos reforzar las zonas más importantes y dejar menos enlazadas las de menor importancia. Por ello habrá páginas como las de política de privacidad o la página de cookies que no será conveniente enlazar en cada página desde el menú principal o el footer.

Código

  • Es recomendable la inclusión de HTML lo máximo posible, para facilitar el rastreo y la indexación a los bots. Es de todos conocido que Google renderiza e indexa con dificultad las páginas con JavaScript.

Sitemap XML

El sitemap es uno de los archivos fundamentales para Google debido a que garantiza el correcto rastreo e indexación de una web.

  • Cuanto más organizado mejor. Organiza el sitemap por verticales o carpetas.
  • Especifica un nombre que describa lo que contiene. Evita nombres demasiado genéricos como “sitemap 1”

Recomendaciones para el Sitemap xml

  • Un sitemap de imágenes, vídeos y por idioma.
  • Las URLs que incluyas serán siempre las más importantes, por lo que no incluyas páginas con redirecciones, sin etiqueta canonical, páginas con filtros, paginaciones…etc. Tampoco páginas poco relevantes como política de privacidad o cookies.

Robots txt

Junto con el sitemap, el archivo robots.txt es uno de los archivos clave en la indexación y el rastreo de una web. Así que, no olvides optimizarlo al máximo:

  • Haciendo referencia del sitemap xml para facilitar el rastreo lo máximo posible.
  • No bloquees carpetas importantes. Para ello puedes probar el probador de robots txt de Search Console y comprobar si estás bloqueando o no alguna carpeta o página importante

Probador de robots txt de Search Console

  • No bloquees páginas con redirecciones o canonical
  • Permite el acceso del Js y del Css

Etiquetas hreflang

  • Estos atributos completos ayudarán a Google a identificar en qué idiomas y en cuántos está la website.

Metarobots noindex y X-Robots-Tag

Estas directrices indican al bot qué páginas o carpetas no se deben indexar, pero no evitan el acceso de rastreo.

  • Las etiquetas con la directriz metarobots «no index» consumen presupuesto de rastreo, por lo que es vital no exceder su uso.
  • Header X-Robots se incluye en la cabecera a nivel de código y puede indicar a Google varias directrices, entre ellas la de no indexar la página.

Fuentes consultadas:

  • José Facchin: ¿Qué es el crawl Budget, qué importancia tiene para Google y cómo puedes mejorarlo?
  • SEOCOM Agency: ¿Qué es el Crawl Budget?
  • Big SEO Agency: ¿Qué es el Crawl Budget? Claves para optimizarlo
  • ContentKing: Crawl budget en SEO: guía de referencia
  • Mi posicionamiento web: ¿Qué es el Crawl Budget?
  • Luis Villanueva: ¿Qué es el Crawl Budget?
  • Neil Patel: Cómo Usar el Presupuesto de Rastreo de Google Para Mejorar el SEO de tu Sitio Web
  • Search Engine Journal: 7 tips to optimize Crawl Budget for SEO
  • Webmasters Google Blog: What crawl Budget means for Googlebot?
  • DeepCrawl: What is crawl budget?