Fases y elementos del proceso de Crawling

Crawling

Crawlear, rastrear, arañas, son términos que cualquier SEO está acostumbrado a manejar en su día a día, y que tienen un peso esencial en cualquier estrategia de posicionamiento, puesto que, si esta fase falla, el resto también lo hará.

Veamos detalladamente en qué consiste un proceso de crawling web.

¿Qué es crawlear una web?

Antes de avanzar más, vamos a definir el proceso de crawleado de una web, demostrando la importancia que tiene dentro de cualquier intento de aparecer en los resultados de búsqueda de Google.

Se entiende por crawlear o rastrear una web el proceso por el cual las arañas o crawlers realizan un recorrido por las diferentes páginas de una web, recopilando toda la información accesible, para almacenarla, procesarla y posteriormente clasificarla.

Conviene resalta una serie de términos fundamentales dentro de la definición que acabamos de exponer:

  • Recorrido: Pensemos efectivamente en una araña. Este amable insecto tiene que pasar por cuantas más páginas posibles para extraer cuanta más información mejor. Para pasar de una página a otra lo va a realizar a través de los enlaces internos que las unen. De ahí la importancia de tener un correcto enlazamiento interno que posibilite a dichas arañas “descubrir” si no la totalidad, sí al menos las páginas más relevantes para nosotros.
  • Accesibilidad: La información tiene que ser accesible para dichas arañas. Es decir, si de alguna forma estamos limitando su acceso intencionada o erróneamente, estaremos evitando que las arañas puedan procesar todo el contenido, por tanto, entender y finalmente clasificarlo.

Dicho bloqueo o limitación del contenido de las páginas puede producirse de varias maneras diferentes, que trataremos de explicar más avanzado el presente post.

Los rastreadores

Hemos hablado de las arañas, también conocidas como crawlers o rastreadores. Podemos definirlos como programas que analizan los documentos de nuestra web, es decir, son como “bibliotecarios” que buscan, clasifican y ordenan. Su principal función por tanto es la de crear bases de datos. Existen de varios tipos, según la clase de información que recolecten. Vamos a citar algunos de los más comunes

Googlebot: La araña encargada de rastrear nuestro contenido y categorizarlo dentro de los resultados orgánicos (SERPs). Para los SEOs es el que más peso tiene.

Dentro de este tipo podemos diferenciar algunos subtipos:

  • Googlebot (smartphones): Versión móvil
  • Googlebot (versión desktop): Versión escritorio
  • Googlebot Images: Encargado de rastrear las imágenes
  • Googlebot News: Para las noticias
  • Googlebot Video: Ahora le toca el turno a los vídeos

Ejemplo de bot identificado en nuestros logs:

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z‡ Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

No son los únicos, existen otros tales como Adsbot, Adsense, etc., habiendo mencionado ya los relevantes al sector SEO, no es motivo del contenido de este artículo diferenciarlos al resto, pero se puede encontrar información complementaria en el siguiente enlace oficial de Google.

Fases del proceso de rastreo e indexación de Google

Ahora que ya sabemos qué es el crawling, quienes son los encargados de realizar esa función y hemos hablado del proceso, veámoslo de manera más específica.

Primera fase: rastreo y clasificación

El proceso por el cual nuestras páginas aparecen en los resultados de Google pasa por una primera fase como hemos visto de rastreo (crawling), realizada por las arañas (crawlers), de manera que leen, interpretan, indexan y clasifican nuestro contenido.

Es esta nueva palabra la que queremos analizar en detalle, clasificar. Google tiene que entender perfectamente nuestro contenido, de manera sencilla y rápida, porque como veremos más adelante, Google pasa un tiempo concreto en nuestra web, con lo cual en ese tiempo debe “entender” nuestro contenido y asociarlo a las diferentes intenciones de búsqueda de los usuarios.

De ahí que en el SEO moderno se oiga tanto la palabra “Search Intent”, ya que Google la va a tener en cuenta en dicha clasificación y va a definir la posición que ocupen nuestras páginas en los rankings de las SERPs.

Es por eso que el proceso de crawleado tiene que ser limpio, sencillo, rápido, sin obstáculos, etc., para que todo quede claro y nos clasifique correctamente.

Fase dos: Indexación

No podemos olvidar la fase de indexación, previa a dicha clasificación y que igualmente juega un papel fundamental, ya que será el paso en el que Google añada nuestro contenido a su base de datos, es decir lo indexa.

crawling web

Bloqueando a los robots de Google

Antes mencionábamos que hay formas por las que podríamos estar limitando el acceso a estas arañas a nuestro contenido. Para esto existe un elemento de vital peso en el SEO conocido como robots.txt

El fichero robots.txt es un fichero de texto que subimos a nuestro servidor, en el cual le damos instrucciones precisas a las diferentes arañas para permitirles o bloquearles el rastreo a Urls de nuestra web. Este bloqueo se puede hacer:

  • desde a todo el dominio
  • un path concreto
  • una url específica
  • o un conjunto de Urls que cumplan un determinado patrón.

Veamos como es un ejemplo de configuración de este archivo:

User-agent: *

Disallow: /wp-admin/

Allow: wp-admin/admin-ajax.php

Sitemap: https://seoalive.com/sitemap_index.xml

Como vemos, tiene una primera línea donde especificamos el user-agent (el nombre del rastreador que queremos bloquear o permitir, de los vistos anteriormente), seguido de las órdenes «disallow» para prohibirle que entre o «allow» para permitirle.

En el caso concreto que vemos, al indicar con un * estamos diciendo que son «todos los crawlers», sin excepción. Les estamos prohibiendo que entren en el path /wp-admin/, pero dentro de ese path queremos permitirle que entren en /admin-ajax.php

Una incorrecta configuración de este archivo, puede ocasionar que estemos bloqueando partes importantes de nuestro contenido. Es un error común, tener la web entera bloqueada mientras se está desarrollando, y luego olvidar quitar dicho bloqueo, habiéndola puesto en producción ya, pero no estando accesible a Google.

Otro problema que podrían encontrar las arañas de Google a la hora de rastrear nuestro contenido es el no ser capaz de seguir los enlaces internos que tenemos en nuestra web, y por tanto no acceder al resto de Urls. Esto pasa cuando utilizamos elementos javascript en vez de «href» en dichos enlaces. Esta práctica es muy común, ya que el uso de JS tiene bastantes ventajas a nivel usuario, pero si no se utiliza correctamente, y se añade en los enlaces internos, Google puede no ser capaz de seguirlos.

A esto se le conoce en el mundo del SEO como «ofuscar enlaces«. A día de hoy, es un debate abierto si Google es capaz de rastrear y renderizar correctamente páginas hechas en JS.

Códigos de respuesta del servidor

Para seguir entendiendo bien este proceso, no podemos pasar por alto un concepto con el que los SEOs nos tenemos que pelear a diario, los códigos de respuesta del servidor.

Antes hemos visto el ciclo para que Google nos encuentre, pero ¿cómo ocurre esto? Un usuario realiza una búsqueda (una query) en Google. El motor de búsqueda acude a su base de datos y muestra los resultados (SERPs) más afines, según la clasificación hecha, a dicha búsqueda.

Una vez el usuario ve los diferentes resultados (impresiones), hace clic en uno de ellos, el que a su criterio mejor se adapte a lo que necesita. En ese momento entra en juego la petición por parte de Google al servidor donde esté alojada la web, para que éste “sirva” el contenido.

Cuando esto ocurre se produce la respuesta del servidor mediante el pertinente código. Vamos a nombrar los más relevantes y que como SEOs debemos de tener en cuenta:

  • 200: Este código de respuesta es el que le dice que la página existe, que tiene contenido y que no hay problema para que lo muestre. Es el más deseado por los SEOs, siempre y cuando el contenido de dicha página con código 200 sea óptimo.
  • 30x: La familia de status code 30x corresponden a las redirecciones. Las más destacadas son 301 (permanente), 302 y 307 (temporales). Básicamente le dicen a Google “oye esta Url A que me has pedido ahora no es esta, sino que es esta otra Url B”. Existen más, pero no son motivo del concepto que estamos desarrollando. Es importante saber que, como SEOs, los preferidos son los 301 que traspasan toda la autoridad.

Lectura Recomendada: Tutorial sobre las redirecciones 301

  • 40X: Códigos de error. Los menos deseados por los SEOs. El más común es el famoso 404. Cuando este código aparece, le estamos diciendo a Google ante su petición de una Url, que ya no existe y que por tanto es un error.
  • 410: Este lo hemos querido sacar aparte de la familia de los 40x por su valor SEO. Cuando utilizamos este código, ante una petición a nuestro servidor de Google de una url, le estamos diciendo que se “ha ido definitivamente”. Es interesante porque, a diferencia del 404, Google entiende que ya nunca más estará y dejará de intentar rastrearlo, mientras que el 404, lo volverá a rastrear pensando que podemos querer solucionarlo.
  • 50x: Este tipo de respuesta está vinculada a errores del servidor. Cuando nuestra máquina falla por algún motivo, y Google intentan pedirnos el contenido de alguna Url, si el servidor falla, devuelve un status code 505.

Crawl Budget: Presupuesto de rastreo

En este punto del post, ya nos queda abordar un término que se popularizó hará un par de años en el mundo SEO, conocido como crawl Budget.

El crawl budget o presupuesto de rastreo hace referencia al tiempo que las arañas de Google emplean en rastrear una web y todas sus Urls. Es, como decíamos anteriormente, un tiempo finito. De ahí la importancia de tener nuestra web, optimizada, con el fin de facilitar que en ese tiempo, vea las páginas más relevantes de nuestra web.

Este tiempo que los crawlers emplean en recorrer nuestra web no es un valor fijo, irá creciendo o disminuyendo en función de aspectos tales como la frecuencia con que actualicemos el contenido, la autoridad de nuestro dominio (popularidad), etc.,

A mayor calidad de nuestra web, mayor autoridad y mayor contenido fresco, Google nos considerará más relevantes y destinará más presupuesto a rastrearnos.

Con programas de rastreo tales como screaming frog, realizamos crawleados (rastreos) simulados idealmente de nuestra web, es decir, como si las arañas tuvieran todo el tiempo del mundo en recorrer todas y cada una de nuestras Urls.

Pero esto cuando hablamos de Googlebot no es así, sino que Google cada vez que visite nuestra web, visitará en mayor medida unas urls frente a otras, de hecho, puede que haya algunas que ni visite, esto lo analizaremos con lo que se conoce como los logs del servidor, (registros de qué urls ha rastreado Google, con que frecuencia lo ha hecho y cuantas veces en un período determinado).

Hasta aquí todo el análisis referente a entender qué es el crawling y los diferentes elementos que forman parte del sistema de rastreado de Google.

¿Alguna duda o sugerencia? Como siempre.. ¡estaremos encantados de leerte!

Sobre el autor:

Ayúdanos compartiendo este artículo por favor

Artículos relacionados

Deja un comentario

INFORMACIÓN BÁSICA SOBRE PROTECCIÓN DE DATOS