¿Qué son las páginas huérfanas y cómo influyen en SEO?

Páginas Huérfanas

Para que un sitio web funcione y pueda mostrar las páginas que integra en su interior y que los usuarios puedan verlas, el mismo debe contar con una estructura de enlazamiento acorde que ayuda, en primer lugar, a que los mismos puedan visitar dichas páginas mediante un solo clic y que también sean rastreados por los robots y arañas de Google para que entren en los resultados de búsqueda. Cuando una página no está integrada a la estructura de enlaces se le llama “página huérfana”.

Pero, ¿Qué es exactamente una página huérfana? Vamos a abordar este término en detalle, junto a las consecuencias que puede tener desde el punto de vista SEO, por qué se da, cómo encontrar este tipo de páginas y solucionar el inconveniente que puedan ocasionar. ¡Vamos allá! ?

¿Qué son las páginas huérfanas?

Concretamente, una página huérfana es una página de un sitio web que, si bien puede estar o no indexada por Google u otro buscador, no conecta o enlaza con la estructura de páginas de la plataforma, quedando completamente aislada.

De esta manera, dicha página es como si «flotara» en el sitio sin poder ser alcanzada por los usuarios para visitarla, o por los robots de Google para mostrarse en un resultado de búsqueda, aún si es indexada. Inclusive, si una página está representada en el mapa de sitio XML con su correspondiente dirección URL, no se garantiza que no existan páginas huérfanas, ya que por cualquiera sea la razón o error humano la misma no puede ser alcanzada por el usuario o rastreadores de los buscadores.

que son las páginas huérfanas
Ejemplo de estructura web en silo donde se muestra una página huérfana

Por ejemplo, hay dos modos en los que se muestran las páginas de un sitio web:

  • mediante el rastreador que encuentra todas las páginas siguiendo los enlaces entre ellas y
  • mediante la lista de direcciones URL del mapa de sitio XML.

Cuando la página huérfana que se encuentra aislada existe, es como si fuese invisible así se encuentre en el sitemap, ya que al no tener enlaces que vayan a ella no es encontrada.

Esto acarrea una serie de problemas en cuanto a:

  • tráfico
  • pérdida de potencial
  • inconvenientes SEO
  • visibilidad
  • autoridad y
  • posibles penalizaciones

…entre otros que abordaremos más adelante en detalle. Por ahora, lo que queda claro es que las posibles páginas huérfanas, por grande o pequeño que sea un sitio deben corregirse, lo cual es posible y resulta una práctica común de mantenimiento.

¿Por qué ocurre que un sitio web tenga páginas huérfanas?

Hay varias razones por las cuales un sitio web tenga páginas huérfanas, inclusive sin que su dueño o desarrollador lo tenga en cuenta o lo sepa en algún punto. Frecuentemente, este tipo de páginas no convenientes en una plataforma web, se debe a cambios hechos que se hacen de mala manera, por lo que se acarrea de manera usual a un error humano.

A continuación, mostramos los principales escenarios en los cuales se generan o causan páginas huérfanas en un sitio web:

  • En ocasiones, se cambia el enlazado interno de páginas de un sitio web, lo que hace que se eliminen algunas direcciones Url al no ser necesarias, viejas o por optimización del sitio. Muchas veces, aunque se eliminen los enlaces, las páginas quedan en el sitio flotando sin ser completamente removidas.
  • Páginas de tipo prueba A/B con las que el usuario final no tiene contacto, que luego de utilizadas en el desarrollo del sitio permanecen allí, sin ser eliminadas.
  • Cuando una página de aterrizaje o landing page se genera temporalmente para llamar usuarios a ser clientes de un sitio, como en épocas de promociones, navidad u otras, y luego de pasado el periodo de tiempo se elimina dicha página, pero la URL indexada permanece.
  • Cuando se elimina una categoría del menú del sitio, pero no se redirige de manera correcta a otro creado en su lugar, quedando la página remanente sin enlaces en la plataforma.
  • Durante una migración de sitio, se suelen generar numerosas páginas huérfanas que cambian de formato, dirección y parámetros, pero no se eliminan y que se desconectan y aíslan del sitio.
  • Cuando se utiliza un template para montar una web, y se dejan páginas de plantilla por defecto que luego se olvidan de eliminar

Por otra parte, hay dos causas comunes de páginas huérfanas que deben abordarse y tratarse de inmediato; éstas son esencialmente páginas duplicadas que deberían redirigir automáticamente de manera consistente a una sola URL. Concretamente hablamos de consistencia de uso de HTTPS y HTTP coherente en páginas canónicas y no canónicas, así como utilización de las barras inclinadas.

Si no es así, es probable que algunas versiones de la página no estén vinculadas y, como resultado, sean huérfanas. En este caso, el hecho de que sean huérfanas no es el problema principal sino el hecho de que sean duplicados y que vayan a generar problemas de penalización o pérdida de indexación, entre otros y que se traducen en Google como contenido copiado o de mala calidad. Lo abordaremos más adelante en la sección de solución de páginas huérfanas.

¿Benefician o perjudican al SEO las páginas huérfanas?

Las páginas huérfanas representan un problema desde el punto de vista SEO, de visibilidad, autoridad, pérdida de contenido y tráfico, de acuerdo a la cantidad de ellas que existan en una plataforma. Es decir, que una plataforma tenga una, dos o pocas páginas huérfanas podrían no acarrear ningún problema, pero cuando ocupen un gran porcentaje del sitio, allí es donde empiezan los inconvenientes.

El optimizar un sitio para que no presente ninguna página huérfana es importante para el SEO y en otros aspectos, y jamás podría decirse que benefician al sitio, sino que más bien lo perjudican cuando son demasiadas.

En primer lugar, los motores de búsqueda no pueden encontrar páginas huérfanas a través de enlaces, por lo que las páginas huérfanas a menudo no se indexan y nunca aparecen en los resultados de búsqueda, afectando su tráfico, visibilidad y potencial, pero abordaremos eso con más detalle más adelante en su sección propia.

Problemas generales que causan las páginas huérfanas

A continuación, algunos inconvenientes de naturaleza general que ocasionan las páginas huérfanas, especialmente cuando cubren una parte importante de la estructura de enlaces y direcciones URL del sitio:

  • Experiencia de usuario: las páginas huérfanas, por poco probable que parezca, afectan de gran manera la experiencia de usuario de un sitio, ya que los mismos no pueden visitar de manera natural una página mediante un menú un enlace de interés que los lleve a lo que buscan, inclusive si existe la página y tiene calidad de contenido.
  • Autoridad: si páginas importantes llegan a hacerse huérfanas y pierden su enlazamiento respecto a las otras direcciones URL del sitio, toda la autoridad que pudiera tener se desperdicia y eso afecta de manera directa el posicionamiento en resultados de búsqueda de Google, ya que es un factor SEO importante para el buscador en la manera en que ordena los resultados respecto a una palabra clave concreta.
  • Contexto: el enlazamiento interno de un sitio les da contexto a los rastreadores de Google para saber cómo indexar la página y para cuáles búsquedas es importante y relevante. Las páginas huérfanas le hacen perder contexto y sentido semántico al sitio y a las páginas en sí, en caso de que se indexen.

No obstante, cuando las páginas huérfanas están presentes en grandes cantidades, su impacto es mucho más notorio en lo que respecta a ranking, tráfico y rastreo, por lo que son problemas que deben abordarse por separado y más extensamente.

Problema de página con poca visibilidad y tráfico

Las páginas huérfanas tienen una influencia negativa notable en lo que tiene que ver directamente con ranking o posicionamiento del sitio y página concreta afectada, así como su tráfico. Y es que, como se ha mencionado anteriormente una página huérfana está aislada y resulta invisible, tanto para el usuario que no puede encontrarla en el sitio de manera natural mediante un botón o clic, ni tampoco a través de los rastreadores de Google u otros buscadores.

Esto de manera clara afecta el tráfico del sitio y página, así como la visibilidad del mismo al no recibir muchos usuarios y también gracias al mal o nulo lugar que tienen las páginas huérfanas en los resultados de búsqueda. Como consecuencia, se lidia con una pérdida total de potencial del sitio y página, especialmente si la misma incluye contenido de calidad respecto a productos, servicios y otros temas. El impacto en el tráfico y visibilidad también tiene como efecto pérdida de autoridad y relevancia de un sitio respecto a su nicho o industria frente a los competidores.

Problema de pérdida de rastreo

Google como buscador indexa las páginas de un sitio de acuerdo a lo que se conoce como presupuesto de rastreo o Crawl Budget, el cual puede describirse como el tiempo que van a pasar los rastreadores o arañas del buscador encontrando páginas para indexar. Mientras más páginas tengan el sitio, más tiempo requerirá, es decir, más presupuesto de rastreo.

Aquí es donde la optimización de estructura web de sitio, arquitectura y otros elementos entra en juego, como las páginas huérfanas. Si un sitio tiene páginas huérfanas irrelevantes, de igual manera consumirá presupuesto de rastreo, el cual se desperdicia y podría ocasionar que páginas con buena salud y contenido no se indexen, afectando resultados de búsqueda y tráfico. En pocas palabras, las páginas huérfanas representan un gasto de recursos que Google no está dispuesto a pasar.

Diferencia entre páginas huérfanas y páginas sin salida o Dead End

En lo que respecta a SEO, el término de página huérfana puede confundirse con el de página sin salida o «Dead End», debido a que representan problemas similares, pero no son lo mismo. Ya hemos definido anteriormente que son las Orphan Pages, avancemos con las dead end:

Una página sin salida es una página que no se enlaza con ninguna otra del enlazamiento interno del sitio, ni tampoco con otra plataforma web externa, es decir, una vez que aterrizas en ella, no puedes salvo cerrarla y salir.

Cuando los rastreadores de un buscador como Google caen en una página sin salida, no tienen a donde ir y de allí viene su nombre que hace analogía a una calle sin salida.

¿Cómo encontrar páginas huérfanas en tu sitio?

Para empezar a solucionar las incidencias relacionadas con páginas huérfanas u Orphan Pages, lo primero que tenemos que hacer es encontrarlas, ya que de manera obvia no se muestran a simple vista ni como usuario del sitio ni como desarrollador. Afortunadamente, se pueden emplear distintas herramientas como software SEO que analizan al detalle toda la estructura de nuestra web, obteniendo a través de los logs del servidor la imagen completa de todas ellas.

Si necesitas un potente Software SEO que te ayude no solo a localizar páginas huérfanas sino a potenciar y mejorar tu estrategia SEO, ¡no dudes en consultar el programa de desarrollo propio de SEO Alive!

Reconociendo páginas huérfanas con Screaming Frog

Como comentábamos hay varios programas en el mercado que te ayudan a identificar estas páginas huérfanas, nosotros nos vamos a centrar en explicar de manera sencilla como hacerlo con uno de los más conocidos, Screaming Frog.

Screaming Frog cuenta con dos programadas diferenciados, el más conocido por todos, que te hace un crawler de la web completa, siguiendo los enlaces internos que encuentra, y log analyser, que esta parte lo que analiza son los logs de acceso del servidor, es decir, los registros que quedan cuando Google bot (u otro user agent) entran a visitar alguna de nuestras páginas.

Con el primero vamos a extraer un fichero que liste el total de URLs que encuentra el crawler navegando, será un fichero Excel que podemos encontrar en la parte de reports en “all inlinks”:

como encontrar orphan pages
Como encontrar páginas huérfanas con Screaming Frog

Bien, una vez que tengamos este fichero, cogemos los logs de nuestro servidor, serán un fichero normalmente comprimido de los registros antes mencionados, y lo volcamos en log analyser de Screaming Frog, de manera que aquí tendremos un panel donde aparecerán todas las URLs que Googlebot ha visitado en el período de tiempo que los volquemos, estén o no enlazadas.

El último paso será volcar el fichero en Excel del paso de antes, en la sección habilitada de log analyser para ello, y se nos habilitará una pestaña nueva al hacerlo con las siguientes opciones:

orphan pages log analyser

  • Matched with URL data: Este será el conjunto de URLs que están enlazadas internamente y que han sido visitadas por Google.
  • Not in log file: Aquellas URLs que están enlazadas pero que por algún motivo no están recibiendo eventos (visitas) por parte de Google.
  • Not in URL data: Este es el grupo que nos interesa en este caso, son aquellas URLs que Google está visitando, dejando constancia en los logs, pero que el crawler no ha sido capaz de encontrar haciendo la simulación, al no estar enlazadas internamente, es decir son nuestras buscadas Páginas Huérfanas (Orphan Pages)

De este tercer grupo, sacaremos el listado de páginas que catalogaremos como huérfanas, siendo fundamentalmente objeto de nuestra optimización, aquellas que nos devuelvan un código de estado 200.

¿Cómo solucionar el problema de las páginas huérfanas?

En general y manualmente, hay cuatro cosas que se pueden hacer en caso de tener direcciones URL que no están integradas en el enlazamiento interno, donde hay que tomar algunas decisiones:

  1. En primer lugar, si luego de una migración hay páginas huérfanas, como es posible las habrá, y se revisan y muchas de ellas tienen poco contenido relevante, nulo o duplicado, lo mejor que se puede hacer es eliminar y en su caso agregar una redirección de tipo 301 hacia páginas similares o destacadas en el sitio con más autoridad.
  2. En segundo lugar, si por alguna razón alguna página huérfana se quiere conservar por razones de buen contenido, autoridad y   tráfico, el paso a seguir es enlazarla con una dirección URL del sitio que tenga contenido relacionado, y que sea sencilla de alcanzar por los usuarios y por Google. Por supuesto, cabe acotar que la URL de la página debe incluirse en el mapa de sitio.
  3. En tercer lugar, si aparecen numerosas páginas huérfanas pero la naturaleza de las mismas es temporal y su contenido ya ha caducado al incluir promociones y contenido relacionado a una época, hagamos lo mismo que en el paso anterior y enlacemos la página con otra interna con relevancia y que sea accesible. Sin embargo, en este caso hacemos que esa URL no se indexe al incluir una meta-etiqueta de tipo «noindex» para que no sea tomada en cuenta por rastreadores.
  4. Por último, en el caso de páginas huérfanas con contenido duplicado o casi duplicado, habría que considerar eliminar dicha página e incluir el contenido en otra para no perderlo y seguir aprovechando su potencial general.

Conclusión

Las páginas huérfanas son un elemento natural que van a aparecer en un sitio web por varias razones, y que cuando no se exceden o su cantidad no se incrementa exponencialmente no representan ningún problema.

En cambio, cuando un gran porcentaje de un sitio web y su enlazamiento interno está conformado por páginas de este tipo, puede generar muchos problemas en cuanto a rastreo, posicionamiento y tráfico que tiene que ver con SEO, así como autoridad, experiencia de usuario, entre otros problemas que hacen necesario que se aborden.

La buena noticia es que las páginas huérfanas pueden solucionarse de distintas formas, pero siempre en un proceso de análisis lo que hay que preguntarse es si cada página huérfana concreta es relevante para el posicionamiento, por contenido y se puede enlazar con otra, y cuando no sea el caso simplemente eliminarlas.

Y tú querido lector/a…¿Conocías la existencia de páginas huérfanas? ¿Te has encontrado con este elemento en algún proyecto tuyo o de tus clientes? Déjanos un comentario y te contestaremos al respecto. ¡Muchas gracias y hasta la próxima!

Sobre el autor:

Ayúdanos compartiendo este artículo por favor

Artículos relacionados

Diccionario SEO
Tutoriales SEO

Diccionario SEO

CRO, SERPs, backlink… ¿aún no conoces estos términos? Conoce estos conceptos y muchos más en este diccionario SEO totalmente actualizado. Tanto si tu intención es

Read More »

Deja un comentario

INFORMACIÓN BÁSICA SOBRE PROTECCIÓN DE DATOS