como usar el robots.txt y el sitemap xml

Cómo usar el robots.txt y sitemap.xml

Dos de los principales factores SEO que debes utilizar para conseguir que una web mejore su posicionamiento en Google son la indexación y el rastreo.

El robot.txt y el sitemap.xml son dos archivos que te van a ayudar enormemente a la hora de facilitar la indexación y el rastreo de cualquier URL de una web.

 

Cómo usar el robot.txt y el sitemap.xml

¿Qué es la indexación?

La indexación hace referencia al conjunto de URLs de tu web que aparecen en la base de datos de Google y que por lo tanto muestra en sus resultados de búsqueda.

El archivo que recoge todas esas URLs que Google debe indexar (mostrar en la SERP o Página de Resultados ) es el archivo sitemap.xml.

XML Sitemap-ejemplo (1)
sitemap con las URLs de la web guiomarvelasco.com

¿Qué URLs deben estar indexadas y aparecer en el sitemap ?

Todas las páginas o URLs que queremos que nuestros clientes o usuarios encuentren cuando buscan en Google una consulta relacionada con nuestros productos o servicios, ya sean páginas o artículos del blog o videos o imágenes etc.

Por ejemplo; si soy una agencia de marketing y vendo servicios SEM  y SEO querré que mis servicios aparezcan cuando alguien busque servicios SEM o servicios SEO y también querré que mis artículos del blog relacionados con esos temas aparezan indexados.

Para saber qué URLs de una web tiene indexadas Google introduce el comando:

Site:// ejemplo. com  en la barra de búsqueda de Google.

 

¿Qué paginas no debes indexar?

Todas las URLs de nuestra web que no queremos que nadie encuentre a través de Google.

Por ejemplo:

  • la página de política de privacidad y de cookies.
  • Los artículos desactualizados de mi blog que no voy a actualizar o que no tienen tráfico
  • Las páginas con errores 404 o de otro tipo

 

 

[et_bloom_inline optin_id="optin_3"]

¿Cómo crear el sitemap.xml de una web?

Puedes hacerlo manualmente, escribiendo una URL por línea en un archivo de tipo xml (no lo recomiendo porque es pesado y puedes equivocarte) , puedes utilizar un generador de sitemaps online o si utilizas WordPress puede usar un plugin gratuito como puede ser SEO Yoast.

Una vez creado debes enviar el sitemap a Google con Search Console.

 

Generar el sitemap en wordpress con SEO Yoast

Si tienes wordpress puedes utilizar un plugin SEO tipo Yoast SEO.

Debes activar la opción de MAPAS DEL SITIO XML (dejando la opción ACTIVO, como aparece en la imagen) y automáticamente se genera el sitemap con todas las URLs que deben estar visibles para Google.

De esta manera no tienes que preocuparte de crearlo o modificarlo porque cada vez que creas una nueva url en tu web lo actualiza por tí.

opcion-sitemap-seoyoast
Sitemap activado en Seo Yoast

¿Qué es el rastreo?

El rastreo o crawling por su parte es el proceso por el cual el robot de Google detecta todas las URLs que encuentra en internet.

Es como el ojo de mordor que todo lo ve.

De esta manera identifica qué URLs nuevas aparecen y desaparecen y así mantiene los resultados que muestra a los usuarios permanentemente actualizados.

Diferencia entre rastrear e indexar

La diferencia fundamental entre rastrear e indexar es que el rastreo permite la detección de las URLS y la indexación permite la publicación en la BBDD de Google de esas URL.

Es decir, el rastreo es previo a la indexación.

La detección de una URL es necesaria antes de situarla en un lugar concreto dentro de un mapa de un sitio web.

El presupuesto de rastreo en Google

El robot de Google debe mirar y detectar millones de urls en todo internet, lo cual es un trabajo ímprobo que le consume TIEMPO. 

El  presupuesto de rastreo de Google es el tiempo que dedica a rastrear cada página web.

Para facilitar la tarea de rastreo de URLs a Google se crea el archivo robots.txt de una web. Esto ahorra tiempo a Google porque le dice qué debe mirar y qué no. Por lo tanto es un factor SEO que importa.

¿Qué es el robots.txt?

Es el conjunto de directrices que le damos al robot de Google sobre qué URLS  de nuestra web debe rastrear (detectar) y cuales no.

Por ejemplo, si tenemos un wordpress podemos decirle a Google que no queremos que rastree  ninguna URL que haya dentro de nuestra zona de administración, porque es una zona privada.

Qué debes indicar en el robots.txt

Los dos únicos comandos que se utilizan en el robots.txt son Allow (permitir) y Disallow (no permitir). 

Por defecto, el comando vigente siempre es el Allow, por lo que para impedir al bot de Google que rastree alguna URL debemos indicarlo expresamente con un Disallow.

En nuestro ejemplo, Si queremos decirle que no  rastree la zona privada de administración de wordpress debemos expresarlo asi:

Disallow: /wp-admin/

Ejemplo de un archivo robots.txt estándar de una web 

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Sitemap: https://guiomarvelasco.com/sitemap_index.xml

Donde

User-agent: *

Hace referencia todos los robots de rastreo. No solo al de  Google, de ahí el *.

Disallow: /wp-admin/

Donde el comando disllawoy le dice al robot que no rastree ninguna url dentro del directorio wp-admin

Allow: /wp-admin/admin-ajax.php

Donde le digo a Google que hay una excepción, en el caso del archivo admin-ajax.php  que está en el drectorio wp-admin y sí debe rastrearlo.

Sitemap: https://guiomarvelasco.com/sitemap.xml

Donde le digo dónde puede encontrar el sitemap de mi web. 

Es conveniente indicar en el robot.txt dnde está el sitemap de nuestra web ya que este archivo es lo primero que el robot de Google va a mirar. 

Así le damos toda la info mascadita.

 

Cómo generar el robot.txt

Puedes hacerlo manualmente ya que es un archivo de texto donde escribiremos las directrices que queremos darle al robot de Google (como en el ejemplo de arriba).

Si tienes un wordpress también peudes usar el plugin SEO Yoast en su pestaña de herramientas. De manera general generará automáticamente la directriz básica. 

ejemplo-robots-txt-seo-yoast
Archivo robots.txt generado por Seo Yoast

También puedes subirlo directamente al directorio raiz de tu wordpress en el hosting donde lo tengas alojado. En concreto en la carpeta Public.html de tu hosting.

robot en hosting
Archivo robots.txt en carpeta public.hmtl del hosting

¿Son obligatorios el sitemap y el robot.txt?

No son obligatorios pero si muy recomendables si estas haciendo SEO.

Tampoco son vinculantes, es decir, Google puede rastrear o indexar URLs independientemente de las directrices dadas, pero no es lo normal.

De manera general Google sigue las instrucciones que le damos en estos archivos.

¿Puede haber páginas indexadas en el sitemap y bloqueadas en el robots.txt?

Si, hay veces que aunque hayamos bloqueado una URL en el robot.txt  Google haya llegado a ella a través de los enlaces internos y externos que llevan a dicha página y al estar bloqueada por el robots.txt no puede leer que no debe indexarla.

Ejemplo de uso

Como ejemplo de uso, en este caso malintencionado,  os dejo este tan polémico de Iberdrola y su tarifa de gas regulada, donde a través de las metaetiquetas o directivas:

NO INDEX NO FOLLOW

escritas en una de sus paginas donde mostraba los precios regulados, le estaba diciendo a Google que no la indexara, es decr que no la mostrara en su página de resultados de búsqueda. Ni siguiera los enlaces internos. De esta manera no aparecería cuando los usuarios la buscaran. 

Es decir, la ha quitado de su sitemap.xml aunque no ha prohibido a Google su rastreo expresamente a través de un disallow en el robot.txt.

iberdrola-no-index

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *