SEO y SEM

Tendencias, novedades, noticias y tips del mundo de SEO y SEM

🚀 SEO y SEM

08 May 2018
2 comentarios

Robots.txt y su influencia en las estrategias SEO

1 Star2 Stars3 Stars4 Stars5 Stars (3 votes, average: 5,00 out of 5)
Cargando…
Ester Ribas

Uno de los objetivos principales de las estrategias de posicionamiento es asegurar que los buscadores puedan rastrear e indexar los contenidos correctamente. Para ello, existen distintas formas de comunicarse con los Bots, Crawlers o arañas de Google que rastrean y ayudan a indexar nuestros contenidos para posicionarlos en buscadores. Es aquí donde entran los robots.txt.

Índice de contenidos

Las palabras clave, etiquetas y las técnicas SEO juegan un papel importante, ya que ayudan a las arañas a encontrar y rastrear nuestras páginas para indexarlas en las primeras posiciones de los buscadores. Además, los sitemap.xml entregan una guía o índice para encontrar las páginas que se pueden rastrear. Este último archivo puede estar complementado con un robots.txt, también conocido como protocolo de exclusión de robots. Gracias a este informe, podemos informar a las arañas de Google sobre las páginas que nos interesa indexar y las que no.

A continuación, vamos a mostrar cómo podemos desindexar páginas con robots.txt y cómo podemos indexar de manera automática páginas con Google Search Controle. De esta manera, solo aparecerán en los buscadores aquellas páginas que realmente no interesa que aparezcan.

Archivo Robots.txt

Antes de empezar a rastrear nuestra web, las arañas de los buscadores pasan por el archivo robots.txt. En este archivo los bots se encuentran órdenes de ejecución que nos permitirán:

  • Denegar el acceso a determinadas páginas o directorios con el objetivo de evitar la indexación.
  • No permitir que ciertas partes del código de nuestra web sea indexado.
  • Evitar la indexación de contenido duplicado causado por parámetros o paginaciones por ejemplo.
  • Mostrar el sitemap XML para facilitar el rastreo de la web.

Tipos de archivos que podemos excluir con robots.txt

Antes de desindexar cualquier página, es importante que entendamos cómo funcionan los robots.txt para así, excluir las páginas correctas y no contenido importante. Los tipos de archivo que podemos excluir de la indexación son los siguientes.

  • Páginas web: Excluir páginas web puede servirnos para evitar que el rastreador muestre páginas o contenido poco relevante para el público, perjudicando nuestro posicionamiento SEO.
  • Imágenes: Podemos evitar que los archivos de imagen aparezcan en los resultados de la búsqueda. Se puede utilizar para que no se indexen imágenes de archivo.
  • Otros recursos: También podremos bloquear archivos como por ejemplos scripts o elementos con poca importancia para los usuarios.

Crear un archivo Robots.txt

Generar un archivo Robots.txt es relativamente fácil. Este es sencillamente un documento .txt donde escribimos determinadas órdenes con un lenguaje que ahora detallaremos. Una vez creado, lo subiremos a la raíz del dominio. (www.midominio.es/robots.txt)

Sintaxis de Robots.txt

Antes de empezar a detallar los principales comando del archivo Robots.txt tenemos que saber que es muy importante la correcta escritura de estos. Es decir, tenemos que respetar los espacios, las mayúsculas o minúsculas y únicamente introducir comandos permitidos.

Los principales comandos son:

  • User-agent: con este comando estamos indicando a qué robot le estamos obligando a cumplir ciertas acciones. No solo podemos encontrar el GoogleBot (crawler de Google), también está el de Bing, Yahoo y un gran repertorio de ellos. También existen bots maliciosos (malware) que rastrean nuestra web para robar información o para otros objetivos oscuros.
  • Disallow: No permite que los bots accedan a una determinada parte de nuestra web
  • Allow: Todo lo contrarío que el comando Disallow. Le estamos dando acceso completo a los bots.
  • Sitemap: introduciendo la URL de nuestro sitemap facilitaremos el rastreo de toda nuestra web.
  • Crawl-delay: es para estipular cuántos segundos tiene que esperar el bot para saltar a otra página.
  • * (Asterisco): El asterisco tiene el mismo valor que una secuencia completa de caracteres. Por ejemplo, todos los directorios que empiecen por “page” sería “/page*/ (para evitar contenido duplicado con la paginación)

Ejemplo de archivo Robots.txt

Vamos a detallar un ejemplo de archivo robots.txt sencillo para acabar de comprender el funcionamiento de este.

Robots

Como podemos observar en la primera línea estamos indicando que las funciones del archivo son válidas para todos los bots.

En la segunda y tercera línea le estamos denegando el acceso a las partes más privadas de WordPress. Aclarar que este archivo Robots.txt es de WordPress, cada web tiene sus propias necesidades y por esa razón no existe un archivo Robots.txt universal.

En la cuarta línea, le estamos denegando el acceso a las paginaciones de la web. Y por último, en la quinta línea le indicamos el sitemap.

Subir el archivo Robots.txt

Una vez hechas las definiciones anteriores, se deben realizar los siguientes pasos:

  • Guardar el código como archivo de texto (.txt) con el nobre “robots”.
  • Ubicarlo en el directorio de nivel más alto del sitio (http://www.ejemplo.com/robots.txt)

Una vez realizados estos pasos, podemos revisar que todo esté en orden en el probador de robots.txt de Google.

Debemos tener en cuenta pero, que algunos robots no respetan el archivo y por tanto, indexan el contenido de todas formas. Por esto, es importante que si disponemos de información sensible que no debe mostrarse al público, siempre deberemos protegerla con métodos adicionales. Un ejemplo serían las contraseñas.

El archivo Robots.txt es vital para cualquier web y su correcta creación, nos puede evitar serios problemas que impedirían nuestro posicionamiento SEO.

¿Quieres saber más? En el Master de SEO y Posicionamiento en Buscadores aprenderás todo lo que se tiene que saber de optimización On Page y por supuesto de nuestro aliado: el archivo Robots.txt.

Otros artículos que te pueden interesar:

Master de SEO y Posicionamiento en Buscadores

Aprende cómo diseñar y ejecutar las fases del desarrollo de una estrategia SEO

¡Me apunto!

Comparte y comenta este artículo!

Ideas, noticias y mucha formación en tu bandeja de correo
Suscríbete ahora y recibe los mejores contenidos sobre Emprendedores, Marketing, Negocios e Internet

2 comentarios en “Robots.txt y su influencia en las estrategias SEO”

  1. Sin duda alguna nos han salvado, seguimos sus ideas para incluir el sitemap en nuestro archivo “robots.txt”.

    Gracias por la ayuda, tienen a un lector más.

    Desde nuestra agencia les mandamos un saludo a todo su equipo.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

SUSCRÍBETE AL BLOG

Ideas, noticias y mucha formación en tu bandeja de correo
Sucríbete ahora y recibe todo el contenido de nuestro blog

SUBCATEGORÍAS

LO MÁS LEÍDO HOY

BUSCA EN EL BLOG

IEBS EN LAS REDES

Si lo prefieres puedes seguir nuestro RSS: