Robots.txt y su influencia en las estrategias SEO

Ester Ribas

CategoríaSEO y SEM

Robots.txt y su influencia en las estrategias SEO

Ester Ribas el 8 Mayo, 2018 15 Junio, 2018

Tiempo de lectura: 5 min

0

Uno de los objetivos principales de las estrategias de posicionamiento es asegurar que los buscadores puedan rastrear e indexar los contenidos correctamente. Para ello, existen distintas formas de comunicarse con los Bots, Crawlers o arañas de Google que rastrean y ayudan a indexar nuestros contenidos para posicionarlos en buscadores. Es aquí donde entran los robots.txt.

Índice de contenidos

¿Qué son los archivos Robots.txt?
¿Qué tipo de archivos podemos excluir con Robots.txt?
¿Cómo crear un archivo Robots.txt?

Las palabras clave, etiquetas y las técnicas SEO juegan un papel importante, ya que ayudan a las arañas a encontrar y rastrear nuestras páginas para indexarlas en las primeras posiciones de los buscadores. Además, los sitemap.xml entregan una guía o índice para encontrar las páginas que se pueden rastrear. Este último archivo puede estar complementado con un robots.txt, también conocido como protocolo de exclusión de robots. Gracias a este informe, podemos informar a las arañas de Google sobre las páginas que nos interesa indexar y las que no.

A continuación, vamos a mostrar cómo podemos desindexar páginas con robots.txt y cómo podemos indexar de manera automática páginas con Google Search Controle. De esta manera, solo aparecerán en los buscadores aquellas páginas que realmente no interesa que aparezcan.

Índice de contenidos

Archivo Robots.txt

Antes de empezar a rastrear nuestra web, las arañas de los buscadores pasan por el archivo robots.txt. En este archivo los bots se encuentran órdenes de ejecución que nos permitirán:

Denegar el acceso a determinadas páginas o directorios con el objetivo de evitar la indexación.
No permitir que ciertas partes del código de nuestra web sea indexado.
Evitar la indexación de contenido duplicado causado por parámetros o paginaciones por ejemplo.
Mostrar el sitemap XML para facilitar el rastreo de la web.

Tipos de archivos que podemos excluir con robots.txt

Antes de desindexar cualquier página, es importante que entendamos cómo funcionan los robots.txt para así, excluir las páginas correctas y no contenido importante. Los tipos de archivo que podemos excluir de la indexación son los siguientes.

Páginas web: Excluir páginas web puede servirnos para evitar que el rastreador muestre páginas o contenido poco relevante para el público, perjudicando nuestro posicionamiento SEO.
Imágenes: Podemos evitar que los archivos de imagen aparezcan en los resultados de la búsqueda. Se puede utilizar para que no se indexen imágenes de archivo.
Otros recursos: También podremos bloquear archivos como por ejemplos scripts o elementos con poca importancia para los usuarios.

Crear un archivo Robots.txt

Generar un archivo Robots.txt es relativamente fácil. Este es sencillamente un documento .txt donde escribimos determinadas órdenes con un lenguaje que ahora detallaremos. Una vez creado, lo subiremos a la raíz del dominio. (www.midominio.es/robots.txt)

Sintaxis de Robots.txt

Antes de empezar a detallar los principales comando del archivo Robots.txt tenemos que saber que es muy importante la correcta escritura de estos. Es decir, tenemos que respetar los espacios, las mayúsculas o minúsculas y únicamente introducir comandos permitidos.

Los principales comandos son:

Master de SEO y Posicionamiento en Buscadores

Aprende cómo diseñar y ejecutar las fases del desarrollo de una estrategia SEO

¡Me apunto!

User-agent: con este comando estamos indicando a qué robot le estamos obligando a cumplir ciertas acciones. No solo podemos encontrar el GoogleBot (crawler de Google), también está el de Bing, Yahoo y un gran repertorio de ellos. También existen bots maliciosos (malware) que rastrean nuestra web para robar información o para otros objetivos oscuros.
Disallow: No permite que los bots accedan a una determinada parte de nuestra web
Allow: Todo lo contrarío que el comando Disallow. Le estamos dando acceso completo a los bots.
Sitemap: introduciendo la URL de nuestro sitemap facilitaremos el rastreo de toda nuestra web.
Crawl-delay: es para estipular cuántos segundos tiene que esperar el bot para saltar a otra página.
* (Asterisco): El asterisco tiene el mismo valor que una secuencia completa de caracteres. Por ejemplo, todos los directorios que empiecen por “page” sería “/page*/ (para evitar contenido duplicado con la paginación)

Ejemplo de archivo Robots.txt

Vamos a detallar un ejemplo de archivo robots.txt sencillo para acabar de comprender el funcionamiento de este.

Como podemos observar en la primera línea estamos indicando que las funciones del archivo son válidas para todos los bots.

En la segunda y tercera línea le estamos denegando el acceso a las partes más privadas de WordPress. Aclarar que este archivo Robots.txt es de WordPress, cada web tiene sus propias necesidades y por esa razón no existe un archivo Robots.txt universal.

En la cuarta línea, le estamos denegando el acceso a las paginaciones de la web. Y por último, en la quinta línea le indicamos el sitemap.

Subir el archivo Robots.txt

Una vez hechas las definiciones anteriores, se deben realizar los siguientes pasos:

Guardar el código como archivo de texto (.txt) con el nobre “robots”.
Ubicarlo en el directorio de nivel más alto del sitio (http://www.ejemplo.com/robots.txt)

Una vez realizados estos pasos, podemos revisar que todo esté en orden en el probador de robots.txt de Google.

Debemos tener en cuenta pero, que algunos robots no respetan el archivo y por tanto, indexan el contenido de todas formas. Por esto, es importante que si disponemos de información sensible que no debe mostrarse al público, siempre deberemos protegerla con métodos adicionales. Un ejemplo serían las contraseñas.

El archivo Robots.txt es vital para cualquier web y su correcta creación, nos puede evitar serios problemas que impedirían nuestro posicionamiento SEO.

¿Quieres saber más? En el Master de SEO y Posicionamiento en Buscadores aprenderás todo lo que se tiene que saber de optimización On Page y por supuesto de nuestro aliado: el archivo Robots.txt.

Otros artículos que te pueden interesar:

Master de SEO y Posicionamiento en Buscadores

Aprende cómo diseñar y ejecutar las fases del desarrollo de una estrategia SEO

¡Me apunto!

Programas relacionados

Programas populares

FAQ's del artículo

¿Qué es el archivo Robots.txt y cuál es su función principal en SEO?

El archivo Robots.txt es un archivo de texto simple que se ubica en el directorio raíz de un sitio web. Su función principal es indicarle a los motores de búsqueda qué páginas o secciones del sitio deben o no deben rastrear. Esto ayuda a controlar el acceso de los rastreadores web y a optimizar el presupuesto de rastreo al centrar los recursos de indexación en las páginas más importantes.

¿Cómo afecta el archivo Robots.txt al presupuesto de rastreo de un sitio web?

El archivo Robots.txt influye directamente en el presupuesto de rastreo al permitir definir qué partes del sitio web deben ser rastreadas por los motores de búsqueda. Al bloquear secciones innecesarias o duplicadas, se puede asegurar que los rastreadores se concentren en las áreas más relevantes, optimizando así el uso de los recursos de rastreo y mejorando la eficiencia de la indexación.

¿Cuáles son algunos errores comunes al configurar un archivo Robots.txt?

Entre los errores comunes al configurar un archivo Robots.txt se encuentran el bloqueo accidental de todas las páginas del sitio, lo cual puede impedir que los motores de búsqueda indexen el contenido. Otro error frecuente es no actualizar el archivo conforme se hacen cambios en la estructura del sitio, lo que puede llevar a la indexación de páginas no deseadas o a la exclusión de contenido importante.

¿Qué diferencia hay entre el archivo Robots.txt y las metaetiquetas noindex?

El archivo Robots.txt y las metaetiquetas noindex cumplen funciones diferentes en el control del rastreo e indexación de un sitio web. Mientras que Robots.txt se utiliza para bloquear el acceso de los rastreadores a ciertas partes del sitio, las metaetiquetas noindex se colocan en el código HTML de una página específica para indicar a los motores de búsqueda que no deben incluir esa página en sus índices, aunque pueda ser rastreada.

¿Por qué es importante revisar regularmente el archivo Robots.txt?

Revisar regularmente el archivo Robots.txt es crucial para asegurar que las directivas de rastreo estén alineadas con los objetivos actuales del sitio web. Cambios en la estructura del sitio, nuevas estrategias de contenido o la eliminación de secciones pueden requerir ajustes en el archivo para evitar la desindexación de contenido relevante o el rastreo de páginas innecesarias, manteniendo así una estrategia SEO eficaz.

0 2 comentarios

Ester Ribas

Periodista especializada en marketing y CCO de FormalDocs. Leer más

Suscríbete y recibe cada semana nuevos cursos y recursos gratuitos.

Robots.txt y su influencia en las estrategias SEO

Archivo Robots.txt

Tipos de archivos que podemos excluir con robots.txt

Crear un archivo Robots.txt

Sintaxis de Robots.txt

Master de SEO y Posicionamiento en Buscadores

Ejemplo de archivo Robots.txt

Subir el archivo Robots.txt

Master de SEO y Posicionamiento en Buscadores

FAQ's del artículo

Lo más Leído de Siempre

2 comentarios en Robots.txt y su influencia en las estrategias SEO

Deja una respuesta Cancelar la respuesta

Síguenos en las redes