Robots.txt

Modelo robots.txt

En este artículo vamos a hablar sobre los robots.txt. Seguro deseas trabajar con esta herramienta y quieres incluirla para tu página web… Pero, ¿qué es un robot.txt? ¿Cuál es su trabajo? Estas y otras dudas más, vamos a responder a lo largo de este contenido.

¿Estás listo? Entonces… ¡A leer! 

¿Qué son los robots.txt?  

Un archivo robots.txt les dice a los rastreadores de motores de búsqueda qué URL de un sitio se pueden visitar. Se utiliza principalmente para evitar que un sitio se sobrecargue con solicitudes; no es un mecanismo para evitar que las páginas aparezcan en Google.

Un archivo robots.txt es un archivo de texto sin formato que brinda instrucciones a los rastreadores de Google sobre qué áreas de una página web pueden y no pueden rastrearse. Este archivo se coloca en el directorio raíz (root) del servidor web. Cuando el rastreador llega al sitio, lo primero que hace es «leer» el archivo. Generalmente, los rastreadores siguen las instrucciones dadas allí. Este protocolo se denomina Protocolo estándar de exclusión de robots. La creación de este tipo de archivo robots.txt tiene sentido, aunque no es obligatorio, para mejorar la indexación web y los presupuestos de rastreo.

¿Para qué sirven los robots.txt?

“Rastrear” es la palabra clave que debemos tener en cuenta en este momento, robots.txt sirve para controlar el rastreo de una página web, no la indexación. Las personas tienden a confundir ambos términos. No podemos evitar que Google indexe alguna página a través de los robots.txt, lo que si está en nuestro control es que analice o no el código de la página.   

El archivo Robots.txt se usa principalmente para administrar el tráfico del rastreador a su sitio, pero también se usa a menudo para evitar que Google rastree ciertos archivos. 

Los robots.txt actúan según el tipo de archivo, podemos controlar el rastreo de: 

Páginas webs 

Si cree que su servidor se sobrecargará con las solicitudes de los rastreadores de Google o evitará el rastreo de contenido sin importancia, puede usar robots en las páginas web (HTML, PDF y otros formatos no multimedia que Google puede leer). Tráfico o páginas similares de su sitio. 

Si su página está bloqueada por un archivo robots.txt, la URL aún puede aparecer en los resultados de búsqueda sin una indicación. Se excluirán los archivos de imagen y video, así como los archivos PDF y otros archivos que no sean HTML. Si la búsqueda muestra este resultado en su página y desea corregirlo, elimine la entrada que bloquea la página de su archivo robots.txt. Si desea ocultar completamente la página de la búsqueda, use otro método.

Multimedia

Utilizando robots.txt se puede manejar el tráfico de los rastreadores para evitar la aparición de imágenes, videos o audios entre los resultados de la búsqueda de Google. No obstante, esto no impide que haya usuarios o páginas incluyendo enlaces de multimedia hacia tu archivo. 

Archivo de recursos

Con un archivo robots.txt, puedes bloquear archivos de recursos (como archivos de imágenes, secuencias de comandos o estilos sin importancia) si no cree que emplearlos cause un daño significativo a sus páginas. Sin embargo, si cree que esto complica el análisis de los rastreadores de Google, no debe bloquearlos, ya que esto impedirá que Google analice correctamente las páginas que dependen de estos recursos

Limitaciones de los archivos robots.txt 

Hay factores influyentes en los robots.txt que deshabilitan o complican funciones aunque el problema no se relacione directamente con ellos. 

Directivas no compatibles entre buscadores

Bueno, hay algunas directrices que notamos que no todos los buscadores usan, guiándonos principalmente por Google, este primer punto no sería un problema grave. 

 Sintaxis interpretadas diferentes de acuerdo al buscador

La sintaxis de igual manera, las escribamos o no, hay ciertos buscadores que no las reconocen, aunque la gran mayoría si lo hace. 

Indexaciones de URL por enlaces externos 

Este tercer punto, como mencionamos con anterioridad el rastreo de indexación es que se pueden indexar URL aunque se hayan bloqueado en los robots, ¿cómo? Por enlaces externos o incluso internos de la propia página web 

¿Cómo crear robots.txt? ¿Cómo acceder al archivo robots.txt?  

Formato y ubicación ¿dónde tiene que estar el robot? ¿Cómo se tiene que llamar? 

Para empezar es muy importante que el nombre del archivo se llame “robots.txt” tal cual, cualquier otra variante en el nombre impedirá la correcta creación del archivo.

Su ubicación siempre debe ser en la raíz del host de acuerdo a lo que hará referencia, por norma general esto significa que se escribe de la siguiente manera: dominio.com/robots.txt. No dentro de un directorio, ni nada extraño. Simplemente colgado de la raíz.

En caso de querer realizar comentarios dentro del archivo puedes colocar una almohadilla, igualmente no se interpreta como una orden que estás dando sino como una anotación o comentario que has agregado. 

Comandos que contienen los robots.txt

Ahora vamos a hablar acerca de como funciona un robot.txt, que debemos poner y como lo debemos escribir. Importante saber como funciona, dentro del robot.txt se generan diversos grupos que son como pequeños párrafos, cada grupo va dirigido a unos rastreados o a otros y lo que harán será permitir o bloquear el acceso a una URL o a un conjunto de URL 

Nota: Distinguen entre mayúsculas y minúsculas, es necesario prestar atención a la manera en la que escribamos.

Hay cuatro tipos de comandos que se pueden encontrar en un robot: 

User-agent

Recordemos que funcionan en diferentes módulos o párrafos, podemos colocar:

  1. user-agent: * (en él podemos poner un asterisco y afectaría para todos los rastreadores)  
  2. user-agent: googlebot (ponemos un solo rastreador en este caso Google bot, que será cualquier rastreador de Google)
  3. user-agent: googlebot-news (aquí podemos ir más a detalles y colocar que estas directivas solo van a aplicar para el bot de Google de noticias, el resto de imágenes y anuncios no tendrá relevancia y podrá pasar de ello.

Allow 

Dentro de que va a afectar a esos rastreadores tenemos “allow” que significa permitir. 

  1. allow: / (permite básicamente en toda la web)
  2. allow: /noticias/ (permite todo lo que cuelgue del directorio de noticias incluido el propio directorio)
  3. allow:/noticias/deportes/ (permite todo lo que cuelgue del subdirectorio de deportes dentro de noticias)
     
  4. allow:/noticias/deportes/$ (incluir el símbolo del dólar, se traduce a un: “hasta aquí”. En este comando en específico está permitiendo que se rastree la subcategoría de deportes, pero todo lo que cuelgue de ella como pueden ser las noticias de deporte no, ya que, continúan después de esa URL y cortamos)
  5. allow:/noti* (el asterisco cumple función de comodín, rastrea todo lo que se parezca:  ‘’/noticias’’ ‘’/noticiero” no obstante “/notario” no lo rastrea porque habíamos colocado ‘’noti*” debemos tener en cuenta que el asterisco se traduce como: “a partir de aquí cualquier cosa.”
  6. allow:/*gif$ (permite el rastreo de todos los archivos GIF que haya en la página) 

Disallow

“disallow” significa  no permitir, por lo que los comandos que se vean afectados no podrán rastrear lo que esté marcado de esta manera.

  1. disallow:/ (no deja rastrear nada del sitio)
  2. disallow:/?id=* (funciona para webs grandes, contiene parámetros que pueden ser para búsquedas y filtros. Sirve para rastrear la información que nos interesa y separarla de los URL que no necesitamos, pero que se han ido formando por navegar en la página. Y que se concentre en la categoría que hemos seleccionado)
  3. disallow:/archivo.pdf (estamos bloqueando un PDF en concreto de la página)
  4. disallow:/busquedas/ (todo lo que cuelgue del directorio de búsqueda que no nos interese en este caso, lo bloqueamos.)
  5. disallow:/noticias/sucesos/ (la subcategoría de sucesos y todo lo que tenga que ver con ella, bloqueamos.
  6. disallow:/wp-*/$ (estamos bloqueando los directorios que contengan: ‘’wp-’’ es decir: wp-plugins, wp-commence, bloqueados)

Sitemap

Es aconsejable colocar varios puntos y añadir la URL de sitemap con las URL de nuestra página web, poniéndolo en robots ayudamos a que Google lo encuentre. 

Deja un comentario

Tu dirección de correo electrónico no será publicada.