Google se ha convertido en parte de nuestras vidas. Si no es para mirar el correo, lo utilizamos para buscar información. De ahí que cualquier empresa que se precie, debe contar con una página web para dar a conocer sus productos y servicios. Sin embargo, cuando el número de estas asciende a millones, es necesario poder clasificar las webs e indexarlas en las bases de datos. Para ello se utiliza el archivo robots.txt. ¿Conoces en qué consiste?
Qué es el archivo robots.txt
Para poder organizar la información que se muestra, los buscadores necesitan obtener información de cada página web. Para hacerlo, utilizan unos robots que se encargan de rastrear todo el contenido para indexarlo en sus bases de datos. Cuando se habla de indexar, se hace referencia el orden que se establece en datos o en informaciones siguiendo algún criterio que sea común a todos ellos. De esta manera, se facilita el análisis y la consulta.
El archivo robots.txt, o protocolo o estándar de exclusión, es un archivo de texto que le dice a los motores de búsqueda qué parte de una web deben rastrear. También se les conoce como arañas o crawlers. Rastrean todo el contenido de una web, lo valoran y en función de esta valoración se indexan los resultados de las búsquedas SERPs.
Pero además de esta, tienen otras finalidades, como por ejemplo el rastreo de los correos electrónicos; muy útil para quienes envían spam. Otros son la localización de sitios XML o el bloqueo del acceso a aquellos archivos de directorios y códigos. Aunque pueda resultar complejo, en algunos casos es importante conocer cómo funciona para aplicarlo al posicionamiento SEO.
Usos del archivo robots.txt
Ahora que ya tenemos una idea de lo que es un archivo robots.txt y su función principal, es el momento de profundizar más en estos usos. A continuación te dejamos los más destacados.
– Restricción de los accesos a algunas de las partes que conforman una página web, como pueden ser los directorios y subdirectorios, archivos o URL específicas. Para ello habrá que utilizar comandos que se aplicarán a ese archivo en cuestión.
– Optimización del presupuesto de rastreo, que equivale al tiempo que los robots que conforman los motores de búsqueda destinan a inspeccionar y valorar las webs. Al programarlo correctamente, es posible evitar que se rastreen aquellos contenidos cuya importancia no es relevante o aquel que puede estar duplicado.
– Detallar el sitemap de una página web.
En definitiva, se trata de que mediante el robots.txt, los buscadores solo analicen los datos y la información que consideramos relevante, y así poder obtener un buen posicionamiento en los resultados.
Sin embargo, no siempre es posible garantizar que lo que se quiere limitar no aparecerá finalmente, ya que se trata únicamente de indicaciones. Otros aspectos que también afectarán a todo este proceso son los enlaces entrantes que se incluyan en esas URLs. En estos casos, lo mejor es desindexar toda la página, pero sin restringir el acceso con el archivo robots.txt. Se trata de utilizar una metaetiqueta de noindex.
Cuáles son los comandos que se utilizan
Para usar el archivo robots.txt se emplean diferentes comandos, que son los que dan a los motores de búsquedas las acciones a realizar. La primera es la de “user-agent”, que es el comando que indica a qué robot se le aplicarán las reglas que se detallan después. Cuando se utiliza un asterisco (*), significa que no hay excepciones en la aplicación. Es decir, que serán para todos los bots.
El siguiente comando es “disallow”, que se utiliza cuando la intención es la de restringir los accesos a una página en concreto o a un directorio o subdirectorio. El uso más común que se hace en este caso es el de la página que da acceso a la edición de todos los contenidos del sitio web, como ‘wp-admin’ o ‘wp-login’. Puesto que no queremos que nadie acceda, podemos ahorrarle este tiempo al rastreador, y así mejorar el presupuesto.
“Allow” indica lo contrario que el anterior, por lo que permite el acceso. Lo que le estamos indicando a los robots es que una parte de las páginas que hemos indicado como no accesibles, sí queremos que sean rastreadas. El último de los comandos es “Sitemap”, que muestra la ruta del mapa de un sitio web.
Cómo utilizar estos archivos para mejorar el posicionamiento
El primer paso será conocer si tenemos un archivo de este tipo. Para comprobarlo, insertaremos en la barra de dirección el nombre de la página web seguido de “/robots.txt”. Al darle a enter, nos aparecerán las restricciones que pueda haber.
Si no tienes uno, puedes utilizar el bloc de notas en Windows o el TextEdit en Mac para hacerlo. Se recomienda usar estos editores de texto planos y no otros como Microsoft Word, que podría añadir códigos adicionales.
Para editarlo, debemos conocer la ubicación en el directorio root de la web, que aparece en la del proveedor del hosting, en la sección de administración de archivos o FTP. Hecho esto, pasaremos a los comandos mencionados anteriormente, y empezaremos por el de “user-agent: *”. A continuación insertaremos “Disallow” y después lo que queremos bloquear.
Como hemos visto, puede ser la página de administración; la versión imprimible de una web, ya que se consideraría contenido duplicado, o las páginas de agradecimiento a los leads. Si no se bloquean, serán visibles por usuarios que aún no lo son, y esto no es beneficioso para tu web. Por último, puedes añadir el comando “noindex” a las mismas páginas para asegurar que no serán indexadas. Y para no rastrear los enlaces de una web, se añade el de “nofollow”.
En general, el uso del archivo.txt es bastante sencillo, pero si no estás familiarizado con este tipo de lenguaje puede resultar confuso. En INT Consultoría nos dedicamos al posicionamiento SEO de páginas web. Si necesitas ayuda para optimizar tus contenidos, ¡no dudes en ponerte en contacto con nosotros!