Seguro que has oído hablar de él. Aunque igual no tienes del todo claro qué es y por qué se considera tan importante. Estoy hablando del archivo Robots.txt.
¿Qué tiene de especial este archivo?
¿Para qué sirve?
¿Cómo se crea?
Si estas preguntas están rondando por tu cabeza, ¡estás en el sitio adecuado! Voy a contarte todo lo que necesitas saber sobre este archivo. Y cuando termines de leer el artículo, incluso serás capaz de crear el tuyo propio.
¿Quieres comprobarlo? Pues vamos al lío 😉
Qué es el archivo robots.txt
Para empezar por el principio, hay que entender qué es el archivo robots.txt y qué función tiene.
¿Has oído hablar de los robots o arañas de Google? Pues bien, el archivo robots.txt es un archivo que indica a los robots del buscador qué deben rastrear e indexar y qué no.
Como sabes, las arañas (también llamadas «bots») se pasean por los sitios web tratando de encontrar nuevos contenidos que incluir en los resultados de búsqueda. Y aunque pienses que lo ideal es que indexe cuanto más contenido de tu web mejor, no es cierto.
Hay páginas y elementos de la web que no nos interesa que Google indexe, como archivos internos, páginas de poca relevancia o aquellas que no queremos que el buscador muestre en sus resultados de búsqueda (por ejemplo, la página de política de cookies).
Y esto nos lleva a la siguiente pregunta:
¿Para qué sirve el archivo robots.txt?
Básicamente, para decirle a los bots por qué páginas y archivos queremos que pasen y por cuáles no.
Lo puedes utilizar para:
- Impedir la indexación de determinadas páginas o directorios (por ejemplo, contenido duplicado, páginas de prueba o área privada).
- Bloquear el acceso a tu web a unos bots determinados.
- Denegar el acceso de los buscadores a ciertos archivos.
- Evitar el rastreo de las URL que hayas eliminado y que reporten error 404.
- Indicar la localización de tu sitemap para facilitar el rastreo e indexación de tu web.
- Evitar que tu web se indexe hasta que esté completamente terminada.
Así que como ves, se trata de un archivo que contiene la información que leerán las arañas del buscador antes de rastrear la web para saber a qué partes tienen permitido el acceso. Es decir, funciona como una recomendación (porque hay robots que hacen lo que les da la gana) sobre qué páginas deben visitar e indexar.
Cómo crear un archivo robots.txt para tu web en WordPress
Ahora que sabes qué es y para qué sirve, vamos a ver cómo crear un archivo robots.txt en WordPress.
Y aquí tengo 2 buenas noticias: la primera, que es más fácil de lo que piensas. La segunda, que si utilizas el plugin Yoast SEO, te resultará aún más sencillo porque lo hace por ti.
Para ello, basta con ir a “Herramientas”, “Editor de archivos” y crear o modificar tu archivo robots.txt.
¿Y si no quieres utilizar el plugin Yoast SEO?
Te respondo ahora mismo.
Comandos y comodines
Para crear un archivo robots.txt, lo primero que debes tener en cuenta son los comandos que se utilizan para crear las restricciones.
Estos son los parámetros principales que se utilizan en el robots.txt:
- User-agent: especifica a qué tipo de robots van dirigidos los comandos que pongas a continuación.
- Disallow: bloquea el acceso del User-agent (el bot) al directorio o URL que especifiques.
- Allow: permite el acceso a la URL o al directorio que indiques.
- Sitemap: indica a los bots dónde se encuentra el sitemap del sitio.
- Crawl-delay: se utiliza para indicar un tiempo de retardo entre cada página que el bot rastree. De este modo, evitas un elevado consumo de recursos. En este caso, ten en cuenta que no todos los bots hacen caso de este comando.
Además de todo esto, existe 2 caracteres extra que se usan como comodines:
- El asterisco (*): indica “todos”. Se usa sobre todoUser-agent: *, para todos los bots; o /*/ para indicar todos los directorios.
- El símbolo del dólar ($): sirve para especificar cualquier archivo que acabe con una extensión determinada. Por ejemplo: /*.gif$ indica todos los archivos acabados en .gif.
Y en cuanto a las restricciones, estas son las más habituales:
- User-agent: * – Incluir todos los robots
- User-agent: Googlebot – Especificar el robot de Google
- User-agent: Bingbot – Especificar el robot de Bing
- Disallow: / – Denegar todo el sitio
- Disallow: /directorio/ – Denegar un directorio
- Disallow: /loquesea*/ – Denegar directorios que comienzan por “loquesea”
- Disallow: /pagina-web.htm – Denegar una página
- Disallow: /*.gif$ – Denegar la extensión .gif
- Allow: /directorio/subdirectorio/ – Permitir un subdirectorio
- Sitemap: https://www.tuweb.com/sitemap.xml – indicar el mapa del sitio.
Ejemplo de archivo Robots.txt
Veamos un ejemplo de archivo robots.txt para WordPress.
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php/
Sitemap: https://tuweb.com/sitemap_index.xml
Y ahora, vamos a interpretar esta información:
- Indicamos que todas las funciones del archivo son válidas para todos los bots.
- Denegamos el acceso a las partes más privadas de WordPress (segunda y tercera línea).
- Indicamos el sitemap.
Subir el archivo Robots.txt
Una vez que hemos creado el archivo robots.txt, ¿cómo lo subimos a nuestro sitio para que los robots de Google lo encuentren?
Siguiendo estos pasos:
- Guardamos el código como archivo de texto (en un documento .txt) con el nombre de “robots”.
- Lo ubicamos en el directorio de nivel más alto del sitio (https://www.tuweb.com/robots.txt).
- Confirmamos que está todo correcto a través de Google Search Console.
¿Necesitas ayuda con tu archivo robots.txt?
Espero que con este tutorial, te sientas capaz de crear tu propio archivo robots.txt. No obstante, recuerda que a través de Yoast SEO, la operación se facilita al máximo. Y si tienes alguna duda, ya sabes que estoy en los comentarios para echarte una mano.
Y si prefieres que alguien lo haga por ti para poder olvidarte de esta tarea, ¡nos encargamos los sherpas tecnológicos de Hormigas en la Nube!