robots.txt, 30 años después: del nacimiento de la web a la era de la IA

Pocas piezas de la web han envejecido tan bien como un humilde fichero de texto plano. robots.txt nació en 1994, cuando la web apenas tenía unos miles de sitios, y tres décadas después sigue siendo la primera línea de diálogo entre tu web y los robots que la recorren. Su historia es, en buena medida, la historia de cómo internet aprendió a convivir con las máquinas que lo rastrean.

Un acuerdo entre caballeros

El protocolo lo propuso el ingeniero Martijn Koster en 1994, después de que un crawler mal configurado saturara un servidor. La idea era sencilla y elegante: un fichero en la raíz del sitio, /robots.txt, donde el propietario indica a los bots qué partes pueden visitar y cuáles no. Nunca fue una barrera técnica, sino un acuerdo entre caballeros: los bots educados lo respetan voluntariamente.

De convención a estándar oficial

Durante casi tres décadas, robots.txt funcionó como una convención de facto que todos seguían pero que ningún organismo había formalizado. Eso cambió en septiembre de 2022, cuando el IETF publicó el RFC 9309, el Robots Exclusion Protocol, impulsado en gran parte por Google. Por fin, las reglas que la industria daba por sentadas quedaron escritas de forma oficial y sin ambigüedades.

Cómo funciona, en esencia

La mecánica apenas ha cambiado:

  • User-agent identifica al bot al que se dirige la regla.
  • Disallow y Allow marcan las rutas vetadas o permitidas.
  • Se admiten comodines (* y $) y la regla más específica gana.
  • Sitemap apunta a tu mapa del sitio.

Simple, legible y portable: funciona igual en cualquier servidor y ante cualquier bot que decida obedecerlo.

El reto de la era de la IA

El gran examen de madurez ha llegado con los crawlers de inteligencia artificial. En los últimos años, robots.txt se ha llenado de nombres nuevos —GPTBot, ClaudeBot, Google-Extended, PerplexityBot— a medida que los editores intentan decidir quién puede usar su contenido para entrenar modelos o generar respuestas. El protocolo de 1994 se ha convertido, sin pretenderlo, en el campo de batalla del debate sobre la IA y los derechos de autor.

Sus límites siguen ahí

Conviene recordar lo que robots.txt no es. No bloquea técnicamente a nadie: un bot malicioso puede ignorarlo por completo. No protege contenido sensible —para eso están la autenticación y los permisos del servidor— y no garantiza que una página no acabe indexada si otros la enlazan. Es una declaración de intenciones, no un muro.

Cómo te ayuda Spider

Tres décadas después, la pregunta clave sigue siendo la misma: ¿están tus reglas haciendo lo que crees? Spider.es interpreta tu robots.txt igual que lo haría cada bot y te muestra, frente a más de un centenar de crawlers —de Googlebot a los últimos rastreadores de IA—, quién puede acceder a cada parte de tu web. La mejor forma de honrar a un estándar tan longevo es asegurarte de que el tuyo está bien escrito.

Volver al blog