llms.txt: el estándar que guía a la IA por tu web

Durante casi tres décadas, dos ficheros han bastado para decirle a los buscadores cómo tratar tu web: robots.txt para los permisos y sitemap.xml para el descubrimiento. Pero la irrupción de los modelos de lenguaje ha destapado un hueco que ninguno cubre: ¿cómo le explicas a una IA qué contenido de tu sitio importa y cómo leerlo sin ahogarse en menús, scripts y anuncios? Esa es la pregunta que intenta responder llms.txt.

Qué es llms.txt

llms.txt es un fichero en formato Markdown que se coloca en la raíz de tu dominio, en https://tudominio.com/llms.txt. Lo propuso Jeremy Howard, cofundador de Answer.AI, en septiembre de 2024. Su objetivo es ofrecer a los modelos de IA una versión curada, limpia y jerarquizada de tu contenido más relevante.

El problema que resuelve es concreto: una página HTML moderna está llena de ruido —navegación, banners, JavaScript, ventanas de cookies— y las ventanas de contexto de los modelos son limitadas. Pedirle a una IA que entienda tu documentación a partir del HTML en bruto es ineficiente. llms.txt le entrega, en su lugar, un índice en Markdown con enlaces a las páginas que de verdad cuentan.

Cómo se estructura

El formato es deliberadamente sencillo:

  • Un encabezado H1 con el nombre del proyecto o sitio.
  • Un párrafo de resumen que explica qué es y para quién.
  • Secciones con listas de enlaces en Markdown a las páginas clave, cada una con una nota corta sobre qué encontrará la IA allí.

Existe además una variante, llms-full.txt, que no solo enlaza el contenido sino que lo incluye entero en el mismo fichero, pensada para que el modelo lo consuma de una sola vez.

No es robots.txt ni sitemap.xml

Es fácil confundirlos, pero cumplen funciones distintas:

  • robots.txt decide quién puede acceder y a qué rutas. Es un control de permisos.
  • sitemap.xml ayuda a los buscadores a descubrir todas tus URLs de forma exhaustiva, en XML pensado para máquinas.
  • llms.txt no bloquea ni lo lista todo: recomienda y contextualiza lo importante en un formato legible tanto para personas como para modelos.

Dicho de otro modo: robots.txt pone la puerta, sitemap.xml entrega el plano completo del edificio y llms.txt es el conserje que te dice directamente a qué planta ir.

Qué adopción tiene realmente

Conviene ser honesto: llms.txt es una propuesta de la comunidad con tracción creciente, no un estándar oficial respaldado por un organismo como el IETF. Muchísimos proyectos de documentación técnica ya lo publican y han surgido directorios que recopilan ficheros llms.txt de distintos sitios. Sin embargo, los grandes proveedores de modelos no han confirmado que lo consuman de forma garantizada durante el entrenamiento o la inferencia. Adoptarlo hoy es una apuesta de bajo coste y posible recompensa, no una solución mágica.

Cómo crear el tuyo

Puedes escribirlo a mano en cinco minutos si tu sitio es pequeño, o apoyarte en generadores que recorren tu web y proponen una primera versión. Empieza por lo esencial: tu documentación, tus páginas de producto y los artículos que mejor explican lo que haces. Mantenlo corto y actualízalo cuando tu contenido cambie.

Dónde encaja Spider

llms.txt resuelve la mitad proactiva del problema: lo que tú le ofreces a la IA. La otra mitad es reactiva: saber qué crawlers de IA acceden de verdad a tu sitio y si tu robots.txt les permite el paso. Ahí entra Spider.es: analiza tu dominio frente a más de un centenar de bots —incluidos GPTBot, ClaudeBot, PerplexityBot o Google-Extended— y te muestra, bot a bot, quién puede rastrearte. Publicar un llms.txt y revisar tu rastreabilidad con Spider son las dos caras de una misma estrategia para la era de la IA.

Volver al blog