LLMs.txt: qué es, por qué no funciona y qué hacer en su lugar

“Pon este archivo en tu web y ChatGPT te lee mejor.”

Lo has visto en LinkedIn, en Twitter, en algún vídeo de YouTube. La idea suena genial: creas un archivo de texto, lo subes a la raíz de tu web, y los buscadores de IA empiezan a leer tu contenido con más atención. Fácil, rápido, y cualquiera puede hacerlo en 5 minutos.

Hay un problema: los datos dicen que no funciona.

No es una opinión. Una agencia montó un experimento controlado y lo midió durante 3 meses. Otra empresa analizó 300.000 dominios. Y Google ha dicho que no tiene intención de soportarlo. Voy a contarte los datos, por qué el resultado era predecible, y qué hacer de verdad si quieres que las IAs te encuentren.

Y como no me fío de un solo estudio, estoy montando mi propia réplica del experimento. Me juego una cerveza a que el resultado será el mismo.

Qué es el archivo llms.txt

La idea la propuso Jeremy Howard — fundador de fast.ai — en septiembre de 2024 [1]. El concepto es simple: igual que existe un archivo (robots.txt) que le dice a Google qué páginas puede visitar en tu web, el llms.txt haría lo mismo pero para las IAs. Les diría “estas son mis páginas importantes, léelas primero”.

Esto es lo que contiene un archivo llms.txt típico:

# Mi Web
> Descripción breve de lo que hace mi web.

## Páginas importantes
- [Sobre nosotros](https://miweb.com/sobre-nosotros)
- [Servicios](https://miweb.com/servicios)
- [Blog](https://miweb.com/blog)

En cristiano: un resumen de tu web con enlaces a las páginas que consideras más relevantes. Nada más. La idea es que una IA visite ese archivo, lo lea, y entienda de qué va tu sitio antes de rastrear el resto.

Suena lógico. ¿El problema? Que es como dejar una nota en la puerta de tu tienda diciendo “pasa y mira la sección de ofertas”. Si nadie mira la puerta, da igual lo que pongas en la nota.

La diferencia con robots.txt (que sí funciona)

Aquí es donde mucha gente se confunde. El robots.txt funciona porque todos los bots están programados para buscarlo antes de rastrear una web. Cuando Googlebot llega a tu dominio, lo primero que hace es comprobar si hay un robots.txt. Es un estándar que existe desde 1994 y que todos los bots respetan (o al menos deberían).

El llms.txt no tiene ese estatus. Ninguna empresa de IA — ni OpenAI, ni Anthropic, ni Google — ha dicho “vamos a programar nuestros bots para que busquen este archivo”. No hay un estándar, no hay un acuerdo, no hay una especificación técnica que obligue a nadie.

Es la diferencia entre un semáforo y un cartel casero colgado en una farola. El semáforo funciona porque todos los coches saben que tienen que mirarlo. El cartel está ahí, pero nadie le presta atención porque no forma parte del código de circulación.

Y sin embargo, ya hay quien lo vende

Yoast — uno de los plugins de SEO más populares para WordPress — ya incluye la generación automática de llms.txt como feature [2]. Hay agencias ofreciendo “implementación de llms.txt” como servicio. El hype se mueve más rápido que los datos.

No le echo la culpa a nadie que lo haya implementado. La promesa suena bien, y el esfuerzo es mínimo. Pero cuando algo suena demasiado fácil, conviene mirar los datos antes de recomendárselo a un cliente.

Alguien lo probó. Resultado: cero

En resumen: La agencia Reboot Online montó un experimento controlado con 2 webs durante 3 meses. Publicaron páginas que solo se podían descubrir a través del llms.txt. Ningún bot de IA visitó ni el archivo ni las páginas. Cero.

Reboot Online — una agencia especializada en GEO (lo que ahora se llama “SEO para buscadores de IA”) — diseñó un experimento limpio para poner a prueba el llms.txt [3]. Su hipótesis: los bots de IA no buscan ni leen ese archivo. Esto es lo que hicieron:

1. Eligieron 2 webs donde los bots de IA ya pasaban. Antes de empezar, revisaron los logs del servidor — los registros donde queda constancia de todo lo que visita tu web — y confirmaron que ChatGPT, Claude y Gemini habían visitado ambas webs en los últimos 6 meses. Esto era importante: si los bots nunca pasaban por esas webs, el experimento no probaría nada.

2. Crearon páginas que solo se podían encontrar a través del llms.txt. Publicaron 4 páginas nuevas en cada web, pero sin ningún enlace apuntando a ellas. Ni enlaces internos, ni enlaces desde otras webs, ni aparecían en el sitemap. La única forma de que un bot las descubriera era leyendo el archivo llms.txt, donde sí estaban referenciadas.

3. Esperaron 3 meses mirando los logs. Cada dos semanas revisaban los registros del servidor para ver si algún bot de IA había visitado el llms.txt o las páginas referenciadas en él.

El resultado

0 visitas de bots de IA al archivo llms.txt. 0 visitas a las páginas referenciadas. En 3 meses. Reboot Online — experimento controlado con 2 dominios

Ningún bot de IA visitó el llms.txt en ninguna de las dos webs. Y por tanto, ninguna de las páginas de prueba recibió visitas tampoco.

Mientras tanto — y esto es lo interesante — esos mismos bots sí siguieron visitando otras páginas del sitio. Las que tenían enlaces normales. Las que estaban en el sitemap. Las que se descubren como se han descubierto páginas web toda la vida.

No es un caso aislado

SE Ranking analizó 300.000 dominios y no encontró correlación entre tener un archivo llms.txt y una mayor visibilidad en respuestas de IA [4]. No es que la correlación fuera débil — es que no existía.

Y Google ha ido un paso más allá. Ha dicho explícitamente que no soporta el llms.txt y que no tiene planes de hacerlo [5]. La comparación que usaron es reveladora: lo compararon con la meta tag keywords — una etiqueta que se inventó en los 90 para decirle a los buscadores de qué iba tu página, que todos los SEOs llenaban de palabras clave, y que Google dejó de usar hace más de 15 años.

Por qué era predecible

El resultado del experimento no me sorprendió. Y no es por listo — es que si piensas dos minutos en cómo funcionan estos bots, no podía salir de otra forma.

Los bots de ChatGPT, Claude y Gemini descubren páginas web exactamente igual que Googlebot: llegan a una página, ven los enlaces que hay en ella, y los siguen. Así van de página en página, descubriendo contenido nuevo. También miran el sitemap — el archivo donde listas todas tus URLs — si lo encuentran referenciado en el robots.txt.

Nadie les ha dicho “oye, antes de rastrear esta web, mira si tiene un archivo llamado llms.txt”. No está en su programación. No hay una línea de código que diga “busca /llms.txt”. Es como poner un buzón nuevo en el portal de tu edificio con un cartel que dice “correo urgente aquí”. Si el cartero no sabe que existe ese buzón, no va a mirar. No es que lo ignore — es que no sabe que está ahí.

Si quieres entender en detalle cómo funcionan estos bots — qué tipos hay, qué hace cada uno y cómo controlarlos — tengo una guía completa sobre robots.txt y bots de IA que te lo explica.

La confusión de fondo

Hay una idea que circula bastante y que alimenta el hype del llms.txt: que cuando le preguntas algo a ChatGPT, un bot sale corriendo a visitar webs en busca de la respuesta.

No funciona así.

Cuando le preguntas algo a ChatGPT, hay dos escenarios posibles:

Responde con lo que ya sabe. Los modelos de IA se entrenan con cantidades enormes de texto. Cuando les preguntas algo, buscan en ese conocimiento previo. No visitan tu web en ese momento.
Usa navegación web. En algunos casos, ChatGPT puede buscar en internet — pero lo que hace es buscar en Google (o en Bing), abrir los primeros resultados, y leer esas páginas. No va web por web mirando si tienen un llms.txt.

En ninguno de los dos casos el llms.txt juega ningún papel. En el primero, porque no hay rastreo. En el segundo, porque el bot va a las páginas que Google le devuelve como resultados, no a un archivo que nadie le ha dicho que busque.

El llms.txt resuelve un problema que no existe: los bots de IA no necesitan un mapa especial para tu web. Ya tienen uno — se llama “seguir enlaces”.

Estoy replicando el experimento

No me fío de un solo estudio. El experimento de Reboot Online está bien diseñado, pero fueron solo 2 dominios durante 3 meses. Puede que sea suficiente, puede que no.

Así que estoy montando mi propia réplica.

Tengo un VPS donde estoy desplegando varias aplicaciones. En uno de los dominios voy a replicar exactamente la metodología de Reboot:

Páginas huérfanas: sin enlaces internos, sin enlaces externos, sin sitemap. Solo accesibles si alguien — o algún bot — lee el llms.txt.
Archivo llms.txt en la raíz del dominio, apuntando a esas páginas.
Monitorización de los access logs: un registro de todo lo que visita el servidor, incluyendo qué bot es, a qué URL fue, y cuándo.

Me juego una cerveza a que el resultado será el mismo. Cuando tenga datos — probablemente dentro de unos meses — actualizaré este artículo con los resultados.

Entonces, ¿qué hago para que las IAs me encuentren?

Si has llegado hasta aquí pensando “vale, el llms.txt no funciona, pero entonces ¿qué hago?”, tengo una buena noticia y una mala.

La mala: no hay un truco de 5 minutos. Si lo hubiera, no funcionaría por la misma razón que el llms.txt — porque los atajos que “todo el mundo puede hacer” dejan de funcionar en cuanto todo el mundo los hace.

La buena: lo que sí funciona ya lo conoces. O al menos te va a sonar.

Los bots de IA descubren páginas exactamente igual que Google: siguiendo enlaces. Si tu web tiene páginas que se enlazan bien entre sí, los bots las van a encontrar. No necesitas un archivo especial. Necesitas que tu web tenga estructura — que una página lleve a otra de forma lógica, no que todo esté colgando de la home y rezando.

Luego está lo de fuera de tu web. ChatGPT no se inventa las respuestas (bueno, a veces sí, pero eso es otro tema). Las saca de lo que ha leído durante su entrenamiento — y lo que ha leído son webs con visibilidad y autoridad. Si un medio de tu sector te menciona, si apareces en un blog de referencia, eso tiene más peso que cualquier archivo en tu servidor. El llms.txt intenta decirle a la IA “oye, mírame”. Lo que funciona de verdad es que la IA ya te haya visto en sitios que respeta.

Y al final, lo más aburrido de decir pero lo más honesto: haz bien el SEO de toda la vida. Los bots de IA encuentran contenido a través de Google. Si no rankeas, no te encuentran. No es más complicado que eso. Si quieres profundizar, tengo una investigación sobre visibilidad en buscadores de IA con 24 fuentes verificadas.

No hay un “robots.txt para IA” que puedas subir en 5 minutos. Hay un trabajo serio que se nota en meses. Y eso no se viraliza en LinkedIn, pero funciona.

Conclusión

El llms.txt es la meta tag keywords de la era IA. Una idea que suena razonable, que no requiere esfuerzo, y que por eso se viraliza. Pero los datos son claros: los bots de IA no lo buscan, no lo leen, y tenerlo no cambia nada.

No es culpa de quien lo implementó. La idea tiene sentido sobre el papel, y crear el archivo lleva 5 minutos. Pero recomendar algo sin datos que lo respalden es exactamente lo que critico cuando veo agencias vendiendo humo con siglas nuevas.

Si alguien te dice que necesitas un llms.txt para “posicionar en ChatGPT”, ya sabes qué responder.

Cuando tenga los resultados de mi propio experimento, los publico aquí. Si me equivoco, te debo esa cerveza.

Fuentes citadas: