Robots.txt y bots de IA: guía práctica para decidir qué bloquear (y qué no)

Cuando tenía esta web en Cloudflare, descubrí que llevaba tiempo bloqueando a todos los bots de IA. A ChatGPT, a Claude, a Perplexity — a todos. No lo había configurado yo. Lo hizo Cloudflare por defecto, sin avisarme.

Si usas Cloudflare — y en España lo usa una buena parte de las webs con algo de tráfico — hay bastantes probabilidades de que a ti te esté pasando lo mismo.

El problema es que robots.txt ha dejado de ser ese archivo que configuras una vez y te olvidas. En 2026, decidir qué bots pueden acceder a tu web es una decisión de negocio. Bloqueas al bot equivocado y desapareces de las respuestas de ChatGPT. Permites al que no debes y tu contenido acaba entrenando un modelo sin que veas un céntimo.

En esta guía te explico qué bots de IA existen, cómo saber si los tienes bloqueados sin saberlo, y cómo decidir qué permitir y qué no. Sin dogmas — depende de tu caso.

Qué es robots.txt (y qué NO es)

En resumen: robots.txt es un archivo de texto en la raíz de tu web que les dice a los bots qué pueden visitar y qué no. Pero es un cartel de “prohibido el paso”, no un muro. Si un bot quiere ignorarlo, puede hacerlo.

Si abres tudominio.com/robots.txt en un navegador, verás algo parecido a esto:

User-agent: *
Disallow: /admin/
Disallow: /carrito/
Allow: /

Sitemap: https://tudominio.com/sitemap.xml

En cristiano: User-agent: * significa “esta regla aplica a todos los bots”. Disallow: /admin/ significa “no entres en la carpeta /admin/”. Allow: / significa “todo lo demás, adelante”. Y el Sitemap le dice al bot dónde está tu mapa del sitio.

Eso es todo. No hay magia. Es un archivo de texto plano con reglas sencillas que llevan funcionando desde 1994¹.

La limitación que importa: es voluntario

Aquí está la trampa. robots.txt es una convención, no una ley. Los bots de Google, Bing y la mayoría de crawlers legítimos lo respetan. Pero no están obligados. Es como un cartel de “prohibido pisar el césped” — los que tienen buena voluntad lo respetan, los que no, pasan de largo.

Y esto no es teoría. Tollbit — una empresa que monitoriza el tráfico de bots de IA en tiempo real — documentó que el 12,9% de los bots de IA ignoran las directivas de robots.txt². Eso es casi 1 de cada 8.

El caso más sonado fue el de Perplexity. Cloudflare publicó que Perplexity usaba crawlers ocultos — navegadores headless que no se identificaban con su user agent real — para acceder a contenido que estaba explícitamente bloqueado³. WIRED confirmó que PerplexityBot accedía a áreas restringidas de las webs de Condé Nast a pesar de estar bloqueado en su robots.txt. Perplexity acabó admitiendo que su bot “puede saltarse robots.txt cuando un usuario proporciona una URL específica”.

Crawling no es indexación

Otro matiz que conviene tener claro: bloquear un bot en robots.txt impide que rastree tus páginas, pero no impide que las indexe. Si Google encuentra tu URL enlazada desde otra web, puede indexarla aunque no pueda rastrear su contenido. Aparecerá en los resultados con el título y la descripción que pueda extraer del enlace, pero sin haber leído tu página.

Esto importa porque mucha gente piensa que bloquear en robots.txt = desaparecer de los resultados. No funciona así. Para eso necesitas una meta etiqueta noindex o una cabecera HTTP X-Robots-Tag — pero esas ya son otras herramientas.

Los bots de IA que visitan tu web ahora mismo

En resumen: Cada empresa de IA tiene ahora 2 o 3 bots diferentes. Uno para entrenar modelos, otro para buscar, otro para cuando un usuario te pide algo. Bloquear uno no bloquea los otros. Y eso cambia completamente cómo deberías configurar tu robots.txt.

Cuando este artículo se publicó originalmente en 2013, la lista de user agents relevantes cabía en un post-it. Googlebot, Bingbot, y poco más. Hoy la cosa es bastante más compleja.

No basta con saber que “OpenAI tiene un bot”. OpenAI tiene tres. Anthropic tiene tres. Google tiene dos. Y cada uno hace cosas distintas.

Las 3 categorías que necesitas entender

1. Training crawlers — descargan tu contenido para entrenar modelos

Estos son los que rastrean la web masivamente para alimentar los datos de entrenamiento de modelos como GPT, Claude o Gemini. No van a buscar algo concreto: se lo llevan todo. Si te preocupa que “entrenen con tu contenido sin pagar”, estos son los que quieres controlar.

User agents principales: GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended (Google), Bytespider (ByteDance/TikTok), CCBot (Common Crawl), Meta-ExternalAgent (Meta).

2. Search crawlers — indexan para búsqueda IA

Estos rastrean tu web para incluirla en los resultados de búsqueda de las plataformas de IA. Si los bloqueas, no aparecerás cuando alguien busque algo en ChatGPT Search, Claude Search o Perplexity.

User agents principales: OAI-SearchBot (OpenAI), Claude-SearchBot (Anthropic), PerplexityBot (Perplexity), Applebot (Apple).

3. User-request fetchers — acceden cuando un usuario pide tu página

Estos solo entran cuando un usuario le dice al chatbot “léeme esta URL” o “resúmeme esta página”. No rastrean de forma automática — actúan bajo petición de un humano.

User agents principales: ChatGPT-User (OpenAI), Claude-User (Anthropic), Perplexity-User (Perplexity), Meta-ExternalFetcher (Meta).

La tabla de referencia

Aquí tienes el mapa completo por empresa. Si necesitas los user agent strings exactos — para robots.txt, logs o scripts — los tengo en el listado completo de user agents de bots.

Empresa	Training	Search	User-request
OpenAI	GPTBot	OAI-SearchBot	ChatGPT-User
Anthropic	ClaudeBot	Claude-SearchBot	Claude-User
Google	Google-Extended	Googlebot*	—
Perplexity	—	PerplexityBot	Perplexity-User
Meta	Meta-ExternalAgent	—	Meta-ExternalFetcher
ByteDance	Bytespider	—	—
Apple	—	Applebot	—
Amazon	Amazonbot	—	—
DuckDuckGo	—	—	DuckAssistBot

* Atención con Google: AI Overviews — esos resúmenes que Google pone encima de los resultados — usan Googlebot estándar, NO Google-Extended. Si bloqueas Google-Extended, no pierdes visibilidad en Search ni en AI Overviews. Solo impides que tu contenido se use para entrenar Gemini y Vertex AI⁴. Es una distinción que genera mucha confusión.

Dos detalles que importan

OpenAI cambió las reglas con ChatGPT-User. En una actualización de su documentación, OpenAI dejó de incluir a ChatGPT-User en la lista de bots que respetan robots.txt⁵. La lectura es que, como actúa en nombre de un usuario haciendo una petición específica, no funciona como un crawler tradicional. Es decir: aunque lo bloquees en robots.txt, puede que siga accediendo cuando alguien le pide que lea tu página.

Anthropic separó sus bots en febrero de 2026. Antes tenían un solo bot (ClaudeBot). Ahora son tres: ClaudeBot para entrenamiento, Claude-SearchBot para búsqueda, y Claude-User para peticiones de usuario⁶. Puedes bloquear que entrenen con tu contenido pero seguir apareciendo en los resultados de Claude Search. Es un enfoque más granular y, sinceramente, más respetuoso con el publisher.

El problema que no ves: tu CDN puede estar bloqueando bots sin tu permiso

En resumen: Si usas Cloudflare, es probable que tengas bots de IA bloqueados sin saberlo. Cloudflare activó un bloqueo por defecto para proteger a sus clientes del scraping — pero si tu objetivo es aparecer en respuestas de IA, te está perjudicando sin que lo sepas.

Esto me pasó a mí con tecnicaseo.com cuando la tenía en Cloudflare. Estaba trabajando en mi investigación sobre SEO para inteligencia artificial y, mientras preparaba la sección de configuración de robots.txt, decidí comprobar mi propia web. Sorpresa: Cloudflare tenía activado el bloqueo de bots de IA por defecto. GPTBot, ClaudeBot, PerplexityBot — todos bloqueados. No lo había configurado yo. Venía activado de serie.

Y tiene su lógica. Cloudflare lanzó en julio de 2024 una opción de bloqueo con un solo clic bajo el lema “Declara tu AIndependencia”⁷. La idea era proteger a sus clientes del scraping masivo de IA. El problema es que muchas cuentas acabaron con el bloqueo activado sin que el dueño de la web fuera consciente.

416.000 millones de solicitudes de bots de IA bloqueadas por Cloudflare desde julio de 2025 Cloudflare — AI Crawl Control

Cloudflare AI Crawl Control: el panel que deberías revisar

Cloudflare renombró su herramienta de AI Audit a AI Crawl Control⁸. Es un panel dentro del dashboard donde puedes ver exactamente qué bots de IA están intentando acceder a tu web y qué acción se toma con cada uno.

Para cada bot tienes tres opciones:

Allow — dejar que acceda
Block — bloquearlo
Charge — permitir el acceso a cambio de un pago (esto todavía está en fase inicial)

En el plan gratuito, Cloudflare detecta bots por su user-agent string. Los planes de pago añaden detección más avanzada con Bot Management, que identifica bots incluso si no se identifican con su user agent real.

Cómo revisarlo en 5 minutos:

Entra en tu dashboard de Cloudflare
Ve a AI Crawl Control (antes estaba en Security → Bots)
Mira la pestaña Crawlers — verás la lista de bots y su estado (allowed/blocked)
Revisa si los bots que te interesan están bloqueados
Cambia la acción según tu criterio (lo explico en la siguiente sección)

Robotcop: cuando robots.txt se convierte en ley

Una de las novedades de Cloudflare que más me gusta es Robotcop, lanzado en diciembre de 2024⁹. Hasta ahora, robots.txt era una petición educada: “por favor, no entres aquí”. Robotcop lo convierte en una regla WAF (Web Application Firewall) que se ejecuta a nivel de red.

En cristiano: si pones Disallow para un bot en tu robots.txt y tienes Robotcop activado, Cloudflare bloquea la conexión antes de que el bot llegue a tu servidor. No depende de que el bot sea respetuoso — el acceso se corta directamente.

Esto resuelve el problema de los bots que ignoran robots.txt (como hacía Perplexity). Si pasa por la red de Cloudflare, se cumple la regla.

Content Signals: la directiva nueva que todavía está verde

Cloudflare también lanzó Content Signals Policy¹⁰ — una extensión del robots.txt que permite expresar preferencias más granulares sobre cómo se usa tu contenido. En vez de solo decir “pasa” o “no pases”, puedes especificar:

search — permitir que aparezca en resultados de búsqueda
ai-input — permitir que se use como input para respuestas de IA
ai-train — permitir que se use para entrenamiento de modelos

La idea es buena, pero todavía está verde. No todos los bots la leen. Y si usas Content Signals, Google Search Console puede mostrar un aviso de “syntax not understood” — aunque eso no afecta al rastreo ni a la indexación normal. Es simplemente que el parser de GSC no reconoce la directiva todavía.

Mi recomendación: tenlo en el radar, pero no lo necesitas ahora mismo. Las reglas básicas de robots.txt + el panel de AI Crawl Control cubren el 95% de los casos.

La decisión: qué bloquear y qué permitir

En resumen: No hay una respuesta correcta para todo el mundo. Depende de si quieres aparecer en respuestas de IA, si te preocupa que entrenen modelos con tu contenido, o ambas cosas. Aquí tienes 3 configuraciones tipo según tu situación.

Esta es la parte donde la mayoría de guías te dicen “bloquea todo” o “permite todo”. Ninguno de los dos extremos tiene sentido para la mayoría de negocios. La decisión correcta depende de tu modelo de negocio.

Escenario 1: “Quiero aparecer en respuestas de IA”

Si tu negocio se beneficia de que ChatGPT, Claude o Perplexity te citen cuando alguien pregunta sobre tu tema, necesitas que los search crawlers y los user-request fetchers puedan acceder. Los training crawlers son tu decisión — bloquearlos no afecta a la visibilidad en búsqueda IA.

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Claude-User
Allow: /

Esta configuración bloquea el entrenamiento pero permite la búsqueda y las peticiones de usuario. Es la que uso yo en tecnicaseo.com.

Escenario 2: “No me importa el entrenamiento, quiero máxima visibilidad”

Si tu prioridad es aparecer en todas partes y no te preocupa que entrenen modelos con tu contenido:

User-agent: *
Allow: /

Sitemap: https://tudominio.com/sitemap.xml

Sin restricciones. Todos los bots pueden acceder a todo. Es la configuración más simple y la que más visibilidad te da — tanto en buscadores tradicionales como en IA.

Un dato interesante: Tollbit documentó que los publishers que tienen acuerdos formales con OpenAI reciben un 88% más de rastreo y mejor CTR desde ChatGPT². Es decir, permitir el acceso no solo te da visibilidad — parece que las plataformas priorizan a quienes cooperan.

Escenario 3: “Quiero bloquear todo, es mi contenido”

Si eres un medio de comunicación o un creador de contenido que no quiere que ningún bot de IA use su trabajo sin compensación:

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Claude-SearchBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: Claude-User
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Perplexity-User
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Meta-ExternalFetcher
Disallow: /

Es una postura legítima. Pero entiende que desapareces de las respuestas de IA por completo. Si alguien le pregunta a ChatGPT “¿qué web me recomiendas para X?”, no estarás en la respuesta. Es un trade-off consciente.

Lo que yo hago (y por qué)

Para la mayoría de negocios — consultoría, servicios, ecommerce, blogs — el escenario 1 es el más sensato. Permites que te encuentren en búsquedas IA, permites que los usuarios te lean a través de chatbots, pero no regalas tu contenido para entrenamiento masivo.

Dicho esto, si tu contenido es tu producto principal (eres periodista, escritor, fotógrafo), el escenario 3 tiene todo el sentido. No es paranoia — es proteger tu negocio.

Una aclaración sobre Google-Extended y AI Overviews

Esto genera mucha confusión y merece que lo repita: bloquear Google-Extended NO afecta a AI Overviews. AI Overviews — esos resúmenes que Google pone encima de los resultados de búsqueda — usan Googlebot estándar. Si tu web es accesible para Google Search, puede aparecer en AI Overviews independientemente de lo que hagas con Google-Extended.

Google-Extended solo controla si tu contenido se usa para entrenar Gemini y Vertex AI (los modelos de IA de Google). Es un control sobre entrenamiento, no sobre visibilidad en búsqueda.

Lo que viene: llms.txt, AIPREF y el futuro del acceso

El panorama de robots.txt y bots de IA no va a quedarse como está. Hay al menos dos iniciativas que conviene tener en el radar, aunque ninguna es urgente todavía.

llms.txt — una buena idea que los grandes ignoran

Jeremy Howard propuso en septiembre de 2024 un formato llamado llms.txt¹¹. La idea es poner un archivo en la raíz de tu web (/llms.txt) escrito en Markdown que le explique a un LLM de qué va tu sitio, cuáles son las páginas más importantes y cómo está organizado.

La teoría suena bien: los LLMs trabajan mejor con texto limpio que con HTML lleno de navegación, anuncios y JavaScript. Darles un resumen optimizado debería mejorar cómo te entienden y te citan.

La realidad: los bots grandes se lo saltan. ChatGPT, Gemini y Claude no lo leen — quieren rastrear tu web real y entenderla por su cuenta. Lo ven como un intento de manipulación: tú decidiendo qué ven en vez de dejarles leer todo y sacar sus conclusiones. Es la misma lógica por la que Google dejó de hacer caso a la meta tag keywords hace 15 años — si el webmaster controla la señal, la señal pierde valor.

¿Para qué sí sirve? Para casos muy concretos: si tienes documentación técnica extensa (una API, un framework, un producto con mucha documentación) y quieres que los chatbots la entiendan mejor cuando un usuario pregunta algo específico. Ahí puede ayudar. Pero para un blog, un ecommerce o una web de servicios, no merece tu tiempo. Lo cubro con más contexto en mi artículo sobre UCP y agentic commerce.

IETF AIPREF — el intento de estandarizar todo esto

El IETF — la organización que estandarizó HTTP, el protocolo sobre el que funciona internet — creó un grupo de trabajo llamado AIPREF (AI Preferences) para definir un estándar formal¹². La idea es crear un vocabulario común para que los publishers expresen sus preferencias sobre cómo se usa su contenido: si permiten entrenamiento, si permiten búsqueda, si quieren cobrar, etc.

Es la señal más seria de que esto va en serio. Cuando el IETF se pone a trabajar en algo, suele acabar siendo un estándar de la industria. Pero “suele acabar” puede significar años.

Mi opinión: esto no cambia nada de lo que deberías hacer hoy. Cuando haya un estándar, lo cubriré aquí. De momento, robots.txt + el panel de tu CDN es lo que funciona.

Conclusión

robots.txt ha pasado de ser un archivo que configuras una vez y te olvidas a una decisión de negocio que afecta a tu visibilidad en IA.

Lo que he visto auditando webs es que la mayoría de problemas no son de configuración — son de desconocimiento. Gente que no sabe que Cloudflare les está bloqueando bots. Gente que bloquea GPTBot pensando que así evita AI Overviews (no funciona así). Gente que permite todo sin saber que su contenido se usa para entrenamiento.

Lo básico lleva 10 minutos:

Abre tudominio.com/robots.txt y mira qué tienes
Si usas Cloudflare, entra al panel de AI Crawl Control y revisa qué bots están bloqueados
Decide tu estrategia según tu modelo de negocio (los tres escenarios que he explicado arriba te dan un punto de partida)

Si quieres entender por qué importa estar visible para los bots de IA — más allá de la configuración técnica — tengo una investigación completa sobre SEO para inteligencia artificial con datos y fuentes verificadas. Y si lo que te interesa es crear contenido que la IA pueda citar, eso lo cubro en la guía de creación de contenido SEO.

Y si prefieres que le eche un ojo yo a tu configuración, escríbeme por LinkedIn. Es una revisión de 5 minutos.

Referencias

[1] RFC 9309 — Robots Exclusion Protocol — https://www.rfc-editor.org/rfc/rfc9309

[2] Tollbit — Bot Tracker Q2 2025 — https://tollbit.com/bots/25q2/

[3] Cloudflare — Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives — https://blog.cloudflare.com/perplexity-is-using-stealth-undeclared-crawlers-to-evade-website-no-crawl-directives/

[4] Google — Google-Extended Crawler Update (April 2025) — https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers

[5] OpenAI — Overview of OpenAI Crawlers — https://platform.openai.com/docs/bots

[6] SE Roundtable — Anthropic Updates Its Crawler Documentation: ClaudeBot, Claude-User & Claude-SearchBot — https://www.seroundtable.com/anthropic-updates-its-crawler-docs-40978.html

[7] Cloudflare — Declare your AIndependence: block AI bots, scrapers and crawlers with a single click — https://blog.cloudflare.com/declaring-your-aindependence-block-ai-bots-scrapers-and-crawlers-with-a-single-click/

[8] Cloudflare — AI Crawl Control docs — https://developers.cloudflare.com/ai-crawl-control/

[9] Cloudflare — Robotcop: enforcing your robots.txt policies and stopping bots before they reach your website — https://blog.cloudflare.com/ai-audit-enforcing-robots-txt/

[10] Cloudflare — Giving users choice with Cloudflare’s new Content Signals Policy — https://blog.cloudflare.com/content-signals-policy/

[11] Jeremy Howard — The /llms.txt file — https://llmstxt.org/

[12] IETF — AI Preferences (AIPREF) Working Group Charter — https://datatracker.ietf.org/doc/charter-ietf-aipref/