AI crawling 2026: controla bots LLM sin perder el SEO

Qué es el ai crawling

Ai crawling es un término paraguas para las solicitudes web automatizadas realizadas por sistemas vinculados a la ia generativa y a la búsqueda asistida por ia. En la práctica: bots descargan tus páginas, analizan el HTML, extraen texto (y a veces datos estructurados) y reutilizan esa información con distintos fines: entrenamiento, indexación, retrieval para respuestas o “fetch” en vivo cuando un usuario le pide a un asistente ia que abra una URL.

No es exactamente lo mismo que el crawling clásico de los motores de búsqueda. Hay solapamientos, pero los crawlers de ia suelen tener user agents distintos, patrones de acceso distintos e incentivos económicos diferentes.

Por qué se volvió un tema crítico

Ai crawling se volvió un problema serio por la combinación de tres factores:

Coste y riesgo de rendimiento: grandes volúmenes de bots consumen ancho de banda, aumentan los cache miss y disparan renderizados dinámicos caros, especialmente en WordPress y otros CMS.
Extracción de valor del contenido: tu contenido puede resumirse y usarse en respuestas de ia sin generar el mismo click-through que los resultados tradicionales.
Necesidad de control: publishers y dueños de sitios quieren opciones más granulares que “bloquear todo” vs “permitir todo”, y un enforcement real más allá de la cortesía de robots.txt.

En sitios monetizados con publicidad esto duele más: más carga, sin garantía de más pageviews.

Tipos de ai crawling que verás en la práctica

Crawlers de entrenamiento

Recolectan grandes volúmenes de contenido público para desarrollar modelos. Suelen mostrar patrones de crawl amplio: muchas URLs, descubrimiento rápido vía sitemap y revisitas periódicas.

Crawlers de búsqueda ia e indexación

Productos de búsqueda basados en ia construyen un índice para citar, enlazar y resumir páginas. Tienden a concentrarse en páginas “de alto señal” y a volver a contenidos que cambian.

Retrieval disparado por el usuario

Cuando un usuario dice “abre esta URL y resume”, el asistente puede fetcher esa página. El tráfico suele llegar en bursts y concentrarse en páginas concretas.

Comportamiento híbrido

Algunos actores operan múltiples bots o cambian de modo. Sin mapear user agents y patrones, los logs pueden parecer inconsistentes.

User agents, spoofing y por qué no debes confiar a ciegas

En producción, la identificación se basa sobre todo en user agent (y a veces rangos IP publicados). También verás crawlers de datasets públicos con mucho volumen.

Dos realidades clave:

Los user agents se falsifican fácil. Bloquear solo por UA frena a los bots “compliant”, no a los scrapers agresivos.
Verified vs unverified lo cambia todo. Muchos CDN/WAF pueden identificar bots verificados. El resto debe clasificarse por comportamiento: rate, paths, headers, fingerprinting y reputación.

Por eso conviene pensar en capas: user agent + verificación IP/reputación + análisis de comportamiento.

Robots.txt: lo que puede y lo que no puede hacer

robots.txt es una política de crawl, no un sistema de autorización.

Puede:

reducir carga manteniendo a bots respetuosos fuera de endpoints caros
segmentar zonas (allow /kb/, disallow /private/)
dar señales de crawling que muchos bots siguen

No puede:

proteger contenido (un bot no compliant puede fetcher igual)
detener scraping si el bot ignora las reglas
reemplazar autenticación, paywalls o authorization

Si necesitas control “duro”, robots.txt es solo la primera capa.

Meta robots y X-Robots-Tag: control fino por documento

Robots.txt trabaja por ruta; meta robots y X-Robots-Tag trabajan por documento.

Casos de uso:

evitar que ciertas páginas aparezcan en índices sin bloquear el fetch completo
excluir páginas “thin” (tags, búsqueda interna)
limitar previews/snippets en algunos ecosistemas

Matiz importante: si bloqueas un bot en robots.txt, quizá nunca llegue a leer tus meta directivas. Debes elegir: permitir fetch y controlar por meta o bloquear fetch.

Estrategias robots.txt comunes contra ai crawling

Son patrones. Sustituye los nombres por los user agents que veas en tus logs.

Estrategia 1: permitir búsqueda ia, bloquear entrenamiento

Objetivo: ser citado y enlazado, pero limitar extracción para training.

Estrategia 2: bloquear la mayor parte del crawling ia

Objetivo: opt-out amplio (según el respeto de cada bot).

Estrategia 3: permitir solo un directorio “safe”

Objetivo: publicar una base de conocimiento tolerable y proteger el resto.

Estrategia 4: proteger endpoints caros

Objetivo: alejar bots de zonas dinámicas o frágiles.

Ojo: wp-json puede ser necesario para plugins o integraciones. Si lo necesitas públicamente, mejor rate limiting que disallow total.

Waf, rate limiting y bot management: donde existe el control real

Si los bots no se comportan, necesitas enforcement en el edge.

Rate limiting

Ejemplos:

máximo de requests/minuto por IP
límites más estrictos en endpoints caros (search, wp-json, ajax)
control de bursts (picos) y sustained (tráfico continuo)

Challenges

Para tráfico sospechoso:

desafío JavaScript
managed challenge
acceso tokenizado para endpoints sensibles

No lo uses en modo “escopeta”: challenges demasiado amplios rompen UX.

Bot score y reputación

Muchos CDN/WAF ofrecen:

allowlists de bots conocidos
clasificación de bots verificados
señales de bot score

Esto ayuda a separar bots reales de user agents spoofeados.

WordPress: puntos críticos y fixes

WordPress se vuelve caro cuando el caching no está bien cerrado.

1) Cache HTML para usuarios anónimos

cachear HTML para visitantes no logueados
evitar que query strings innecesarios cambien el cache key
reducir personalización que rompe caché

2) Proteger endpoints dinámicos

Hotspots:

/wp-admin/admin-ajax.php
/wp-json/
búsqueda interna (/?s=)

Aquí: rate limiting agresivo para unknown bots y reglas WAF dedicadas.

3) No dejes que el sitemap amplifique la carga

Muchos bots empiezan por:

/robots.txt
/sitemap.xml
/post-sitemap.xml

Asegura que sea rápido y cacheado. Sitemaps lentos y dinámicos generan problemas.

Allow, limit o block: decide según tu modelo de negocio

Allow (con guardrails) si:

ves tráfico referer medible desde búsqueda ia
te importan citas y brand discovery
tu coste marginal por página es bajo gracias a caché

Limit si:

los bots cuestan, pero quieres probar visibilidad
puedes separar páginas “commodity” de “premium”
quieres datos antes de decidir

Block si:

tu monetización depende de pageviews y session depth
observas “respuesta sin clic” con frecuencia
costes infra y riesgo de rendimiento superan beneficios

Compromiso común: permitir ai search, bloquear training, limitar unknown bots fuerte.

Cómo reconocer ai crawling en logs: checklist práctica

Patrones

recorrido rápido de muchas URLs con pocos assets (css/js/images)
hits repetidos a robots.txt y sitemaps
alto ratio de 404 por descubrimiento ingenuo
headers raros y timing regular o en bursts

Pistas de fingerprint

a menudo sin cookies
pocas requests secundarias (assets)
intervalos consistentes o picos muy marcados

“Spoof test”

Si algo dice ser un bot grande pero viene de IPs aleatorias y actúa como scraper, trátalo como scraper. El UA no prueba nada.

Un plan de control simple y robusto (para implementar ya)

Paso 1: mapear tráfico bot

exporta 7–14 días de access logs
agrupa por user agent
calcula: requests, bandwidth, cache hit rate, top paths, 404 rate, mediana de tiempos de respuesta

Paso 2: clasificar por buckets

search bots verificados (mantener)
ai search bots verificados (evaluar)
training/dataset bots (bloquear/limitar)
unknown bots (limitar agresivo)

Paso 3: proteger primero superficies caras

endpoints de búsqueda
APIs
páginas dinámicas sin caché
páginas pesadas en DB

Paso 4: apilar capas de política

robots.txt para compliance “educada”
WAF para enforcement
rate limiting para control de carga
fixes de caching para bajar el coste marginal

Paso 5: medir semanalmente

Monitoriza:

origin requests y carga
cache hit ratio
spikes de unknown bots
TTFB/LCP
revenue por 1.000 sesiones
tráfico referer desde ai search (si existe)

Tácticas avanzadas para publishers exigentes

Entregar una versión “crawler-friendly” más barata

HTML prerender para anónimos
reducir widgets no esenciales para bots (cuidado con servir versiones “materialmente diferentes”)

Zoning de contenido

Poner premium detrás de:

login
suscripción
token access
signed URLs

Estructura para resúmenes más correctos

Si permites acceso, mejora precisión con:

headings claros
bloques FAQ
tablas bien etiquetadas
definiciones y secciones step-by-step

Esto ayuda SEO y reduce errores en respuestas de ia.

Errores comunes que se vuelven en tu contra

bloquear todo (incluyendo bots legítimos de búsqueda) y perder orgánico
confiar solo en robots.txt mientras scrapers ignoran todo
no cachear HTML: cada hit bot se vuelve PHP + DB
challenges demasiado amplios que afectan usuarios reales (y a veces ads)
“query-string explosion” creando espacios infinitos de crawl

Un template robots.txt para empezar

Conservador para muchos WordPress; luego ajusta:

Si necesitas wp-json públicamente, mejor rate limiting que disallow.

Las imágenes utilizadas en este artículo son generadas por IA o provienen de plataformas libres de derechos como Pixabay o Pexels.