Cómo monitorizar qué bots visitan tu sitio web
Tu sitio web tiene más visitantes de los que crees, y la mayoría no son humanos. Crawlers de motores de búsqueda, bots de previsualización de redes sociales, scrapers de entrenamiento de IA, herramientas SEO, monitores de uptime y scrapers maliciosos envían peticiones automatizadas a tu servidor las 24 horas del día. Saber quién te visita, con qué frecuencia y qué está haciendo es esencial para la seguridad, el rendimiento y el SEO. Esta guía te lleva paso a paso por la monitorización, verificación y gestión del tráfico de bots en cualquier sitio web.
Por qué importa la monitorización de bots
El tráfico de bots supone típicamente entre el 30 % y el 50 % de todo el tráfico web, y en algunos sitios supera al tráfico humano. No todos los bots son iguales:
- Bots beneficiosos (Googlebot, Bingbot, Applebot) indexan tu contenido y generan tráfico orgánico. Bloquearlos por error significa desaparecer de los resultados de búsqueda.
- Bots neutros (crawlers SEO como Screaming Frog o Ahrefs, monitores de uptime) cumplen propósitos legítimos pero consumen recursos del servidor.
- Bots maliciosos (scrapers, rellenadores de credenciales, escáneres de vulnerabilidades, crawlers falsos) roban contenido, atacan la infraestructura y distorsionan las analíticas.
Sin monitorización, no puedes distinguirlos. Podrías estar bloqueando un crawler legítimo que intenta indexar tus nuevas páginas de producto, o podrías estar sirviendo miles de peticiones por hora a un scraper que está clonando tu sitio entero.
Análisis de logs del servidor: la base
Los logs del servidor son la fuente más fiable de datos de actividad de bots. A diferencia de las analíticas basadas en JavaScript (que la mayoría de los bots nunca ejecutan), los logs del servidor capturan cada petición HTTP independientemente del cliente.
Entender el formato de log
La mayoría de los servidores web usan el formato Combined Log por defecto. Una entrada típica tiene este aspecto:
66.249.79.1 - - [31/Mar/2026:14:22:05 +0000] "GET /productos/widget HTTP/1.1" 200 12543 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
Los campos clave para la monitorización de bots son:
- Dirección IP (66.249.79.1): se usa para verificación y geolocalización.
- URL solicitada (/productos/widget): muestra qué páginas visitan los bots.
- Código de estado (200): revela los errores que encuentran los bots.
- Cadena User-Agent: la identidad declarada por el bot.
Filtrar peticiones de bots
Extrae el tráfico de bots filtrando por el campo User-Agent. Patrones comunes a buscar:
Googlebot,bingbot,Applebot,DuckDuckBot— motores de búsqueda principales.facebookexternalhit,Twitterbot,LinkedInBot,Slackbot— bots de previsualización de redes sociales.AhrefsBot,SemrushBot,MJ12bot,DotBot— herramientas SEO y de marketing.GPTBot,ClaudeBot,Google-Extended— bots de entrenamiento y recuperación de IA.python-requests,curl,wget,Go-http-client— bibliotecas genéricas usadas frecuentemente por scrapers personalizados.
Construye un script o usa una herramienta de análisis de logs para agrupar peticiones por User-Agent, contar accesos diarios, listar las URLs más solicitadas y rastrear la distribución de códigos de estado por bot.
Herramientas para el análisis de logs
No necesitas software empresarial para empezar. Opciones prácticas incluyen:
- Herramientas de línea de comandos:
awk,grep,sortyuniqpueden extraer patrones de tráfico de bots de archivos de log en minutos. - GoAccess: un analizador de logs en tiempo real que funciona en el terminal o genera informes HTML. Excelente para obtener una visión general rápida.
- ELK Stack (Elasticsearch, Logstash, Kibana): potente para análisis a gran escala con paneles y alertas.
- Servicios de logging en la nube: Datadog, Splunk, Google Cloud Logging y AWS CloudWatch soportan la ingesta de logs con paneles específicos para bots.
Identificación de bots por User-Agent
La cadena User-Agent es la identidad auto-declarada de un bot. Los crawlers legítimos usan cadenas bien documentadas que incluyen su nombre y una URL con más información. Sin embargo, el User-Agent es trivialmente fácil de suplantar — cualquier cliente HTTP puede establecerlo con la cadena que quiera.
Esto significa que el filtrado por User-Agent es útil para la categorización pero insuficiente para la verificación. Una petición que dice ser Googlebot puede venir de un scraper en un centro de datos que no tiene nada que ver con Google. Por eso la verificación es un paso separado y esencial.
Verificación de bots legítimos con DNS inverso
El estándar de referencia para verificar que un bot es quien dice ser es la búsqueda DNS inversa seguida de una confirmación DNS directa. Este es el proceso:
Paso 1: Búsqueda DNS inversa
Toma la dirección IP de la entrada del log y realiza una búsqueda DNS inversa:
host 66.249.79.1
Si el bot es un Googlebot legítimo, el resultado será un hostname que termina en .googlebot.com o .google.com:
1.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-1.googlebot.com.
Paso 2: Confirmación DNS directa
Ahora resuelve ese hostname de vuelta a una dirección IP:
host crawl-66-249-79-1.googlebot.com
Si la IP devuelta coincide con la original (66.249.79.1), el bot está verificado. Si la búsqueda inversa devuelve un hostname que no pertenece a Google, o la búsqueda directa no coincide, la petición es de un impostor.
Verificación para otros motores de búsqueda
Cada motor de búsqueda principal publica sus hostnames legítimos y rangos de IP:
- Googlebot: hostnames que terminan en
.googlebot.como.google.com. - Bingbot: hostnames que terminan en
.search.msn.com. - Applebot: rangos de IP publicados por Apple, verificables por DNS inverso a
.applebot.apple.com. - Yandex: hostnames que terminan en
.yandex.com,.yandex.ruo.yandex.net.
Detección de Googlebots falsos
Los Googlebots falsos son un problema persistente. Scrapers, spammers y escáneres de vulnerabilidades se disfrazan frecuentemente con el User-Agent de Googlebot para eludir las restricciones de acceso que los webmasters configuran para bots desconocidos.
Señales de alerta de Googlebots falsos
- La dirección IP no pertenece a la red de Google. La verificación por DNS inverso es definitiva — si el hostname no termina en
.googlebot.como.google.com, no es Google. - Patrones de rastreo inusuales. El Googlebot real respeta
robots.txt, distribuye las peticiones en el tiempo y no martillea un solo endpoint. Los bots falsos suelen hacer peticiones rápidas y secuenciales o apuntar a páginas de login y formularios. - Peticiones desde rangos de IP residenciales o comerciales. Google rastrea desde sus propios centros de datos, no desde ISPs, VPNs o proveedores cloud que no sean Google Cloud.
- Ausencia de comportamiento de renderizado. El Googlebot real renderiza JavaScript. Los bots falsos que dicen ser Googlebot típicamente solo descargan el HTML.
Detección automatizada de bots falsos
Para sitios con alto tráfico, la verificación manual es impracticable. Automatízala:
- Extrayendo todas las IPs que declaran un User-Agent de Googlebot de tus logs.
- Ejecutando búsquedas DNS inversas por lotes.
- Marcando cualquier IP que no resuelva a un hostname propiedad de Google.
- Opcionalmente, bloqueando esas IPs a nivel de firewall o WAF.
Usar analíticas para filtrar tráfico de bots
Las herramientas de analítica basadas en JavaScript como Google Analytics filtran naturalmente la mayoría de los bots porque estos típicamente no ejecutan JavaScript. Sin embargo, algunos bots sofisticados sí ejecutan JS y pueden contaminar tus datos con sesiones falsas, tasas de rebote distorsionadas y páginas vistas fantasma.
Pasos para limpiar tus analíticas
- Activa el filtrado de bots en Google Analytics (Administrador > Configuración de la vista > casilla de Filtrado de bots en Universal Analytics, o el equivalente en GA4).
- Crea segmentos que excluyan patrones de tráfico de bots conocidos: sesiones con duración de cero segundos, visitas a páginas trampa (honeypot), tráfico desde ASNs de centros de datos.
- Monitoriza el spam de referencia: URLs de referencia falsas que aparecen en tus informes de adquisición suelen ser generadas por bots. Fíltralas por hostname o fuente de referencia.
- Cruza datos con los logs del servidor: si las analíticas muestran 10.000 sesiones diarias pero los logs muestran 50.000 peticiones, la diferencia es en gran parte tráfico de bots. Entender esta brecha te ayuda a dimensionar correctamente tu infraestructura.
Herramientas y servicios para la gestión de bots
A medida que el tráfico de bots crece en volumen y sofisticación, las soluciones dedicadas de gestión de bots se han vuelto esenciales para muchos sitios.
Firewalls de aplicaciones web (WAF)
Servicios como Cloudflare, AWS WAF y Sucuri ofrecen detección de bots como parte de su suite de seguridad. Utilizan bases de datos de reputación de IP, análisis de comportamiento, desafíos JavaScript y puertas CAPTCHA para distinguir bots legítimos de maliciosos. La mayoría permite crear reglas personalizadas que permitan bots de motores de búsqueda verificados mientras desafían o bloquean todo lo demás.
Plataformas dedicadas de gestión de bots
Para operaciones más grandes, plataformas como Cloudflare Bot Management, Akamai Bot Manager y DataDome proporcionan capacidades avanzadas: clasificación de bots basada en machine learning, fingerprinting de dispositivos, paneles en tiempo real y acciones de respuesta automatizadas. Son particularmente valiosas para sitios de e-commerce que enfrentan scraping de precios, acaparamiento de inventario y ataques de toma de cuentas.
robots.txt y meta robots
No subestimes lo básico. Un archivo robots.txt bien mantenido con reglas específicas por User-Agent, combinado con directivas meta robots o X-Robots-Tag para un control granular, sigue siendo la primera línea de defensa para gestionar bots bien comportados. Estos mecanismos no detienen a los bots maliciosos (que ignoran las reglas), pero son esenciales para dirigir a los crawlers legítimos.
Construyendo un flujo de trabajo de monitorización de bots
Poniendo todo junto, este es un flujo de trabajo práctico para la monitorización continua de bots:
- Revisión semanal de logs: comprueba el volumen de tráfico de bots, los principales User-Agents, las URLs más rastreadas y las tasas de error.
- Verificación mensual: ejecuta comprobaciones DNS inversas en las principales IPs que declaran ser bots de motores de búsqueda.
- Auditoría trimestral: revisa las reglas de
robots.txt, comprueba si hay nuevos bots que deberían permitirse o bloquearse y verifica que tus sitemaps se están descargando. - Alertas ante anomalías: configura alertas para picos repentinos en el tráfico de bots, tasas de error inusuales o nuevos User-Agents que aparezcan en volumen.
Cómo ayuda Spider.es
Spider.es comprueba cómo tu sitio responde al acceso de crawlers — verificando las reglas de robots.txt, probando la accesibilidad de las páginas y confirmando que las directivas que los bots encuentran coinciden con tus intenciones. Al simular el comportamiento de los bots, revela discrepancias entre lo que crees que ven los bots y lo que realmente experimentan. Úsalo junto con tu análisis de logs para obtener una imagen completa del ecosistema de bots de tu sitio.
Reflexiones finales
La monitorización de bots no es una auditoría puntual — es una práctica continua. El panorama del tráfico automatizado evoluciona constantemente, con nuevos crawlers de IA, nuevos scrapers y nuevos vectores de ataque apareciendo regularmente. Los sitios que mantienen visibilidad, rendimiento y seguridad son aquellos que saben exactamente quién llama a su puerta y si deben dejarlo pasar.