Seu site recebe mais bots do que visitantes — e o que estamos fazendo sobre isso

Nas últimas semanas, identificamos em vários servidores de clientes um padrão cada vez mais comum na internet: o volume de requisições feitas por bots frequentemente supera, por larga margem, o tráfego de visitantes reais. Não se trata de ataques sofisticados nem de falhas nos sites. O problema é mais simples e, justamente por isso, mais difícil de perceber: robôs automatizados consumindo recursos do servidor como se fossem pessoas navegando.

Neste post, explicamos o que encontramos, por que isso acontece e quais medidas adotamos para reduzir o impacto desse tipo de tráfego.

Seções desta página

O sintoma: recursos consumidos sem visitantes reais

O primeiro sinal costuma ser discreto. O servidor apresenta uso de CPU e memória acima do esperado para o volume real de visitas que o site recebe. O Google Analytics mostra um número modesto de visitantes por dia, mas os logs do Nginx revelam outra realidade, com milhares de requisições que não aparecem em nenhuma ferramenta de análise.

Esse consumo invisível tem consequências práticas: o site responde mais lentamente para visitantes reais, o servidor gasta recursos atendendo tráfego que não gera valor e, em situações mais críticas, outros serviços que compartilham o mesmo hardware também podem ser afetados.

O que os logs mostraram

Quando analisamos os logs de acesso dos servidores afetados, o padrão ficou claro. Uma parcela significativa das requisições vinha de User-Agents que se identificavam como navegadores muito antigos, como Chrome 41, Firefox 52, Internet Explorer 11 e variações semelhantes. Em alguns casos, o campo User-Agent estava completamente vazio, ou ainda pior, o “visitante” se apresentava como Firefox 2.0.

Para colocar em perspectiva, o Chrome já está na versão 145 em 2026. Praticamente ninguém navega com Chrome 41 atualmente, a menos que esteja usando algum sistema embarcado muito específico. Na maioria das vezes, esse tipo de identificação indica um bot que não tentou sequer simular um navegador moderno.

Esses acessos vinham de centenas de IPs distribuídos por diversos países. As requisições percorriam URLs de forma sistemática, como crawlers que varrem o site inteiro página por página sem qualquer interação real com o conteúdo.

Ao observar os logs com mais atenção, o comportamento também se torna bastante característico. Visitantes humanos tendem a navegar de forma irregular: entram em uma página, permanecem algum tempo, clicam em alguns links e eventualmente deixam o site.

Bots costumam seguir padrões muito mais previsíveis.

Em vários casos observamos sequências como estas:

GET /
GET /about/
GET /contact/
GET /blog/
GET /blog/page/2/
GET /blog/page/3/
GET /blog/page/4/

ou varreduras completas de conteúdo típico de WordPress:

GET /wp-content/uploads/2023/01/
GET /wp-content/uploads/2023/02/
GET /wp-content/uploads/2023/03/
GET /wp-content/uploads/2023/04/
GET /wp-content/uploads/2023/05/

Também é comum ver bots tentando acessar endpoints conhecidos do ecossistema WordPress:

GET /wp-json/
GET /wp-json/wp/v2/posts
GET /xmlrpc.php
GET /wp-login.php
GET /feed/

Esse tipo de comportamento dificilmente corresponde a uma navegação humana real. Em alguns casos, um único IP percorre centenas ou milhares de páginas em poucos minutos.

Mesmo quando essas requisições são tecnicamente válidas, o efeito acumulado pode ser significativo para o servidor.

Por que bots se disfarçam de navegadores antigos

A maioria dos bots precisa se identificar de alguma forma ao acessar um site. O campo User-Agent do protocolo HTTP serve exatamente para isso, pois informa ao servidor qual navegador e sistema operacional estão sendo utilizados.

Bots legítimos, como o Googlebot, se identificam corretamente. Já grande parte dos crawlers automatizados utiliza um User-Agent genérico, geralmente associado a navegadores populares de muitos anos atrás.

Isso acontece por vários motivos. Muitos desses bots são baseados em scripts antigos que nunca foram atualizados. Outros utilizam bibliotecas de automação cujo User-Agent padrão ficou congelado em versões antigas. Também existem bots que escolhem deliberadamente essas strings porque sabem que muitos servidores não fazem nenhum tipo de verificação.

O resultado é sempre o mesmo: um volume elevado de tráfego que consome banda, CPU e memória sem gerar qualquer benefício para o proprietário do site.

O aumento recente de bots na web

Esse tipo de tráfego também vem crescendo de forma consistente nos últimos anos.

Parte desse aumento é explicada por crawlers legítimos — buscadores, sistemas de monitoramento, verificadores de links e serviços de arquivamento. Esses robôs fazem parte do funcionamento normal da web.

O problema é que, ao lado desses sistemas, existe um volume crescente de ferramentas que coletam conteúdo em grande escala. Scrapers, agregadores, sistemas de coleta de dados e diversos tipos de automação percorrem a web continuamente em busca de informação pública.

O crescimento recente de sistemas baseados em inteligência artificial acelerou ainda mais esse processo. Muitos desses sistemas precisam coletar grandes volumes de conteúdo para treinar modelos, atualizar bases de dados ou alimentar serviços automatizados.

Do ponto de vista desses sistemas, visitar milhares de páginas por hora é normal. Do ponto de vista de um servidor web que precisa responder individualmente a cada requisição, isso pode se traduzir rapidamente em consumo desnecessário de recursos.

A “teoria da internet morta”

Nos últimos anos também surgiu uma discussão curiosa na comunidade técnica chamada Dead Internet Theory, ou “teoria da internet morta”.

Em versões mais exageradas que circulam na internet, essa teoria afirma que a maior parte da atividade online já seria gerada por bots e não por pessoas. Essas versões costumam entrar em território conspiratório.

Mas existe um aspecto dessa discussão que faz sentido para quem administra servidores.

Ao analisar logs de acesso de muitos sites, não é raro encontrar situações em que o volume de requisições automatizadas rivaliza ou até supera o número de visitantes humanos.

Isso não significa que a internet esteja “morta”. Significa apenas que a web moderna é muito mais automatizada do que era há alguns anos — e que uma parte considerável da atividade que chega aos servidores não vem de pessoas.

A solução: filtragem por User-Agent no Nginx

A solução que adotamos foi direta. Configuramos o Nginx para identificar requisições com User-Agents de navegadores que praticamente não têm uso real em 2026 e rejeitar essas conexões antes que elas cheguem à aplicação.

Na prática, o servidor agora verifica o User-Agent de cada requisição e bloqueia automaticamente acessos que se apresentem como versões antigas de Chrome (abaixo da versão 100), Firefox (abaixo da versão 100), qualquer versão do Internet Explorer ou requisições que não enviem User-Agent.

Também bloqueamos User-Agents sabidamente utilizados apenas por bots ou ferramentas automatizadas.

Nessas situações, a conexão é recusada imediatamente. O bot não recebe sequer uma página de erro, o que economiza banda e evita fornecer qualquer informação útil para quem está fazendo a requisição.

Buscadores legítimos como Google, Bing e DuckDuckGo não são afetados. Esses serviços utilizam User-Agents próprios e foram explicitamente incluídos na lista de permissões da configuração.

Antes e depois do bloqueio

Os resultados apareceram rapidamente nos servidores onde a filtragem foi aplicada.

O volume total de requisições caiu 60% nas primeiras 24 horas.
O uso médio de CPU dos servidores afetados reduziu 70%.
O tempo médio de resposta para visitantes reais melhorou de forma perceptível.

Gráfico ilustrativo. Não representa um servidor real nem métricas exatas de produção.

Um ajuste necessário após a implantação

Vale registrar também que a primeira versão dessa filtragem foi agressiva demais.

Como o objetivo inicial era eliminar rapidamente um volume grande de tráfego automatizado, as regras bloquearam qualquer cliente que não apresentasse um User-Agent moderno reconhecível. Isso resolveu o problema dos bots imediatamente, mas também acabou bloqueando algumas ferramentas legítimas usadas por clientes.

O caso mais visível foi o de automações feitas com n8n, que realizam requisições HTTP programáticas e nem sempre enviam um User-Agent típico de navegador. Essas chamadas passaram a ser rejeitadas pela regra inicial.

Assim que identificamos o problema nos logs, ajustamos a configuração para permitir esse tipo de acesso legítimo.

Esse tipo de ajuste faz parte do processo quando se introduz novas camadas de filtragem. O objetivo não é bloquear indiscriminadamente, mas reduzir o volume de tráfego automatizado desnecessário sem interferir no funcionamento normal das aplicações dos clientes.

Proteção contínua, não solução definitiva

É importante deixar claro que essa medida não elimina todos os bots e nem pretende fazer isso.

Bots mais sofisticados utilizam User-Agents atualizados e conseguem se comportar de maneira muito semelhante a visitantes reais. A filtragem por User-Agent funciona como uma primeira camada de defesa, eficaz contra o volume mais evidente de tráfego automatizado, mas não resolve todos os casos.

Manter a infraestrutura protegida exige monitoramento contínuo. Atualizamos regras, acompanhamos novos padrões de abuso e ajustamos os filtros sempre que necessário.

Esse tipo de trabalho normalmente não aparece no dia a dia do cliente, mas tem impacto direto na estabilidade e na performance dos servidores.

Para clientes da PortoFácil, essa proteção já está ativa. Nenhuma ação é necessária. A filtragem acontece no nível do servidor e funciona de forma transparente, sem interferir no funcionamento normal do site ou no acesso de visitantes legítimos.

Perguntas frequentes

Essa mudança pode bloquear visitantes reais do meu site?

A probabilidade é muito baixa. Os navegadores bloqueados são versões praticamente inexistentes em uso real atualmente. Mesmo assim, monitoramos os logs após a ativação para garantir que não ocorram falsos positivos.

Buscadores como o Google serão afetados?

Não. Googlebot, Bingbot e outros crawlers legítimos utilizam User-Agents próprios e estão explicitamente permitidos na configuração.

Preciso fazer alguma coisa?

Não é necessário. A filtragem ocorre diretamente no Nginx e funciona de forma transparente. Nenhuma configuração adicional é necessária por parte do cliente.

Isso substitui firewall ou proteção contra DDoS?

Não. A filtragem por User-Agent é apenas uma camada complementar de proteção. Ela reduz o volume de tráfego automatizado mais óbvio, mas não substitui mecanismos como firewall de aplicação, rate limiting ou sistemas de mitigação de DDoS, que continuam ativos normalmente.

Janio Sarmento em 10/03/2026