Sempre tivemos bots visitando nosso site. Eram, em sua maioria, bots gentis, como os rastreadores que mantêm os bancos de dados dos mecanismos de busca atualizados. Esses bots gentis começam analisando nossos arquivos robots.txt antes de fazer qualquer coisa e respeitam as restrições definidas nesses arquivos.
No entanto, as coisas mudaram. Assim como outros sites, como a Wikipédia, estamos sendo cada vez mais visitados por scrapers de IA, robôs que vasculham a internet em busca de qualquer coisa que encontrem para treinar aplicativos de IA. Eles geralmente são extremamente famintos por informações, então baixam muito, muito mais do que um usuário comum faria. Além disso, muitos deles são indelicados: não respeitam as regras definidas em nossos arquivos robots.txt, escondem quem realmente são, não fazem uma pequena pausa entre as solicitações – pelo contrário, bombardeiam nossos servidores com solicitações de muitos e muitos endereços IP diferentes ao mesmo tempo. O resultado é que partes do mageia.org, como nosso Bugzilla, Wiki e Fóruns, tornam-se inacessíveis.
Abaixo você pode ver a carga da CPU de um dos nossos servidores mais importantes, onde, entre outras coisas, nossos fóruns e wiki estão localizados:
Abaixo você pode ver a carga da CPU de um dos nossos servidores mais importantes, onde, entre outras coisas, nossos fóruns e wiki estão localizados:

Mesmo que nossa atualização de infraestrutura já tivesse sido concluída, isso seria muito difícil de mitigar.
Bloquear os endereços IP usados é inútil, pois eles mudam constantemente para novos. Um dos nossos administradores de sistemas acabou de me contar sobre um grande problema: “proxys móveis”, em que bots fazem proxy de suas solicitações por meio dos celulares de usuários desavisados. Isso faz com que as solicitações pareçam muito mais legítimas e difíceis de bloquear sem também bloquear usuários reais. Grande parte disso acontece sem que os usuários sequer saibam que seus celulares estão sendo usados dessa forma. Alguns aplicativos incluem proxys junto com algum jogo ou outro aplicativo e os escondem em letras miúdas nos termos de serviço. No ano passado, foi relatado que a Google havia removido vários desses aplicativos de sua loja.
Além de celulares, existem dispositivos de IoT e também computadores comuns que acabaram em botnets por não estarem bem protegidos. Eles podem ser usados para raspagem de IA e provavelmente já o são.
Nossos administradores de sistemas conseguem, repetidamente, mitigar o problema, mas é um “jogo de gato e rato”, então é provável que o problema ocorra novamente.
Se você conhece pessoas que trabalham com aplicações de IA e precisam ser treinadas, peça a elas que garantam que seus robôs leiam e respeitem os arquivos robots.txt que encontrarem. E, claro, incentive seus amigos e familiares, quando achar que eles precisam, a garantir que seus computadores e outros dispositivos inteligentes recebam todas as atualizações de segurança assim que forem lançadas.
(escrito em inglês por marja e traduzido por xgrind)