Abbiamo sempre avuto bot che visitavano il nostro sito web. Per lo più erano bot gentili, come i crawler che mantengono aggiornati i database dei motori di ricerca. Questi bot gentili iniziano guardando i nostri file robots.txt prima di fare qualsiasi cosa e rispettano le restrizioni impostate in quei file.
Tuttavia, le cose sono cambiate. Come altri siti web, ad esempio Wikipedia, riceviamo sempre più visite da AI scrapers, bot che raschiano Internet alla ricerca di tutto ciò che riescono a trovare per addestrare le applicazioni di intelligenza artificiale. Di solito sono estremamente affamati di informazioni, quindi scaricano molto, molto di più di quanto farebbe un utente comune. Inoltre, molti di loro sono scortesi: non rispettano le regole stabilite nei nostri file robots.txt, nascondono chi sono veramente e non fanno nemmeno una piccola pausa tra le richieste – al contrario, martellano i nostri server con richieste da tantissimi indirizzi IP diversi contemporaneamente. Il risultato è che parti di mageia.org, come i nostri Bugzilla, Wiki e Forum, diventano irraggiungibili.
Di seguito si può vedere il carico della CPU di uno dei nostri server più importanti, dove si trovano, tra le altre cose, i nostri forum e wiki:

Tutto questo carico sarebbe davvero difficile da mitigare anche se l’aggiornamento delle nostre infrastrutture fosse già stato terminato.
Bloccare gli indirizzi IP usati è inutile in quanto questi bot passano costantemente a indirizzi nuovi. Uno dei nostri sysadmin ha parlato anche di un altro grosso problema: i “proxy mobili” con cui i bot instradano la loro richiesta attraverso i telefoni di ignari utenti. Ciò rende le richieste molto più legittime e difficili da bloccare senza bloccare anche gli utenti reali. Gran parte di ciò accade senza che gli utenti sappiano che il loro telefono viene utilizzato in questo modo. Alcune applicazioni includono proxy insieme ad alcuni giochi o altre app e lì nascondono in caratteri piccoli nei termini di servizio. L’anno scorso, è stato riferito che Google aveva rimosso un sacco di tali applicazioni dal loro negozio.
Oltre ai telefoni, ci sono dispositivi IoT e anche normali computer che sono finiti nelle botnet, perché non erano ben protetti. Questi dispositivi possono essere utilizzati per lo scraping dell’intelligenza artificiale, e probabilmente lo sono anche adesso.
I nostri sysadmin riescono più e più volte a mitigare il problema, ma si tratta di un “gioco del gatto e del topo”, quindi è probabile che questo si ripresenti.
Se conoscete persone che lavorano su applicazioni di intelligenza artificiale che necessitano di essere addestrate, invitateli a far sì che i loro bot leggano e rispettino i file robots.txt che incontrano. E, naturalmente, ricordate ai vostri amici e familiari, quando lo ritenete necessario, di assicurarsi che i loro computer e altri dispositivi smart ricevano tutti gli aggiornamenti di sicurezza non appena questi vengono rilasciati.