Nos sites web ont toujours eu la visite de robots. Il s’agissait principalement de bots gentils, comme les robots qui maintiennent les bases de données des moteurs de recherche à jour. Ces gentils robots commencent par consulter nos fichiers robots.txt avant de faire quoi que ce soit, et respectent les restrictions définies dans ces fichiers.
Cependant, les choses ont changé. Comme d’autres sites web, par exemple Wikipédia, nos sites sont de plus en plus visités par des « AI scrapers », des robots qui explorent l’internet à la recherche de tout ce qu’ils peuvent trouver pour entraîner des applications d’intelligence artificielle. Ils sont généralement très avides d’informations et téléchargent donc beaucoup, beaucoup plus qu’un utilisateur ordinaire ne le ferait. En outre, nombre d’entre eux sont impolis : ils ne respectent pas les règles définies dans nos fichiers robots.txt, ils cachent leur véritable identité, ils ne marquent pas de pause entre les requêtes – au contraire, ils bombardent nos serveurs de requêtes provenant d’un grand nombre d’adresses IP différentes en même temps. Le résultat est que certaines parties de mageia.org, comme notre Bugzilla, notre Wiki et nos Forums, deviennent inaccessibles.
Ci-dessous, vous pouvez voir la charge CPU de l’un de nos serveurs les plus importants, où se trouvent, entre autres, nos forums et notre wiki :

Même si la mise à niveau de notre infrastructure était déjà terminée, ce ne serait pas suffisant pour pallier ce problème.
La stratégie classique de blocage des adresses IP utilisées est en échec, car les adresses IP utilisées changent constamment. L’un de nos administrateurs système vient de me parler d’un gros problème : les « proxies mobiles », où les robots font passer leurs requêtes par l’intermédiaire de téléphones d’utilisateurs.
Les requêtes paraissent ainsi beaucoup plus légitimes et difficiles à bannir sans risquer de bloquer les utilisateurs réels. Une grande partie de ce phénomène se produit sans que les utilisateurs ne sachent que leur téléphone est utilisé de la sorte. Certaines applications incluent des proxys avec un jeu ou une autre application et le cachent en petits caractères dans les conditions d’utilisation. L’année dernière, il a été signalé que Google avait supprimé un certain nombre d’applications de ce type de sa boutique.
Outre les téléphones, il existe des appareils IoT et des ordinateurs ordinaires qui se sont retrouvés dans des réseaux de zombies parce qu’ils n’étaient pas bien protégés. Ils peuvent être utilisés pour le scraping de l’IA et le sont probablement aujourd’hui.
Nos administrateurs système sont parvenus à plusieurs reprises à atténuer le problème, mais il s’agit d’un « jeu du chat et de la souris », de sorte que le problème est susceptible de se reproduire.
Si vous connaissez des personnes travaillant sur des applications d’intelligence artificielle qui doivent être entrainées, demandez-leur de s’assurer que leurs robots lisent et respectent les fichiers robots.txt qu’ils rencontrent. Et, bien sûr, incitez vos amis et votre famille, lorsque vous pensez qu’ils en ont besoin, à s’assurer que leurs ordinateurs et autres appareils intelligents reçoivent toutes les mises à jour de sécurité dès qu’elles sont publiées.
Rédigé par Marja. Traduit par Papoteur