Wir hatten schon immer Bots, welche unsere Webseite besuchten. Es waren meist freundliche Bots, welche beispielsweise Datenbanken von Suchmaschinen aktuell halten. Diese freundlichen Bots schauen zunächst in die robots.txt Datei, bevor sie irgendetwas machen und respektieren die Einschränkungen, welche durch diese Dateien festgelegt wurden.
Nun haben sich jedoch die Dinge geändert. Wie bei anderen Webseiten, zum Beispiel der Wikipedia, werden wir mehr und mehr von „AI Scraper“ besucht. Bots, welche das Internet nach allem was sie finden, abgrasen um ihre KI-Anwendungen zu trainieren. Sie sind für gewöhnlich sehr hungrig nach Informationen und laden deswegen viel herunter. Deutlich mehr als ein gewöhnlicher Anwender dies tun würde. Dabei sind viele unhöflich und respektieren nicht die Regeln, welche man in der robots.txt festgelegt hat, verstecken sich wo sie können, führen keine kleine Pausen zwischen den Anfragen aus – eher das Gegenteil, sie bombardieren unsere Server mit Anfragen von sehr vielen verschiedenen IP-Adressen zur selben Zeit. Das Ergebnis ist, dass Teile von mageia.org, wie unser Bugzilla, Wiki und die Foren (darunter auch das deutschsprachige Forum), unerreichbar werden.
Unten sehen Sie die CPU-Auslastung von einem unserer wichtigsten Server, auf dem, neben anderen Dingen, unsere Foren und Wikis vorhanden sind:
Das Blockieren der IP-Adressen ist nutzlos, da die Bots ständig auf neue wechseln. Einer unserer Systemadministratoren klärte mich über das große Problem auf: „Mobile Proxys“ bei denen Bots ihre Anfragen über Smartphones von ahnungslosen Anwendern senden. Hierbei erscheinen die Anfragen sehr vertrauenerweckend, und es macht es schwer, diese zu blockieren, da dadurch der normale Anwender auch blockiert werden würde. Vieles davon passiert, ohne dass der Anwender des Smartphones mitbekommt, dass sein Gerät hierfür verwendet wird. Einige Anwendungen liefern diese Proxys in Spiele oder anderen Anwendungen mit und verstecken dies in den Nutzungsbedingungen. Letztes Jahr wurde gemeldet, dass Google einige solcher Anwendungen aus ihrem Play Store entfernt haben.
Unabhängig von den Smartphones gibt es auch IoT Geräte und auch gewöhnliche Computer, welche in einem Botnetzwerk enden, da diese nicht ausreichend geschützt sind. Diese können für „AI Scraping“ missbraucht werden und werden es möglicherweise schon.
Unseren Systemadministratoren gelang es immer wieder das Problem zu entschärfen, jedoch ist dies ein „Katz und Maus Spiel“, weshalb das Problem wieder auftreten kann.
Falls Sie Personen kennen, welche an AI-Anwendungen arbeiten, die trainiert werden müssen, bitten Sie sie sicherzustellen, dass deren Bots die robots.txt Datei, welche sie vorfinden, auch beachten. Und natürlich sollten Sie Ihre Freunde und Familienangehörigen dazu anhalten, ihre Computer und anderen smarten Geräte mit allen Sicherheitsupdates zu versorgen, sobald diese veröffentlicht werden.
Original von Marja, übersetzt von Jürgen Thurau