
Image by Oberon Copeland, from Unsplash
AI Bots Overbelasten Wikipedia’s Servers
De Wikimedia Foundation heeft alarm geslagen over de groeiende druk op haar servers door geautomatiseerde bots die data schrapen om kunstmatige intelligentie modellen te trainen.
Haast? Hier zijn de snelle feiten:
- AI bots scrapen inhoud van Wikimedia op recordniveaus.
- Bots zorgden voor een stijging van 50% in het gebruik van multimedia bandbreedte.
- 65% van het verkeer met hoge kosten komt nu van crawlers.
De Stichting meldde onlangs in een post dat door machines gegenereerd verkeer blijft groeien met een ongekend tempo, terwijl mensen slechts een klein deel van dit verkeer uitmaken.
“Sinds januari 2024 hebben we de bandbreedte die wordt gebruikt voor het downloaden van multimedia-inhoud met 50% zien groeien,” stelt de post.
“Deze toename komt niet van menselijke lezers, maar voornamelijk van geautomatiseerde programma’s die de Wikimedia Commons-beeldcatalogus van openlijk gelicentieerde afbeeldingen schrapen om afbeeldingen aan AI-modellen te voeden,” voegde de post eraan toe.
De bots, bekend als crawlers, stelen grote hoeveelheden data van Wikimedia’s projecten, waaronder Wikipedia en Wikimedia Commons, zonder juiste erkenning of officiële toegangstools. Dit proces maakt het lastig voor nieuwe gebruikers om Wikimedia te ontdekken en legt een buitensporige belasting op hun technische systemen.
Bijvoorbeeld, het bericht merkt op dat Jimmy Carter’s Wikipedia-pagina meer dan 2,8 miljoen keer bekeken werd op de dag dat hij overleed in december 2024. De video van het debat uit 1980 zorgde voor een aanzienlijke toename in websiteverkeer. Een video van zijn debat uit 1980 zorgde ook voor een piek in het verkeer. Wikimedia kon het aan – maar net aan. Het echte probleem volgens ingenieurs is de aanhoudende stroom van botverkeer.
“65% van ons duurste verkeer komt van bots,” schreef de Stichting. Bots “lezen in bulk” inhoud, vooral minder populaire pagina’s, wat dure verzoeken aan Wikimedia’s kern datacenters triggert.
Hoewel de inhoud van Wikimedia gratis te gebruiken is, zijn haar servers dat niet. “Onze inhoud is gratis, onze infrastructuur is dat niet,” zei de Stichting. Het team blijft methoden ontwikkelen om het “verantwoord gebruik van infrastructuur” te bevorderen door ontwikkelaars aan te moedigen de API te gebruiken in plaats van de hele site te scrapen.
Het probleem treft Wikimedia evenals tal van andere websites en uitgevers. Maar voor ’s werelds grootste open kennisplatform vormt het een bedreiging voor de stabiliteit van diensten waar miljoenen mensen op vertrouwen.
Laat een reactie achter
Annuleer