Avete presente quando siete lì che navigate su Wikipedia alla ricerca di informazioni sul vostro personaggio Marvel preferito o sulla trama dell’ultimo film di Miyazaki? Beh, sappiate che non siete gli unici a “consumare” Wikipedia. Un’orda di bot e crawler controllati da intelligenze artificiali sta letteralmente prendendo d’assalto i server di Wikimedia Foundation, l’organizzazione che gestisce Wikipedia e Wikimedia Commons.
Cosa vogliono questi bot affamati?
Semplice: dati! Questi programmi automatici setacciano le pagine di Wikipedia e gli oltre 140 milioni di file open source di Wikimedia Commons per “nutrire” i modelli di intelligenza artificiale (AI). Immaginatevi un aspirapolvere gigante che risucchia ogni singola informazione presente sull’enciclopedia.
Il problema? È una questione di costi (e di nervi!).
Wikimedia Foundation ci spiega che il traffico generato da questi bot AI rappresenta un bel 35% delle pagine visualizzate. Ma la cosa ancora più folle è che si tratta del 65% delle richieste più costose da gestire per la loro infrastruttura.
Ma perché è così costoso?
Perché i sistemi di Wikipedia sono ottimizzati per noi umani. Quando cerchiamo qualcosa, il sistema crea delle “copie” temporanee (cache) delle pagine più richieste, così il caricamento è super veloce. Noi umani tendiamo a leggere una pagina e poi a cliccare su link correlati, seguendo un percorso logico.
I bot AI, invece, sono come dei turisti spaziali che atterrano su pagine super rare, mai visitate da nessuno. Queste pagine non sono nella cache e richiedono un accesso diretto al database centrale, che è molto più dispendioso in termini di risorse. E non dimentichiamoci del download massiccio di immagini e altri file da Wikimedia Commons!
“La quantità di traffico generata da bot estrattori è senza precedenti e presenta rischi e costi crescenti”, tuona Wikimedia. L’infrastruttura, pensata per il nostro traffico umano, sta faticando a reggere l’impatto di queste richieste esagerate.
I poveri ragazzi del team di Site Reliability di Wikimedia sono al lavoro giorno e notte per mantenere Wikipedia online e veloce per noi, intervenendo costantemente per limitare o bloccare il traffico AI. Questo significa meno tempo per supportare i contenuti, gli autori e tutti noi che contribuiamo all’enciclopedia. E ovviamente, comporta costi maggiori per server, infrastruttura e banda larga.
Il succo della questione?
Le richieste dei bot AI costano MOLTO di più rispetto alle nostre, e questi costi stanno crescendo a una velocità impressionante. Wikipedia ci ricorda che i suoi contenuti sono gratuiti, ma l’infrastruttura per mantenerla in piedi non lo è affatto.
Wikipedia si basa principalmente sul lavoro di volontari e sulle donazioni degli utenti. La domanda sorge spontanea: le startup e i colossi dell’AI che stanno beneficiando enormemente di questa “spremitura” di dati, non potrebbero dare una mano per evitare che Wikipedia collassi sotto il peso delle loro richieste?
Dopotutto, i modelli AI “pescano” dati ovunque: pensate all’ondata di immagini in stile Studio Ghibli create con ChatGPT o alle accuse di O’Reilly sull’addestramento con i suoi libri. Forse è il momento che questi giganti della tecnologia si facciano un esame di coscienza (e di portafoglio) per supportare una risorsa così preziosa per tutti noi.
Voi che ne pensate? È giusto che le AI “saccheggino” Wikipedia in questo modo? Fatecelo sapere nei commenti!
L’articolo Wikipedia sotto attacco: l’esercito di bot AI la sta prosciugando! proviene da CorriereNerd.it.
Aggiungi un commento