L’A.I. sta distruggendo il vecchio Web!

Il web sta sempre morendo, naturalmente; è morto per anni, ucciso da applicazioni che deviano il traffico dai siti web o da algoritmi che premiano i tempi di attenzione presumibilmente più brevi. Ma nel 2023 sta morendo di nuovo e, come suggerisce la litania di cui sopra, c’è un nuovo catalizzatore in gioco: L’INTELLIGENZA ARTIFICIALE.

L’Intelligenza Artificiale sta superando la capacità di scala di Internet

Il problema, a grandi linee, è questo. Anni fa, il web era un luogo in cui gli individui creavano cose. Si creavano homepage, forum e mailing list e si facevano un po’ di soldi. Poi le aziende hanno deciso che potevano fare le cose meglio. Hanno creato piattaforme eleganti e ricche di funzionalità e hanno spalancato le porte a chiunque volesse unirsi a loro. Ci hanno messo davanti delle scatole, che noi abbiamo riempito di testo e immagini, e la gente è venuta a vedere il contenuto di quelle scatole. Le aziende hanno inseguito la scala, perché una volta che un numero sufficiente di persone si riunisce in un luogo, di solito c’è un modo per fare soldi con loro. Ma l’intelligenza artificiale cambia questi presupposti.

Se si dispone di denaro e di calcolo, i sistemi di IA, in particolare i modelli generativi attualmente in voga, sono in grado di scalare senza sforzo. Producono testo e immagini in abbondanza e presto anche musica e video. La loro produzione può potenzialmente superare o competere con le piattaforme a cui ci affidiamo per le notizie, le informazioni e l’intrattenimento. Ma la qualità di questi sistemi è spesso scarsa e sono costruiti in un modo che è parassitario per il web di oggi. Questi modelli sono addestrati su strati di dati creati durante l’ultima era del web, che ricreano in modo imperfetto. Le aziende raschiano le informazioni dal web aperto e le raffinano in contenuti generati dalle macchine, poco costosi da generare ma meno affidabili. Questo prodotto compete poi per l’attenzione con le piattaforme e le persone che le hanno precedute. Siti e utenti stanno facendo i conti con questi cambiamenti, cercando di decidere come adattarsi e se possono farlo.

Google sta ristrutturando la ricerca anteponendo le risposte generate dall’intelligenza artificiale alle fonti di dati.

Negli ultimi mesi, discussioni ed esperimenti in alcune delle destinazioni più popolari e utili del web – siti come Reddit, Wikipedia, Stack Overflow e lo stesso Google – hanno rivelato la tensione creata dalla comparsa dei sistemi di intelligenza artificiale.
I moderatori di Reddit stanno organizzando un blackout dopo che l’azienda ha dichiarato che aumenterà drasticamente le tariffe per l’accesso alle sue API; i dirigenti dell’azienda hanno dichiarato che i cambiamenti sono (in parte) una risposta alle aziende di IA che scrapano i suoi dati. “Il corpus di dati di Reddit è davvero prezioso”, ha dichiarato il fondatore e CEO di Reddit Steve Huffman al New York Times. “Ma non abbiamo bisogno di dare tutto questo valore ad alcune delle più grandi aziende del mondo gratuitamente”. Questo non è l’unico fattore – Reddit sta cercando di spremere più entrate dalla piattaforma prima di una prevista IPO nel corso dell’anno – ma mostra come questo scraping sia sia una minaccia che un’opportunità per il web attuale, qualcosa che fa ripensare alle aziende l’apertura delle loro piattaforme.

Wikipedia ha una certa familiarità con lo scraping di questo tipo di informazioni. Le informazioni dell’azienda sono state a lungo riutilizzate da Google per fornire “pannelli di conoscenza” e negli ultimi anni il gigante della ricerca ha iniziato a pagare per queste informazioni. Ma i moderatori di Wikipedia stanno discutendo su come utilizzare i nuovi modelli linguistici dell’intelligenza artificiale per scrivere articoli per il sito stesso. Sono consapevoli dei problemi associati a questi sistemi, che creano fatti e fonti con una fluidità fuorviante, ma sanno che offrono chiari vantaggi in termini di velocità e portata. “Il rischio per Wikipedia è che la gente possa abbassare la qualità inserendo cose che non ha controllato”, ha dichiarato di recente a Motherboard Amy Bruckman, docente di comunità online e autrice di Should You Believe Wikipedia? “Non credo ci sia nulla di male nell’usarla come prima bozza, ma ogni punto deve essere verificato”.

“Il problema principale è che le risposte che ChatGPT produce hanno un’alta percentuale di errori, ma in genere sembrano buone”.
Stack Overflow offre un caso simile, ma forse più estremo. Come Reddit, anche i suoi mod sono in sciopero e, come i redattori di Wikipedia, sono preoccupati per la qualità dei contenuti generati dalle macchine. Quando ChatGPT è stato lanciato l’anno scorso, Stack Overflow è stata la prima grande piattaforma a vietarne la produzione. Come scrissero i moderatori all’epoca: “Il problema principale è che le risposte che ChatGPT produce hanno un’alta percentuale di errori, ma in genere sembrano buone e le risposte sono molto facili da produrre”. Ci vuole troppo tempo per classificare i risultati, quindi i moderatori hanno deciso di vietarlo del tutto.

La direzione del sito, però, aveva altri piani. Da allora l’azienda ha sostanzialmente invertito il divieto, aumentando l’onere delle prove necessarie per impedire agli utenti di pubblicare contenuti di intelligenza artificiale, e ha annunciato di voler invece sfruttare questa tecnologia. Come Reddit, Stack Overflow ha intenzione di far pagare le aziende che fanno scraping dei suoi dati e di costruire i propri strumenti di IA, presumibilmente per competere con loro. La lotta con i moderatori riguarda gli standard del sito e chi deve farli rispettare. I moderatori sostengono che non ci si può fidare della produzione di IA, ma i dirigenti dicono che vale la pena rischiare.

Tutte queste difficoltà, tuttavia, impallidiscono di fronte ai cambiamenti in atto a Google. Google Search è alla base dell’economia del web moderno, distribuendo attenzione e ricavi a gran parte di Internet. Google è stato spronato ad agire dalla popolarità di Bing AI e ChatGPT come motori di ricerca alternativi, e sta sperimentando la sostituzione dei tradizionali 10 link blu con riassunti generati dall’AI. Ma se l’azienda procedesse con questo piano, i cambiamenti sarebbero epocali.

Un articolo di Avram Piltch, caporedattore del sito tecnologico Tom’s Hardware, sulla beta della ricerca AI di Google mette in luce alcuni problemi. Piltch afferma che il nuovo sistema di Google è essenzialmente un “motore di plagio”. I suoi riassunti generati dall’intelligenza artificiale spesso copiano parola per parola il testo dei siti web, ma posizionano questo contenuto sopra i link della fonte, privandoli del traffico. Si tratta di un cambiamento che Google sta spingendo da tempo, ma se si osservano le schermate del pezzo di Piltch si può notare come l’equilibrio si sia spostato decisamente a favore dei contenuti estratti. Se questo nuovo modello di ricerca diventasse la norma, potrebbe danneggiare l’intero web, scrive Piltch. I siti a corto di entrate verrebbero probabilmente messi fuori mercato e Google stesso rimarrebbe a corto di contenuti generati dall’uomo da reimpacchettare.

Anche in questo caso, è la dinamica dell’IA – la produzione di contenuti a basso costo basati sul lavoro altrui – a sostenere questo cambiamento e, se Google andasse avanti con la sua attuale esperienza di ricerca IA, gli effetti sarebbero difficili da prevedere. Potenzialmente, danneggerebbe intere fasce del web che la maggior parte di noi trova utili, dalle recensioni di prodotti ai blog di ricette, alle homepage di hobbisti, alle notizie e ai wiki. I siti potrebbero proteggersi bloccando l’ingresso e facendo pagare l’accesso, ma questo sarebbe anche un enorme riordino dell’economia del web. Alla fine, Google potrebbe uccidere l’ecosistema che ha creato il suo valore, o cambiarlo in modo così irrevocabile da minacciare la sua stessa esistenza.

Ma cosa succede se lasciamo che sia l’intelligenza artificiale a prendere il timone e iniziamo a fornire informazioni alle masse? Che differenza fa?
Beh, le prove finora raccolte suggeriscono che la qualità del web in generale peggiorerà. Come osserva Piltch nella sua recensione, per quanto l’IA possa vantare la capacità di ricombinare il testo, sono le persone a creare i dati sottostanti, sia che si tratti di giornalisti che rispondono al telefono e verificano i fatti, sia che si tratti di utenti di Reddit che hanno avuto esattamente quel problema con la batteria del nuovo cricchetto a batteria DeWalt e sono felici di raccontare come l’hanno risolto. Al contrario, le informazioni prodotte dai modelli linguistici di intelligenza artificiale e dai chatbot sono spesso errate. Il problema è che quando sono sbagliate, lo sono in modi difficili da individuare.

Ecco un esempio. All’inizio di quest’anno, stavo conducendo una ricerca sugli agenti di intelligenza artificiale, sistemi che utilizzano modelli linguistici come ChatGPT per connettersi ai servizi web e agire per conto dell’utente, ordinando generi alimentari o prenotando voli. In uno dei tanti thread virali su Twitter che esaltano il potenziale di questa tecnologia, l’autore immagina uno scenario in cui un’azienda di scarpe impermeabili vuole commissionare una ricerca di mercato e si rivolge ad AutoGPT (un sistema costruito sulla base dei modelli linguistici di OpenAI) per generare un rapporto sui potenziali concorrenti. Il documento che ne risulta è elementare e prevedibile. (Elenca cinque aziende, tra cui Columbia, Salomon e Merrell, insieme a punti elenco che presumibilmente delineano i pro e i contro dei loro prodotti. “Columbia è un marchio noto e rispettabile per l’attrezzatura e le calzature outdoor”, ci viene detto. “Le loro scarpe impermeabili sono disponibili in vari modelli” e “i loro prezzi sono competitivi sul mercato”. Potreste pensare che si tratti di un’affermazione così banale da essere sostanzialmente inutile (e avreste ragione), ma l’informazione è anche sottilmente sbagliata.

I contenuti generati dall’intelligenza artificiale sono spesso sottilmente sbagliati

Per verificare il contenuto del rapporto, l’ho sottoposto a una persona che ritenevo una fonte affidabile sull’argomento: un moderatore del subreddit r/hiking di nome Chris. Chris mi ha detto che il rapporto era essenzialmente riempitivo. “Ci sono un mucchio di parole, ma non c’è alcun valore reale in ciò che è scritto”, ha detto. Non cita fattori importanti come la differenza tra scarpe da uomo e da donna o i tipi di tessuto utilizzati. Sbaglia i fatti e classifica i marchi con una maggiore presenza sul web come più meritevoli. In generale, dice Chris, non c’è competenza nelle informazioni, ma solo congetture. “Se mi venisse posta la stessa domanda, darei una risposta completamente diversa”, ha detto. “Seguire i consigli dell’intelligenza artificiale molto probabilmente si tradurrà in piedi feriti sul sentiero”.

Si tratta della stessa lamentela identificata dai mod di Stack Overflow: la disinformazione generata dall’intelligenza artificiale è insidiosa perché spesso invisibile. È fluente ma non basata sull’esperienza del mondo reale, e quindi richiede tempo e competenza per essere eliminata. Se i contenuti generati dalle macchine sostituissero la paternità umana, sarebbe difficile – o addirittura impossibile – mappare completamente i danni. È vero che anche le persone sono fonti abbondanti di disinformazione, ma se i sistemi di IA soffocano anche le piattaforme dove attualmente prospera l’esperienza umana, ci saranno meno opportunità di rimediare ai nostri errori collettivi.

Gli effetti dell’IA sul web non sono semplici da riassumere. Anche nella manciata di esempi citati sopra, sono in gioco molti meccanismi diversi. In alcuni casi, sembra che la minaccia percepita dell’IA sia usata per giustificare cambiamenti voluti per altri motivi (come nel caso di Reddit), mentre in altri l’IA è un’arma in una lotta tra i lavoratori che creano il valore di un sito e le persone che lo gestiscono (Stack Overflow). Ci sono anche altri settori in cui la capacità dell’IA di riempire le caselle sta avendo effetti diversi: dai social network che sperimentano il coinvolgimento dell’IA ai siti di shopping in cui le cianfrusaglie generate dall’IA competono con altri prodotti.

In ogni caso, la capacità di scalare dell’intelligenza artificiale, il semplice fatto della sua abbondanza, cambia una piattaforma. Molti dei siti di maggior successo del web sono quelli che sfruttano la scala a loro vantaggio, sia moltiplicando le connessioni sociali o la scelta dei prodotti, sia ordinando l’enorme conglomerato di informazioni che costituisce internet stesso. Ma questa scala si basa su masse di esseri umani per creare il valore sottostante, e gli esseri umani non possono battere l’intelligenza artificiale quando si tratta di produzione di massa. (Anche se dietro le quinte c’è molto lavoro umano necessario per creare l’IA). C’è un famoso saggio nel campo dell’apprendimento automatico noto come “La lezione amara”, in cui si osserva che decenni di ricerca dimostrano che il modo migliore per migliorare i sistemi di IA non è quello di cercare di ingegnerizzare l’intelligenza, ma semplicemente di gettare più potenza di calcolo e dati sul problema. La lezione è amara perché dimostra che la scala delle macchine batte la cura umana. E lo stesso potrebbe valere per il web.

Ma questo deve essere per forza un male? Se il web come lo conosciamo cambia di fronte all’abbondanza artificiale? Alcuni diranno che è solo la via del mondo, notando che il web stesso ha ucciso ciò che lo precedeva, e spesso in meglio. Le enciclopedie cartacee sono quasi estinte, per esempio, ma io preferisco l’ampiezza e l’accessibilità di Wikipedia alla pesantezza e alla rassicurazione dell’Enciclopedia Britannica. E per tutti i problemi associati alla scrittura generata dall’intelligenza artificiale, ci sono anche molti modi per migliorarla: dal miglioramento delle funzioni di citazione a una maggiore supervisione umana. Inoltre, anche se il web è inondato di spazzatura generata dall’intelligenza artificiale, ciò potrebbe rivelarsi vantaggioso, stimolando lo sviluppo di piattaforme meglio finanziate. Se Google fornisce costantemente risultati spazzatura nella ricerca, ad esempio, si potrebbe essere più inclini a pagare per le fonti di cui ci si fida e a visitarle direttamente.

In realtà, i cambiamenti che l’intelligenza artificiale sta attualmente provocando sono solo gli ultimi di una lunga lotta nella storia del web. In sostanza, si tratta di una battaglia per le informazioni: chi le produce, come vi si accede e chi viene pagato. Ma il fatto che la lotta sia familiare non significa che non sia importante, né garantisce che il sistema che seguirà sarà migliore di quello attuale. Il nuovo web sta lottando per nascere e le decisioni che prendiamo ora daranno forma alla sua crescita.

L’articolo L’A.I. sta distruggendo il vecchio Web! proviene da CorriereNerd.it.