Sembra che OpenAI, la mente dietro al chiacchieratissimo ChatGPT, potrebbe aver addestrato il suo modello linguistico più potente, GPT-4o, utilizzando un bel po’ di libri di O’Reilly Media senza chiedere il permesso.
Ma chi è O’Reilly e perché dovremmo preoccuparcene?
O’Reilly è una casa editrice super nota nel mondo tech, quella con i libri pieni di animali in copertina per intenderci. I loro manuali sono una bibbia per sviluppatori e appassionati di tecnologia.
A lanciare la bomba è l’AI Disclosures Project, una nuova organizzazione no-profit fondata da due pesi massimi come Tim O’Reilly (sì, proprio lui!) e l’economista Ilan Strauss. Questi ragazzi hanno sviluppato un metodo fighissimo chiamato DE-COP (suona quasi come un supereroe, no?) per scovare materiale protetto da copyright all’interno dei dataset usati per allenare le IA. In pratica, questo strumento riesce a distinguere un testo scritto da un umano da una sua “copia” generata dall’intelligenza artificiale.
E cosa hanno scoperto?
Analizzando quasi 14.000 paragrafi presi da 34 libri O’Reilly, i ricercatori hanno trovato tracce dei contenuti nei dati di addestramento di GPT-4o. Ora, attenzione: il metodo non è infallibile al 100%, e OpenAI potrebbe aver “pescato” questi testi anche da utenti che li hanno semplicemente copiati e incollati in ChatGPT. Però, la probabilità che ci sia lo zampino di O’Reilly Media è alta.
Perché questa storia è importante?
Beh, perché l’addestramento di un’intelligenza artificiale come GPT-4o richiede una quantità mastodontica di dati. Alcune aziende pagano per questi dati, altre, diciamo, usano metodi meno convenzionali. Ricordate quando si è parlato di Meta che avrebbe “piratato” terabyte di dati, inclusi libri scaricati via Torrent, per addestrare i suoi modelli Llama? Ecco, la situazione è simile.
La questione del “fair use”: zona grigia dell’IA.
Aziende come Meta, Google e la stessa OpenAI spesso si rifugiano nel concetto di “fair use” (utilizzo equo) per giustificare l’uso di materiale protetto da copyright senza permesso. Sostengono che l’impiego di questi dati per l’addestramento delle IA rientra in un uso “trasformativo” e quindi lecito.
Ma autori ed editori non ci stanno.
Molti hanno già avviato cause legali contro questi giganti dell’intelligenza artificiale. Pensate che persino il New York Times ha denunciato OpenAI (e Microsoft) per aver usato i loro articoli per addestrare le AI senza autorizzazione.
Insomma, la battaglia sui dati di addestramento delle intelligenze artificiali è tutt’altro che finita. Questa nuova accusa contro OpenAI non fa altro che aggiungere benzina sul fuoco. Voi cosa ne pensate? È giusto che le AI vengano addestrate con libri e articoli protetti da copyright senza il consenso degli autori? Dite la vostra nei commenti!
L’articolo OpenAI ha “mangiato” i libri di O’Reilly per ChatGPT? La nuova accusa fa discutere proviene da CorriereNerd.it.
Aggiungi un commento