News

Google potrà utilizzare dati pubblici per addestrare i suoi modelli di IA

4 Luglio 2023

Google amplia i termini della sua politica sulla privacy, sostenendo l’uso di dati pubblici per sviluppare i suoi modelli linguistici IA. Questa mossa suscita dibattiti sulla sicurezza dei dati e le implicazioni dell’IA generativa.

Google ha recentemente aggiornato la sua politica sulla privacy, annunciando che utilizzerà i dati pubblici per l’addestramento dei suoi modelli di intelligenza artificiale (IA). Durante il fine settimana, il gigante tecnologico ha rivisto il testo dell’informativa sulla privacy, sostituendo il termine “modelli di intelligenza artificiale” con “modelli linguistici”. Ha inoltre dichiarato di poter utilizzare le informazioni accessibili al pubblico per creare non solo funzioni specifiche, ma interi prodotti, come “Google Translate, Bard e le funzionalità Cloud AI”.

Con questo aggiornamento, Google mira a chiarire ai suoi utenti che ogni informazione che pubblicano online potrebbe essere utilizzata per addestrare Bard, le sue versioni future e qualsiasi altro prodotto di IA generativa sviluppato da Google.

Nonostante questo tentativo di trasparenza, la mossa di Google ha sollevato preoccupazioni tra i critici. La principale questione sollevata riguarda l’uso da parte delle aziende delle informazioni pubblicate online per addestrare i loro modelli linguistici di grande portata per l’IA generativa.

Di recente, una proposta di azione legale collettiva è stata presentata contro OpenAI, accusando l’organizzazione di aver raccolto “enormi quantità di dati personali da internet”, incluse “informazioni private rubate”, per addestrare i suoi modelli GPT senza il consenso preventivo degli utenti. Come sottolineato dal Search Engine Journal, è probabile che si assista a un’ondata di cause legali simili in futuro, mano a mano che sempre più aziende sviluppano i propri prodotti di IA generativa.

Nell’era digitale, i gestori di siti web, che spesso fungono da spazi pubblici virtuali, hanno iniziato a prendere provvedimenti per proteggere i loro dati o trarre profitto dal boom dell’IA generativa. Reddit ha introdotto un costo per l’accesso alle sue API, causando la chiusura di molti client di terze parti nel corso del fine settimana. Nel frattempo, Twitter ha limitato il numero di tweet che un utente può visualizzare al giorno per contrastare “livelli estremi di scraping dei dati [e] manipolazione del sistema”.

Queste misure riflettono l’importanza sempre crescente della sicurezza dei dati e l’urgenza di stabilire regolamenti chiari per l’utilizzo di dati pubblici nell’ambito dell’IA generativa. Mentre le aziende come Google continuano a sperimentare con i modelli linguistici IA, la necessità di un equilibrio tra innovazione tecnologica e rispetto della privacy degli utenti diventa sempre più pressante.

Aggiornamento del 05 luglio 2023

In seguito alla nostra pubblicazione abbiamo ricevuto un commento ufficiale da parte dell’azienda che riportiamo di seguito:

“Le nostre norme sulla privacy sono da tempo trasparenti sul fatto che Google utilizza informazioni pubblicamente disponibili dal web per addestrare modelli linguistici per servizi come Google Translate. Questo ultimo aggiornamento chiarisce semplicemente che sono inclusi anche servizi più recenti come Bard. Incorporiamo i principi e le misure di salvaguardia della privacy nello sviluppo delle nostre tecnologie di intelligenza artificiale, in linea con i nostri Principi sull’IA“. – portavoce di Google.

Fonte 1

Fonte 2