DeepMind, il laboratorio di intelligenza artificiale di Big G, ha sviluppato Google Genie, uno strumento in grado di generare mini-giochi a partire da una semplice immagine. Genie è la “prima intelligenza artificiale generativa per ambienti interattivi” e rappresenta un passo avanti nella creazione di mondi virtuali.
DeepMind, il laboratorio di Google specializzato in intelligenza artificiale, ha pubblicato uno studio che dimostra come la tecnologia possa essere utilizzata per creare ambienti virtuali a partire da immagini 2D. Nell’ambito della ricerca, gli esperti hanno presentato Google Genie, uno strumento in grado di generare mini-giochi a partire da una semplice immagine.
Genie è considerata la “prima intelligenza artificiale generativa per ambienti interattivi”. Ciò significa che lo strumento è in grado di generare una scena interattiva – in questo caso, un semplice gioco 2D – utilizzando un’immagine di esempio come base, consentendo di creare giochi senza alcuna programmazione.
Il modello è stato addestrato su 30.000 ore di video (6,8 milioni di clip da 16 secondi) di giochi di piattaforma 2D nello stile di classici come Super Mario Bros. e Sonic the Hedgehog. Per questo motivo, le sue capacità sono attualmente limitate alla creazione di mini-giochi con comandi di base per un personaggio, come “camminare” e “saltare”.
L’intelligenza artificiale utilizza tecniche di diffusione avanzate per generare una scena di gioco a partire da un’immagine, che può essere una fotografia di un paesaggio reale, un’immagine precedentemente creata dall’intelligenza artificiale o un’immagine disegnata a mano.
Proprio come un essere umano impara a descrivere il mondo usando le parole, Google Genie “impara” a giocare guardando i video del suo addestramento. Le immagini e le azioni raccolte dall’intelligenza artificiale vengono tradotte in insiemi di numeri, creando rappresentazioni matematiche per il gameplay e quindi i comandi di gioco per l’utente.
Genie apprende i comandi osservando il gioco, senza che l’uomo debba indicarli. Ad esempio, quando in un gioco a piattaforme c’è un baratro, l’intelligenza artificiale capisce, grazie al suo addestramento, che un personaggio deve saltarlo e lo farà quando il giocatore premerà il pulsante “up” su un controller.
Genie interpreta i fotogrammi e le azioni dalla sua formazione utilizzando una tecnica di analisi ed elaborazione delle immagini chiamata VQ-VAE. I dati vengono combinati utilizzando il trasformatore MaskGIT che, in combinazione con i trasformatori temporali, genera nuovi fotogrammi con nozioni spaziali per comporre la scena.
È possibile osservare una bassa qualità nelle scene generate da Genie, ma i suoi risultati iniziali sono in linea con i primi passi nella generazione di immagini e video con l’intelligenza artificiale – tanto che ora sono sorprendentemente realistici.
I ricercatori di DeepMind sostengono che l’addestramento dell’intelligenza artificiale ha richiesto diverse settimane e migliaia di teraflop di potenza di calcolo, poiché apprende a un ritmo lento di un solo fotogramma video al secondo. Per questo motivo, è improbabile che la tecnologia arrivi presto sul mercato.
Si tratta di un’ulteriore aggiunta al portafoglio di strumenti di intelligenza artificiale di Google. Con l’obiettivo di democratizzare l’accesso alla tecnologia, l’azienda ha recentemente annunciato Gemma, una nuova famiglia di modelli di intelligenza artificiale open source.