In collaborazione con il Weizmann Institute of Science e l’Università di Tel Aviv, Google ha presentato Lumiere, un avanzato modello di intelligenza artificiale che segna un passo significativo nel campo della generazione video.
Google, in collaborazione con il Weizmann Institute of Science e l’Università di Tel Aviv, ha svelato Lumiere, un modello di intelligenza artificiale generativa che rappresenta un’innovazione nel campo della creazione di video. Questo modello è in grado di generare brevi video che possono essere realistici o stilizzati, e modificabili in base alle richieste degli utenti.
Il team di ricerca dietro Lumiere sostiene che il modello ha un approccio innovativo rispetto ad altri modelli esistenti. Lumiere è infatti capace di sintetizzare video con movimenti realistici, vari e coerenti, un’abilità descritta come cruciale nella creazione di video. Attualmente, il documento di ricerca è disponibile pubblicamente, ma i modelli per test non sono ancora stati rilasciati.
Lumiere permette agli utenti di inserire descrizioni testuali in linguaggio naturale per generare video corrispondenti. Gli utenti possono anche trasformare immagini fisse in video dinamici, caricando l’immagine e aggiungendo una specifica richiesta testuale.
Il modello offre anche funzionalità avanzate come l’inpainting, che consente di inserire oggetti specifici nei video tramite istruzioni testuali. La funzione Cinemagraph anima parti selezionate di una scena, mentre la generazione stilizzata adotta lo stile di un’immagine di riferimento nella creazione del video.
A differenza di altre soluzioni esistenti, Lumiere utilizza un’architettura chiamata “Space-Time U-Net” per generare l’intera durata di un video in una sola volta. Questo approccio, che produce movimenti più realistici e coerenti, si distingue dai modelli video tradizionali che creano immagini tra fotogrammi chiave e poi applicano modelli di super risoluzione temporale.
Lumiere è stato addestrato su un set di 30 milioni di video e relative descrizioni testuali, generando video di 80 fotogrammi a 16 fps con una risoluzione base di 128×128 pixel. I ricercatori affermano che il modello può produrre video a bassa risoluzione di 1024×1024 pixel e cinque secondi di durata.
Sebbene esistano alcune limitazioni, come l’incapacità di generare video con molteplici inquadrature o transizioni tra scene, Lumiere è stato preferito in uno studio utente rispetto ad altri modelli di sintesi video AI. Queste limitazioni rappresentano una sfida per ulteriori ricerche nel settore.