Con VLOGGER AI di Google, puoi creare un avatar 3D realistico che parla con la tua voce usando solo una foto e l’intelligenza artificiale. Perfetto per presentazioni, videochiamate e molto altro. Scopriamo tutti i dettagli di questa nuova implementazione IA.
Google ha fatto un ulteriore progresso nello sviluppo dell’intelligenza artificiale con Gemini AI, raggiungendo ora la versione 1.5. L’ultima novità presentata è VLOGGER AI, una tecnologia che innova il modo di creare contenuti video, permettendo di trasformare una semplice foto in un avatar umano realistico in 3D. L’avatar può parlare utilizzando la voce dell’utente, grazie all’elaborazione di un’immagine scattata in modalità ritratto e di una traccia audio.
La presentazione di VLOGGER AI da parte di Google è avvenuta tramite una pagina GitHub, dove viene spiegato che per generare l’avatar, l’utente deve solamente fornire una foto e l’audio corrispondente. Una delle caratteristiche più affascinanti di questa tecnologia è la capacità di personalizzare l’avatar, consentendo di controllarne movimenti, battito di ciglia e espressioni facciali a piacimento.
VLOGGER AI adotta un processo di generazione del movimento 3D basato sulla diffusione temporale, che stabilisce i tempi e i modi in cui l’avatar deve muoversi in risposta all’audio fornito. Successivamente, un modello AI integrato ottimizza l’aspetto dell’avatar, migliorandone la realistica resa.
Per sviluppare una tecnologia così avanzata, VLOGGER AI si avvale del database MENTOR, che comprende oltre 800.000 ritratti e più di 2.200 ore di video. Grazie a questa vasta gamma di dati, è in grado di creare avatar 3D realistici di persone di diverse nazionalità, etnie ed età, indipendentemente dal loro abbigliamento, partendo da una singola fotografia.
Nonostante i progressi, VLOGGER AI presenta ancora alcune limitazioni, in particolare nella generazione di gesti ampi o nella gestione di video di lunga durata, situazioni in cui può manifestare difficoltà.
Google immagina un futuro in cui VLOGGER AI trovi applicazione in diversi campi, dalle presentazioni all’istruzione, fino alla narrazione di progetti. Questa tecnologia offre anche la possibilità di creare avatar animati per le videochiamate, proponendosi come un’alternativa avvincente rispetto agli avatar generati da Apple Vision Pro.