VASA-1, innovativa tecnologia di intelligenza artificiale Microsoft, trasforma immagini in video realistici con espressioni facciali e sincronizzazione labiale. Scopriamo le sue potenziali applicazioni e i dubbi sulla sua etica.

Microsoft Research Asia ha introdotto un nuovo strumento sperimentale di intelligenza artificiale, denominato VASA-1, che ha la capacità di animare volti statici rendendoli parlanti in modo realistico e in tempo reale. La tecnologia di questa AI può generare espressioni facciali dinamiche, movimenti della testa e movimenti labiali sincronizzati con audio pre-registrato, come discorsi o canzoni.

Nonostante i risultati promettenti dimostrati dai numerosi esempi presentati sulla pagina del progetto, i ricercatori hanno notato che alcuni movimenti delle labbra e della testa possono apparire leggermente robotici e non completamente in sincrono durante un’analisi dettagliata. Un dettaglio che non preclude però le potenzialità dell’innovazione.

La capacità di VASA-1 di creare video deepfake realistici solleva preoccupazioni etiche considerevoli. I ricercatori sono consapevoli del potenziale uso improprio della loro tecnologia, che potrebbe essere sfruttata per generare contenuti dannosi, come deepfake pornografici o campagne di disinformazione. Di conseguenza, hanno deciso di non pubblicare una demo online, API o qualsiasi altro dettaglio di implementazione finché non saranno assicurati che l’uso della tecnologia rispetterà criteri di responsabilità e conformità alle leggi vigenti.

Nonostante questi rischi, i vantaggi potenziali di VASA-1 sono notevoli. Secondo i ricercatori, lo strumento può contribuire a migliorare l’equità educativa e l’accessibilità per individui con difficoltà di comunicazione, fornendo loro avatar capaci di esprimersi verbalmente. VASA-1 potrebbe anche offrire compagnia e supporto terapeutico a chi ne ha bisogno, ampliando le possibilità di interazione con personaggi AI progettati per offrire supporto emotivo e conversazionale.

Il VASA-1 si basa sull’addestramento effettuato con il dataset VoxCeleb2, che include oltre un milione di enunciati pronunciati da 6.112 celebrità, tutti estratti da video su YouTube. Questo ampio dataset ha permesso di affinare la tecnologia per funzionare efficacemente sia su volti reali che su opere d’arte, come dimostrato dall’esperimento divertente in cui una rappresentazione della Monna Lisa è stata sincronizzata con un audio di Anne Hathaway che interpreta “Paparazzi” di Lil Wayne.

Articolo precedenteWhatsApp per Android testa tre nuove funzionalità
Articolo successivoGoogle finalmente adotta il codec AV1 per Android
Team CEOTECH
La tecnologia dovrebbe arricchire la vita delle persone oltre a tutelare il pianeta.