Meta ha appena presentato ufficialmente Voicebox, un’intelligenza artificiale specializzata nella sintesi vocale. Questo modello è in grado di convertire il testo in file audio e di generare discorsi basati su questi campioni di appena due secondi.
Come è noto, i principali attori dell’industria tecnologica si sono lanciati nella corsa all’intelligenza artificiale. Dopo il lancio di ChatGPT alla fine del 2022 e l’investimento di 10 miliardi di dollari di Microsoft nella start-up OpenAI, i giganti del web si sono affrettati a introdurre la propria intelligenza artificiale.
Google si è fatta conoscere con Bard, la sua AI conversazionale, mentre Meta ha confermato che svilupperà la sua AI già nell’aprile 2023. Negli ultimi mesi, l’azienda di Menlo Park ha pubblicato una serie di modelli di intelligenza artificiale, a partire da LLaMA (Large Language Model Meta AI), un modello linguistico open-source.
Poco tempo fa, l’azienda californiana ha presentato anche JEPA, un modello che mira a riprodurre il pensiero umano, in particolare analizzando e comprendendo nozioni e concetti astratti. In un ambito completamente diverso, Meta ha presentato anche MusicGen, un’intelligenza artificiale in grado di creare musica utilizzando una descrizione testuale di base.
Meta svela Voicebox, un’IA in grado di imitare la voce umana
Il 16 giugno 2023 Meta ha annunciato “la sua nuova scoperta nell’IA generativa per il parlato”. Questa IA è Voicebox. In breve, questo modello di IA all’avanguardia è specializzato nella sintesi vocale. In altre parole, è in grado di creare, modificare o stilizzare file audio.
Cominciamo con la caratteristica più interessante (e probabilmente più problematica) di Voicebox: il text-to-speech in-context. Sulla base di un estratto audio di soli due secondi, Voicebox è in grado di generare un discorso simulando la voce e il fraseggio della persona ascoltata nell’estratto.
In questo modo, Voicebox può simulare la voce di un parente, di un cantante o di un politico. In futuro, Meta sostiene che Voicebox e altri modelli di IA generativa simili saranno in grado di dare voci naturali agli assistenti vocali o ai PNG nel metaverso. Inoltre, potrebbero consentire alle persone ipovedenti di ascoltare i messaggi scritti con la voce dei loro amici.
Editing di file audio e traduzione istantanea
Ma non è tutto, perché Voicebox offre anche altre funzioni:
- Editing audio e riduzione del rumore: Voicebox è in grado di ricreare una porzione di discorso interrotta dal rumore o di sostituire parole biascicate o pronunciate male senza dover registrare nuovamente l’intero discorso (una sorta di gomma magica per l’audio in stile Google).
- Traduzione multilingue: Voicebox supporta attualmente sei lingue (inglese, francese, spagnolo, tedesco, polacco e portoghese), consentendo di trasporre un discorso in una lingua diversa da quella del file originale (pur trasponendo lo stile e le sfumature).
Per svolgere i suoi vari compiti, l’intelligenza artificiale di Meta ha perfezionato le sue capacità su oltre 50.000 ore di estratti audio, principalmente da audiolibri e contenuti royalty-free. Per il momento, Voicebox rimane inaccessibile al pubblico, per motivi di sicurezza. Non sorprende che Meta tema che la sua IA possa essere utilizzata in modo improprio, in particolare per imitare le voci di persone reali.