Meta presenta il progetto Massively Multilingual Speech: un modello di intelligenza artificiale che può riconoscere più di 4.000 lingue parlate e produrre il parlato in più di 1.100.

Meta fa un importante passo avanti nella conservazione della diversità linguistica del mondo grazie al progetto Massively Multilingual Speech (MMS). Il progetto MMS di Meta è in grado di riconoscere più di 4.000 lingue parlate e di produrre il parlato (text-to-speech) in più di 1.100. Sono numeri davvero impressionanti che dimostrano la grande attenzione che l’azienda dedica alla conservazione della diversità linguistica del nostro pianeta.

L’azienda ha utilizzato un approccio non convenzionale per raccogliere dati audio: attingere alle registrazioni audio di testi religiosi tradotti. Questi testi religiosi, come la Bibbia, sono stati tradotti in molte lingue diverse e le cui traduzioni sono state ampiamente studiate per la ricerca sulla traduzione linguistica basata sui testi. Queste traduzioni hanno registrazioni audio pubblicamente disponibili di persone che leggono questi testi in diverse lingue. Incorporando le registrazioni non etichettate della Bibbia e di testi simili, i ricercatori di Meta hanno aumentato le lingue disponibili del modello a oltre 4.000, dimostrando che è possibile adottare approcci innovativi per raccogliere dati quando non esistono altre fonti.

Una volta addestrato, il modello MMS di Meta ha superato le aspettative. Infatti, Meta ha confrontato MMS con Whisper di OpenAI, superando le aspettative. “Abbiamo scoperto che i modelli addestrati sui dati di Massively Multilingual Speech raggiungono la metà del tasso di errore di parola, ma Massively Multilingual Speech copre 11 volte più lingue”. L’azienda ha reso pubblico il modello MMS e il codice per contribuire attivamente alla preservazione della diversità linguistica del mondo.

L’approccio di Meta suscita alcune preoccupazioni sul fatto che un modello di intelligenza artificiale basato su testi religiosi potrebbe creare un pregiudizio nella scelta delle parole. Tuttavia, Meta afferma che il modello non è influenzato dal tipo di contenuto audio utilizzato per l’addestramento. Inoltre, nonostante la maggior parte delle registrazioni religiose sia stata letta da oratori maschi, questo non ha introdotto pregiudizi di genere.

Gli sforzi di Meta per conservare la diversità linguistica del mondo sono estremamente importanti. La tecnologia ha il potenziale per creare barriere linguistiche quando il numero di lingue supportate è ridotto. Meta vede un futuro in cui la tecnologia assistiva, il TTS e persino la tecnologia VR/AR consentano a tutti di parlare e imparare nella propria lingua madre. Questo è un obiettivo encomiabile, e l’azienda merita di essere elogiata per aver fatto questo passo avanti nell’evoluzione dell’intelligenza artificiale.

Articolo precedenteFirefox Relay ottiene una scorciatoia alla barra degli strumenti
Articolo successivoIntel Meteor Lake-S potrebbe essere sostituita da Arrow Lake-S