Meta rilascia ImageBind, uno strumento di intelligenza artificiale (IA) in open source che è in grado di collegare testo, immagini/video, audio e altri dati multi-modali per generare ambienti complessi.
Meta ha lanciato ImageBind, uno strumento di intelligenza artificiale (IA) open-source che prevede le connessioni tra i dati in modo simile al modo in cui gli esseri umani percepiscono e immaginano l’ambiente. Mentre i generatori di immagini come Midjourney sono in grado di generare scene visuali solo sulla base di una descrizione testuale, ImageBind apre nuove possibilità, in quanto collega testo, immagini/video, audio, misurazioni 3D (profondità), dati termici e di movimento e, il tutto senza necessariamente doversi allenare su ogni singola possibilità. ImageBind rappresenta una fase iniziale di un framework che potrebbe generare scenari ambientali complessi dai dati di input.
Il nuovo strumento di intelligenza artificiale potrebbe essere visto come un avvicinamento dell’apprendimento automatico all’apprendimento umano. Come un cervello umano elabora odori, suoni, sensi tattili, vista e gusti per creare un quadro interconnesso della realtà, così anche ImageBind usa una vasta gamma di input per creare scene completamente realizzate anche sulla base di piccoli spezzoni di dati. Ciò significa che, mentre Midjourney può generare immagini relative a richieste come “un bassotto che indossa un costume da Gandalf mentre balla su un pallone da spiaggia”, ImageBind può andare oltre e creare un video completo del cane e dell’ambiente circostante.
ImageBind si concentra sull’applicazione della realtà virtuale (VR), della realtà mista e del metaverso. Il personale di Meta immagina un futuro in cui gli headset saranno capaci di creare scene in 3D completamente realizzate con suoni, movimenti e altro ancora utilizzando gli input della realtà virtuale. Sviluppatori di giochi possono utilizzare ImageBind per eliminare una gran parte del lavoro di progettazione. Inoltre, il nuovo strumento potrebbe aprire nuove opportunità nel settore dell’accessibilità, generando descrizioni multimediali in tempo reale per aiutare le persone con disabilità visive o uditive a percepire meglio l’ambiente circostante.
Oltre alle possibilità di utilizzo menzionate, gli sviluppatori interessati possono facilmente esplorare la tecnologia di ImageBind in quanto si tratta di uno strumento open-source. ImageBind dimostra che è possibile creare uno spazio di incorporamento comune per più modalità senza bisogno di addestrarsi su dati con ogni differente combinazione di modalità. Meta crede che l’introduzione di nuove modalità che collegano il maggior numero possibile di sensi consentirà di creare modelli di intelligenza che saranno più ricchi e incentrati sull’uomo.