Superato lo scoglio dell’unimodalità, l’intelligenza artificiale Bing Chat di Microsoft evolve grazie all’implementazione di capacità multimodali, non senza incontrare però qualche ostacolo.
Per lunghi mesi, Microsoft ha occupato un posto di primo piano nell’arena dell’innovazione, grazie all’integrazione dell’intelligenza artificiale (IA) nei suoi prodotti. Tuttavia, con l’ascesa di IA sempre più potenti e di facile accesso, il vantaggio di cui godeva l’azienda di Redmond sembra destinato a svanire, come il ghiaccio al sole. Tuttavia, un recente annuncio promette di rinnovare il ruolo di primo piano di Microsoft nel panorama dell’IA.
Bard, l’IA di Google, sebbene sia arrivata sul mercato in un secondo momento, si è già evoluta diventando multimodale. Mikhail Parakhin, direttore della pubblicità e dei servizi di Microsoft, ha annunciato questa mattina su Twitter che anche Bing Chat l’IA di Microsoft compie un passo avanti e diventa multimodale.
Parakhin ha esultato sul noto social network, dichiarando: “Ok, abbiamo finalmente implementato la comprensione multimodale/immagine ovunque (beh, quasi – l’implementazione sarà completa domani, ma al 99% oggi)”. Questo annuncio arriva a seguito del lancio da parte di OpenAI di GPT-4 nel marzo 2023, descritto come “l’ultimo passo nei suoi sforzi per estendere il deep learning”. Questo nuovo modello linguistico di grandi dimensioni include non solo il testo, ma anche le immagini. Grazie a questa nuova capacità, Bing Chat di Microsoft sarà in grado, per esempio, di scrivere una poesia basandosi su un’immagine o di generare una melodia a partire da una descrizione testuale.
Solamente quattro mesi dopo l’ufficializzazione del nuovo LLM di OpenAI, gli ingegneri di Microsoft lo stanno implementando nei prodotti dell’azienda. L’innovazione promette di rivoluzionare la ricerca basata sulle immagini in Bing Chat e/o Edge, che sarà disponibile a partire da domani. Nonostante l’entusiasmo che l’annuncio ha suscitato, sembra tuttavia che il lancio non sarà privo di problemi.
Un utente di Twitter, che ha avuto la possibilità di testare in anteprima questa nuova IA multimodale, ha infatti esposto le sue perplessità direttamente a Parakhin: “L’unico grande problema è che se carico un’immagine e poi uso il microfono per fare la mia domanda, Bing dice che non c’è nessuna immagine. Quindi l’immagine e il microfono non funzionano insieme, credo”.
Nonostante questi problemi iniziali, il passaggio a un’IA multimodale rappresenta un importante passo in avanti per Microsoft, che si sta sforzando di mantenere il passo con le aziende concorrenti e di rimanere in prima linea nel settore in continua evoluzione dell’Intelligenza Artificiale.