News

OpenAI rivoluziona l’assistenza vocale con Realtime API

3 Ottobre 2024

OpenAI lancia API per creare assistenti vocali naturali e modelli che comprendono immagini, rendendo l’IA sempre più simile agli umani. Ecco i dettagli.

Durante l’evento annuale per sviluppatori, OpenAI ha annunciato una serie di novità che promettono di rendere più facile l’integrazione dei suoi modelli di intelligenza artificiale in applicazioni di terze parti. Tra le novità più interessanti emerge Realtime API, ora disponibile in beta pubblica, che introduce funzioni vocali avanzate, utilizzando sei voci predefinite. L’API permette agli sviluppatori di creare assistenti vocali con un sistema semplificato, simile alla modalità vocale di ChatGPT, offrendo un supporto rapido e intuitivo a chiunque.

Prima di questo aggiornamento, creare un assistente vocale richiedeva l’uso di modelli diversi per ogni fase del processo: dal riconoscimento vocale alla conversione del testo in voce. Con la nuova API, tutto questo viene gestito con un’unica chiamata, riducendo la complessità e migliorando la fluidità della conversazione, sebbene le risposte siano ancora leggermente più lente rispetto a un’interazione umana.

Un altro importante aggiornamento riguarda l’aggiunta di funzionalità audio all’API Chat Completions. Gli sviluppatori possono ora inserire testo o audio e ricevere risposte in entrambi i formati, offrendo maggiore flessibilità e rendendo le applicazioni basate sull’AI ancora più versatili.

Tra le novità, segnaliamo lo strumento di Model Distillation, che permette agli sviluppatori di personalizzare modelli più leggeri, come GPT-4o mini, sfruttando gli output di modelli più avanzati come GPT-4o. Questo consente di ottenere risultati più accurati anche con modelli meno potenti, che rende possibile l’uso di AI performante anche in contesti con risorse limitate.

Interessante anche l’introduzione di Prompt Caching, una funzione che accelera il processo di inferenza memorizzando le richieste più frequenti. Il sistema riduce fino al 50% i token di input, migliorando i tempi di risposta e riducendo i costi di utilizzo per gli sviluppatori.

Tra le innovazioni più sorprendenti, OpenAI ha presentato un’ulteriore funzione di miglioramento della visione per GPT-4o, che permette di addestrare il modello a riconoscere oggetti, cibi e altri elementi visivi. La nuova tecnologia apre la strada a numerose applicazioni, dalla ricerca visiva al rilevamento di oggetti per veicoli autonomi, fino all’analisi di immagini mediche.

Tutti questi aggiornamenti sono già disponibili o lo saranno a breve per gli sviluppatori. La Realtime API è accessibile in beta per i clienti paganti, mentre l’API Chat Completions sarà aggiornata nelle prossime settimane. Il Prompt Caching è già integrato nelle ultime versioni dei modelli GPT, e lo strumento Model Distillation è pronto per essere provato da tutti gli sviluppatori.

Fonte