A soli due mesi dal lancio di Gemini, Big G annuncia il suo successore, Google Gemini 1.5, che promette un salto quantico nelle capacità di elaborazione.
Proprio la scorsa settimana Google ha presentato alcune importanti novità, ribattezzando Bard in Google Gemini, presentando un’app Gemini, nota come Gemini Advanced, e rivelando un nuovo piano AI Premium. Continuando la sua serie di novità, Google ha annunciato un altro sviluppo: un nuovo modello di IA.
Il gigante tech ha presentato il suo modello di nuova generazione, Google Gemini 1.5. Anche se Gemini 1.0 è stato lanciato solo a dicembre, il nuovo modello vanta enormi miglioramenti rispetto al suo predecessore, tra cui una finestra contestuale più lunga, una migliore comprensione e prestazioni migliorate.
Il modello è così avanzato che il CEO di Google Sundar Pichai ha dichiarato che 1.5 Pro, il primo modello Gemini 1.5 che Google sta rilasciando per i primi test, raggiunge una qualità paragonabile a 1.0 Ultra, il modello linguistico di grandi dimensioni (LLM) più avanzato dell’azienda, annunciato la scorsa settimana, pur utilizzando meno calcoli.
“Le finestre contestuali più lunghe ci mostrano la promessa di ciò che è possibile”, ha aggiunto Pichai. “Permetteranno di realizzare capacità completamente nuove e aiuteranno gli sviluppatori a costruire modelli e applicazioni molto più utili”.
Per ottenere queste migliori prestazioni, Gemini 1.5 è stato costruito su una nuova versione dell’architettura Mixture-of-Experts (MoE), che consente al modello di apprendere e attivare selettivamente i percorsi più rilevanti nella sua rete neurale, aumentandone l’efficienza, secondo il comunicato stampa.
Google sostiene che Gemini 1.5 Pro è in grado di eseguire fino a un milione di token in produzione, un aumento massiccio rispetto ai 32.000 token originali di Gemini 1.0. Questo aumento è degno di nota perché la finestra contestuale del modello, ovvero la quantità di informazioni che può ricevere, è costituita da token. Pertanto, più token un modello è in grado di recepire, più è probabile che le sue risposte siano migliori e più informate.
Google afferma che 1.5 Pro è in grado di elaborare grandi quantità di informazioni in una sola seduta, “tra cui fino a un’ora di video, 11 ore di audio e codebase con oltre 30.000 righe di codice o oltre 700.000 parole”.
In una dimostrazione, Google ha fornito a 1.5 Pro un film muto di Buster Keaton della durata di 44 minuti, che il modello è stato in grado di elaborare rapidamente e di rispondere a tutti i tipi di domande, comprese quelle multimodali, come si vede nel video qui sotto.
Il modello ha ottenuto risultati impressionanti anche rispetto ai benchmark. Ha superato 1.0 Pro nell’87% dei benchmark utilizzati da Google per sviluppare i suoi LLM. Gemini 1.5 Pro ha ottenuto risultati straordinari anche nella valutazione Needle In A Haystack (NIAH) e nei benchmark Machine Translation from One Book (MTOB), che mettono alla prova l’acutezza e le capacità di apprendimento del modello.
Per rassicurare gli utenti sulla sicurezza di Gemini 1.5 Pro, Google afferma di aver condotto valutazioni approfondite per garantire una distribuzione sicura e responsabile di questo modello avanzato.
Google sta rilasciando 1.5 Pro con una finestra contestuale di un milione di token in anteprima limitata agli sviluppatori e ai clienti aziendali, tramite AI Studio e Vertex AI, senza alcun costo. Una volta che il modello sarà pronto per un rilascio più ampio, Google prevede di introdurre 1.5 Pro con livelli di prezzo che partono dalla finestra standard di 128.000 token context e che arrivano fino a un milione di token.