Meta rilascia i modelli Llama 3.2 1B e 3B in versione leggera, ottimizzati per dispositivi mobile con risorse limitate grazie alla collaborazione con Qualcomm e MediaTek. Un passo avanti per l’AI on-device, garantendo efficienza e privacy.
Meta ha rilasciato versioni leggere dei suoi modelli Llama, capaci di operare su smartphone e tablet con risorse limitate, rendendo l’AI più accessibile e utilizzabile anche fuori dai tradizionali data center, con vantaggi per la privacy. Sono stati presentati i modelli quantizzati Llama 3.2 1B e 3B, in grado di operare fino a quattro volte più velocemente rispetto alle versioni precedenti, con meno della metà della memoria necessaria, un traguardo frutto della collaborazione con Qualcomm e MediaTek, che ha permesso a Meta di testare i modelli su CPU Arm e SoC, garantendo alte prestazioni su vari dispositivi.
I test effettuati su telefoni Android come OnePlus 12 e Galaxy S24+ hanno dimostrato un’efficienza importante: i modelli risultano fino al 56% più piccoli e usano il 41% in meno di memoria rispetto ai modelli in formato BF16. Su dispositivi iOS, Meta ha verificato la precisione dei modelli, ma non le prestazioni.
Meta ha utilizzato avanzate tecniche di quantizzazione per sviluppare Llama 3.2, come Quantization-Aware Training (QAT) con adattatori LoRA e SpinQuant. Il QAT con LoRA, detto anche QLoRA, assicura alta precisione anche su dispositivi meno potenti, mantenendo stabilità ed efficienza. SpinQuant è una tecnica post-training ideale per applicazioni che non dispongono dei dati di addestramento originali, rendendo il modello adattabile e versatile. Entrambi i metodi sono integrati nel framework ExecuTorch di PyTorch, agevolando l’implementazione su vari dispositivi.
Uno dei principali vantaggi dell’approccio di Meta è la possibilità di eseguire l’AI interamente on-device, preservando la privacy degli utenti. Gli sviluppatori possono così integrare Llama nei loro prodotti senza dover gestire dati sensibili su server remoti. Grazie alle ridotte esigenze di memoria, i nuovi modelli sono ideali per assistenza vocale, raccomandazioni personalizzate e altre funzioni AI che richiedono velocità e precisione. Inoltre, gli sviluppatori possono sfruttare questi strumenti per creare app innovative senza la necessità di hardware avanzato.
In questo modo, Meta adotta una strategia diversa rispetto a Google e Apple, che integrano l’AI mobile nei loro sistemi operativi. Apple, per esempio, punta a mantenere l’AI on-device, ma ciò richiede dispositivi recenti, come iPhone 15 Pro, Pro Max e prodotti con processori A17 Pro o M1 per la nuova Apple Intelligence.
La distribuzione open source di Meta consente agli sviluppatori di utilizzare i modelli compressi su una vasta gamma di dispositivi, anche di fascia media e bassa, espandendo così l’AI mobile nei mercati emergenti. Bisogna tener presente però che sebbene i modelli compressi offrano buone prestazioni, l’AI mobile richiede dispositivi con una potenza minima per garantire la fluidità. Inoltre, resta da valutare se la privacy on-device possa competere con la potenza del cloud, spesso preferito per applicazioni più complesse.