Ricevi la newsletter
Tool, prompt e workflow AI. Una volta a settimana, gratis.
Sei dentro. Da questa settimana ricevi la newsletter.
Google rilascia Gemma 4 12B: AI multimodale con audio nativo che gira in locale su un laptop con 16 GB. Architettura encoder-free, 256K token e licenza Apache 2.0.

Gemma 4 12B è il primo modello della famiglia Gemma che mette testo, immagini e audio dentro un’unica architettura, senza encoder separati. E gira in locale con 16 GB di RAM o VRAM. Niente cloud, niente workstation da 5.000 euro.
In pratica:
→ multimodalità nativa (testo + immagini + audio)
→ 256K token di contesti
→ licenza Apache 2.0, quindi anche uso commerciale
→ tutto su un laptop con scheda dedicata o memoria unificata
Attenzione però: i benchmark che vedi qui sotto sono quelli dichiarati da Google. Vanno verificati nei test reali della community. Lo dico subito perché è la parte che conta.
Gemma 4 12B è un modello open weight da circa 12 miliardi di parametri, multimodale e con architettura encoder-free: elabora testo, immagini e audio in un solo transformer decoder-only, senza componenti dedicati per visione e audio. Pesa abbastanza poco da girare in locale su hardware consumer.
Si piazza nel mezzo della famiglia Gemma 4:
→ sotto ci sono E2B ed E4B, pensati per mobile e dispositivi edge
→ sopra c’è il 26B A4B MoE e il 31B Dense, i fratelli grossi da workstation o server
Il 12B è il compromesso: capacità da modello medio, requisiti da modello locale.
Secondo Google serve:
Con la release, la famiglia Gemma ha superato i 150 milioni di download. Segno che la domanda di modelli aperti e leggeri c’è, ed è grossa.
Qui sta il punto interessante, ed è tecnico ma vale la pena capirlo.
I modelli multimodali “classici” usano componenti separati per elaborare immagini e audio. Questi encoder convertono i dati in rappresentazioni, che poi passano al modello linguistico. Più pezzi, più memoria, più latenza.
Gemma 4 12B butta via questo schema.
Ricevi una guida pratica ogni settimana. AI, tool e automazioni.
Niente encoder visivo. Al suo posto un embedder da appena 35M di parametri: le patch grezze da 48×48 pixel vengono proiettate nello spazio del modello con una singola moltiplicazione di matrici. Da lì in poi è il modello linguistico a leggere direttamente le immagini.
Per fare un confronto: gli altri Gemma 4 medi usano un encoder visivo da ~550M di parametri. Qui sono 35M.
Ancora più radicale. L’encoder audio sparisce del tutto.
Il segnale grezzo a 16 kHz viene tagliato in frame da 40ms (640 valori ciascuno) e proiettato linearmente nello stesso spazio dei token testuali. Audio, immagini e testo finiscono nella stessa architettura, con gli stessi pesi.
Il risultato concreto:
→ meno memoria occupata
→ meno latenza quando elabori input multimodali
→ fine-tuning in un solo passaggio (LoRA o full), perché non devi co-allenare encoder separati
Non è un dettaglio da paper. È quello che permette di far stare il modello su un laptop.
Per la prima volta nella famiglia Gemma, un modello medio ingerisce audio nativamente. Prima era roba riservata ai modelli edge piccoli (E2B, E4B).
Cosa ci fai:
Google ha mostrato una demo con l’app Google AI Edge Eloquent: il modello ascolta una registrazione, la trascrive, la formatta e la traduce. Tutto offline, senza una riga che esce dal dispositivo.
Limiti dichiarati: l’audio supporta massimo 30 secondi per input, il video massimo 60 secondi a 1 frame al secondo. Non è ancora il dettatore infinito, ma per assistenti vocali locali è un passo vero.
Google dichiara che il 12B arriva vicino al fratello maggiore 26B A4B MoE usando meno della metà delle risorse. Ecco i benchmark dichiarati (modelli instruction-tuned):
| Benchmark | Gemma 4 12B | Gemma 4 26B A4B | Gemma 4 E4B |
|---|---|---|---|
| MMLU Pro | 77,2% | 82,6% | 69,4% |
| AIME 2026 (no tools) | 77,5% | 88,3% | 42,5% |
| LiveCodeBench v6 | 72,0% | 77,1% | 52,0% |
| GPQA Diamond | 78,8% | 82,3% | 58,6% |
| MMMU Pro (vision) | 69,1% | 73,8% | 52,6% |
| MATH-Vision | 79,7% | 82,4% | 59,5% |
Tradotto: sul ragionamento e sul coding il 12B sta dietro al 26B, ma di poco. E stacca nettamente i modelli edge. Per chi costruisce agenti o automazioni in locale, è uno dei migliori rapporti prestazioni/hardware in giro adesso.
Ripeto il caveat di prima: sono numeri Google, su benchmark scelti da Google. La prova vera arriva quando la community lo mette contro Qwen, Llama, Mistral e Kimi sui propri task.
Due cose che fanno la differenza nell’uso quotidiano.
Il contesto arriva a 256.000 token. Significa dare in pasto al modello documentazione lunga, intere codebase, conversazioni complete, senza spezzettare tutto in riassunti continui. I modelli edge della stessa famiglia si fermano a 128K.
Poi c’è il Multi-Token Prediction (MTP). Google rilascia un modello “drafter” dedicato che prevede più token insieme invece di sputarli uno alla volta. Risultato: risposte più rapide e inferenza più efficiente, che su un laptop si sente.
Gemma 4 12B è già compatibile con gli strumenti che probabilmente usi già:
Per il fine-tuning Google indica Unsloth e Hugging Face. Le novità di questa release sul fronte locale:
→ app desktop native per macOS (Apple Silicon), via Google AI Edge Gallery, che girano offline
→ litert-lm serve, un server API OpenAI-compatible locale, da collegare a integrazioni come Continue, Aider o OpenCode
I pesi li scarichi dalla model card su Hugging Face; i dettagli ufficiali sull’architettura sono nel Developer Guide di Google.
Se hai già un setup di AI locale, non devi rifare niente. Se parti da zero con Ollama, ne ho scritto una guida completa qui, e il discorso su come usare modelli locali dentro Claude Code lo trovi in questo articolo.
Tre intoppi tipici quando provi un modello come questo in locale.
“Va in out of memory / si blocca.” I 16 GB dichiarati sono il minimo per la versione quantizzata. Se carichi i pesi a piena precisione ne servono molti di più. Su Ollama o LM Studio scegli una quantizzazione (Q4_K_M è un buon punto di partenza) e chiudi le altre app che mangiano RAM.
“L’audio non funziona.” L’input audio è supportato solo su E2B, E4B e 12B, e solo con la pipeline giusta (Transformers con il processor multimodale, o le app Edge). Non aspettarti che ogni client desktop lo gestisca subito. E ricorda il limite dei 30 secondi.
“Gira lentissimo.” Senza GPU dedicata o memoria unificata veloce, un modello da 12B in locale è lento, soprattutto sui contesti lunghi. Attiva il drafter MTP se il tuo runtime lo supporta, abbassa il budget di token visivi per le immagini (70 o 140 bastano per classificazione e caption) e tieni i prompt corti.
Sì, i pesi sono scaricabili gratis da Hugging Face e Kaggle con licenza Apache 2.0, che permette anche l’uso commerciale. Il costo reale è l’hardware su cui lo fai girare.
Google indica 16 GB di RAM o memoria unificata, oppure 16 GB di VRAM su GPU dedicata. Funziona su laptop con scheda video discreta o su Mac Apple Silicon. La quantizzazione aiuta a stare nei limiti.
Vuol dire che il modello non usa componenti separati per elaborare immagini e audio prima di passarli al modello linguistico. Le immagini e l’audio grezzi vengono proiettati direttamente nello spazio del modello, riducendo memoria e latenza.
Sì. Gemma 4 supporta più di 140 lingue in pre-training e oltre 35 lingue out-of-the-box, italiano incluso. Le prestazioni sull’italiano vanno comunque verificate nei test reali.
Dipende dal task. In locale vinci su privacy, costo a regime e zero dipendenza dal cloud. Sui task pesanti e i contesti enormi, un modello cloud di punta resta più potente e veloce. Gemma 4 12B è il punto giusto se vuoi capacità decenti senza mandare dati fuori.
Torniamo al punto di partenza. La cosa interessante di Gemma 4 12B non è il numero di parametri. È l’architettura encoder-free che unifica testo, immagini e audio nello stesso modello e lo fa stare su un laptop.
Se questa strada regge nei test reali, è il tipo di release che sposta l’asticella dell’AI locale: multimodale, con audio nativo, 256K di contesto e licenza permissiva, senza cloud.
Per chi sviluppa agenti, automazioni o app multimodali con un occhio a privacy e costi, è uno dei candidati più seri del 2026. Con un però onesto: aspetta i confronti della community contro Qwen, Llama e Mistral prima di buttarci sopra un progetto in produzione.
Se vuoi i miei test su questi modelli locali prima degli altri, iscriviti alla newsletter settimanale. E se il setup non parte, scrivimi nella community Facebook.
Per la stesura dell’articolo sono state consultate fonti ufficiali Google, Google DeepMind, Google Developers e Hugging Face relative a Gemma 4 12B, alla sua architettura encoder-free, ai requisiti hardware e al supporto multimodale.
Annuncio ufficiale di Google su Gemma 4 12B, con panoramica su architettura encoder-free, audio nativo, requisiti hardware da 16 GB, licenza Apache 2.0 e Multi-Token Prediction.
Apri fonteGuida tecnica per sviluppatori: spiega come funziona l’architettura encoder-free, la proiezione diretta di immagini e audio, il supporto locale e gli scenari agentici.
Apri fonteModel card ufficiale del modello Gemma 4 12B, con dettagli su licenza, architettura, input multimodali, contesto da 256K token, lingue supportate e modalità d’uso.
Apri fontePagina ufficiale della famiglia Gemma 4, utile per contestualizzare il 12B rispetto agli altri modelli della serie, ai benchmark, agli scenari on-device e agli agentic workflow.
Apri fonteApprofondimento sulla famiglia Gemma 4, con dettagli su dimensioni dei modelli, supporto multimodale, contesto, deployment locale, llama.cpp, MLX, Transformers e fine-tuning.
Apri fonte