# Gemma 4 12B: l’AI multimodale di Google che gira sul laptop > Fonte: https://francescogruner.it/gemma-4-12b-ai-locale/ Gemma 4 12B è il primo modello della famiglia Gemma che mette testo, immagini e audio dentro un’unica architettura, senza encoder separati. E gira in locale con 16 GB di RAM o VRAM. Niente cloud, niente workstation da 5.000 euro. In pratica: → multimodalità nativa (testo + immagini + audio) → 256K token di contesti → licenza Apache 2.0, quindi anche uso commerciale → tutto su un laptop con scheda dedicata o memoria unificata Attenzione però: i benchmark che vedi qui sotto sono quelli dichiarati da Google. Vanno verificati nei test reali della community. Lo dico subito perché è la parte che conta. Indice dei contenuti [Toggle](#) - [Cos’è Gemma 4 12B](#Cose_Gemma_4_12B) - [La vera novità: niente encoder](#La_vera_novita_niente_encoder) - [Ti sta piacendo?](#Ti_sta_piacendo) - [Visione](#Visione) - [Audio](#Audio) - [L’audio nativo è la sorpresa](#Laudio_nativo_e_la_sorpresa) - [Prestazioni: vicine al 26B, ma con i numeri di Google](#Prestazioni_vicine_al_26B_ma_con_i_numeri_di_Google) - [256K di contesto e Multi-Token Prediction](#256K_di_contesto_e_Multi-Token_Prediction) - [Come provarlo subito](#Come_provarlo_subito) - [Cosa fare se qualcosa non parte](#Cosa_fare_se_qualcosa_non_parte) - [FAQ](#FAQ) - [In sintesi: vale la pena?](#In_sintesi_vale_la_pena) - [Fonti](#Fonti) - [Introducing Gemma 4 12B](#Introducing_Gemma_4_12B) - [Gemma 4 12B: The Developer Guide](#Gemma_4_12B_The_Developer_Guide) - [google/gemma-4-12B](#googlegemma-4-12B) - [Gemma 4](#Gemma_4) - [Welcome Gemma 4](#Welcome_Gemma_4) ## Cos’è Gemma 4 12B Gemma 4 12B è un modello open weight da circa 12 miliardi di parametri, multimodale e con architettura encoder-free: elabora testo, immagini e audio in un solo transformer decoder-only, senza componenti dedicati per visione e audio. Pesa abbastanza poco da girare in locale su hardware consumer. Si piazza nel mezzo della famiglia Gemma 4: → sotto ci sono E2B ed E4B, pensati per mobile e dispositivi edge → sopra c’è il 26B A4B MoE e il 31B Dense, i fratelli grossi da workstation o server Il 12B è il compromesso: capacità da modello medio, requisiti da modello locale. Secondo Google serve: - 16 GB di RAM o memoria unificata (tipo i Mac Apple Silicon) - oppure 16 GB di VRAM su GPU dedicata Con la release, la famiglia Gemma ha superato i 150 milioni di download. Segno che la domanda di modelli aperti e leggeri c’è, ed è grossa. ## La vera novità: niente encoder Qui sta il punto interessante, ed è tecnico ma vale la pena capirlo. I modelli multimodali “classici” usano componenti separati per elaborare immagini e audio. Questi encoder convertono i dati in rappresentazioni, che poi passano al modello linguistico. Più pezzi, più memoria, più latenza. Gemma 4 12B butta via questo schema. ## Ti sta piacendo? Ricevi una guida pratica ogni settimana. AI, tool e automazioni. Iscriviti gratis Perfetto, sei dentro. ### Visione Niente encoder visivo. Al suo posto un embedder da appena 35M di parametri: le patch grezze da 48×48 pixel vengono proiettate nello spazio del modello con una singola moltiplicazione di matrici. Da lì in poi è il modello linguistico a leggere direttamente le immagini. Per fare un confronto: gli altri Gemma 4 medi usano un encoder visivo da ~550M di parametri. Qui sono 35M. ### Audio Ancora più radicale. L’encoder audio sparisce del tutto. Il segnale grezzo a 16 kHz viene tagliato in frame da 40ms (640 valori ciascuno) e proiettato linearmente nello stesso spazio dei token testuali. Audio, immagini e testo finiscono nella stessa architettura, con gli stessi pesi. Il risultato concreto: → meno memoria occupata → meno latenza quando elabori input multimodali → fine-tuning in un solo passaggio (LoRA o full), perché non devi co-allenare encoder separati Non è un dettaglio da paper. È quello che permette di far stare il modello su un laptop. ## L’audio nativo è la sorpresa Per la prima volta nella famiglia Gemma, un modello medio ingerisce audio nativamente. Prima era roba riservata ai modelli edge piccoli (E2B, E4B). Cosa ci fai: - trascrizione vocale (ASR) - comprensione audio - traduzione del parlato (speech-to-translated-text) - formattazione di contenuti vocali Google ha mostrato una demo con l’app Google AI Edge Eloquent: il modello ascolta una registrazione, la trascrive, la formatta e la traduce. Tutto offline, senza una riga che esce dal dispositivo. Limiti dichiarati: l’audio supporta massimo 30 secondi per input, il video massimo 60 secondi a 1 frame al secondo. Non è ancora il dettatore infinito, ma per assistenti vocali locali è un passo vero. ## Prestazioni: vicine al 26B, ma con i numeri di Google Google dichiara che il 12B arriva vicino al fratello maggiore 26B A4B MoE usando meno della metà delle risorse. Ecco i benchmark dichiarati (modelli instruction-tuned): BenchmarkGemma 4 12BGemma 4 26B A4BGemma 4 E4BMMLU Pro77,2%82,6%69,4%AIME 2026 (no tools)77,5%88,3%42,5%LiveCodeBench v672,0%77,1%52,0%GPQA Diamond78,8%82,3%58,6%MMMU Pro (vision)69,1%73,8%52,6%MATH-Vision79,7%82,4%59,5% Tradotto: sul ragionamento e sul coding il 12B sta dietro al 26B, ma di poco. E stacca nettamente i modelli edge. Per chi costruisce agenti o automazioni in locale, è uno dei migliori rapporti prestazioni/hardware in giro adesso. Ripeto il caveat di prima: sono numeri Google, su benchmark scelti da Google. La prova vera arriva quando la community lo mette contro Qwen, Llama, Mistral e Kimi sui propri task. ## 256K di contesto e Multi-Token Prediction Due cose che fanno la differenza nell’uso quotidiano. Il contesto arriva a 256.000 token. Significa dare in pasto al modello documentazione lunga, intere codebase, conversazioni complete, senza spezzettare tutto in riassunti continui. I modelli edge della stessa famiglia si fermano a 128K. Poi c’è il Multi-Token Prediction (MTP). Google rilascia un modello “drafter” dedicato che prevede più token insieme invece di sputarli uno alla volta. Risultato: risposte più rapide e inferenza più efficiente, che su un laptop si sente. ## Come provarlo subito Gemma 4 12B è già compatibile con gli strumenti che probabilmente usi già: - Ollama - LM Studio - Hugging Face Transformers - llama.cpp - MLX (per i Mac) - vLLM, SGLang - LiteRT-LM CLI Per il fine-tuning Google indica Unsloth e Hugging Face. Le novità di questa release sul fronte locale: → app desktop native per macOS (Apple Silicon), via Google AI Edge Gallery, che girano offline → `litert-lm serve`, un server API OpenAI-compatible locale, da collegare a integrazioni come Continue, Aider o OpenCode I pesi li scarichi dalla [model card su Hugging Face](https://huggingface.co/google/gemma-4-12B-it); i dettagli ufficiali sull’architettura sono nel [Developer Guide di Google](https://developers.googleblog.com/gemma-4-12b-the-developer-guide/). Se hai già un setup di AI locale, non devi rifare niente. Se parti da zero con Ollama, [ne ho scritto una guida completa qui](https://francescogruner.it/ollama-cloud-guida/), e il discorso su come usare modelli locali dentro Claude Code [lo trovi in questo articolo](https://francescogruner.it/claude-code-ollama-glm-guida-2026/). ## Cosa fare se qualcosa non parte Tre intoppi tipici quando provi un modello come questo in locale. **“Va in out of memory / si blocca.”** I 16 GB dichiarati sono il minimo per la versione quantizzata. Se carichi i pesi a piena precisione ne servono molti di più. Su Ollama o LM Studio scegli una quantizzazione (Q4_K_M è un buon punto di partenza) e chiudi le altre app che mangiano RAM. **“L’audio non funziona.”** L’input audio è supportato solo su E2B, E4B e 12B, e solo con la pipeline giusta (Transformers con il processor multimodale, o le app Edge). Non aspettarti che ogni client desktop lo gestisca subito. E ricorda il limite dei 30 secondi. **“Gira lentissimo.”** Senza GPU dedicata o memoria unificata veloce, un modello da 12B in locale è lento, soprattutto sui contesti lunghi. Attiva il drafter MTP se il tuo runtime lo supporta, abbassa il budget di token visivi per le immagini (70 o 140 bastano per classificazione e caption) e tieni i prompt corti. ## FAQ Gemma 4 12B è gratis? Sì, i pesi sono scaricabili gratis da **Hugging Face** e **Kaggle** con licenza Apache 2.0, che permette anche l’uso commerciale. Il costo reale è l’hardware su cui lo fai girare. Su che hardware gira Gemma 4 12B? Google indica **16 GB di RAM o memoria unificata**, oppure **16 GB di VRAM** su GPU dedicata. Funziona su laptop con scheda video discreta o su Mac Apple Silicon. La quantizzazione aiuta a stare nei limiti. Cosa vuol dire “encoder-free”? Vuol dire che il modello non usa componenti separati per elaborare immagini e audio prima di passarli al modello linguistico. Le immagini e l’audio grezzi vengono proiettati direttamente nello spazio del modello, riducendo memoria e latenza. Gemma 4 12B capisce l’italiano? Sì. Gemma 4 supporta più di **140 lingue in pre-training** e oltre **35 lingue out-of-the-box**, italiano incluso. Le prestazioni sull’italiano vanno comunque verificate nei test reali. Meglio Gemma 4 12B o un modello da cloud? Dipende dal task. In locale vinci su **privacy, costo a regime e zero dipendenza dal cloud**. Sui task pesanti e i contesti enormi, un modello cloud di punta resta più potente e veloce. Gemma 4 12B è il punto giusto se vuoi capacità decenti senza mandare dati fuori. ## In sintesi: vale la pena? Torniamo al punto di partenza. La cosa interessante di Gemma 4 12B non è il numero di parametri. È l’architettura encoder-free che unifica testo, immagini e audio nello stesso modello e lo fa stare su un laptop. Se questa strada regge nei test reali, è il tipo di release che sposta l’asticella dell’AI locale: multimodale, con audio nativo, 256K di contesto e licenza permissiva, senza cloud. Per chi sviluppa agenti, automazioni o app multimodali con un occhio a privacy e costi, è uno dei candidati più seri del 2026. Con un però onesto: aspetta i confronti della community contro Qwen, Llama e Mistral prima di buttarci sopra un progetto in produzione. Se vuoi i miei test su questi modelli locali prima degli altri, iscriviti alla [newsletter settimanale](https://francescogruner.it). E se il setup non parte, scrivimi nella [community Facebook](https://www.facebook.com/groups/1614848349007261). ## Fonti Per la stesura dell’articolo sono state consultate fonti ufficiali Google, Google DeepMind, Google Developers e Hugging Face relative a Gemma 4 12B, alla sua architettura encoder-free, ai requisiti hardware e al supporto multimodale. [Google Blog ### Introducing Gemma 4 12B Annuncio ufficiale di Google su Gemma 4 12B, con panoramica su architettura encoder-free, audio nativo, requisiti hardware da 16 GB, licenza Apache 2.0 e Multi-Token Prediction. Apri fonte](https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/) [Google Developers ### Gemma 4 12B: The Developer Guide Guida tecnica per sviluppatori: spiega come funziona l’architettura encoder-free, la proiezione diretta di immagini e audio, il supporto locale e gli scenari agentici. Apri fonte](https://developers.googleblog.com/gemma-4-12b-the-developer-guide/) [Hugging Face ### google/gemma-4-12B Model card ufficiale del modello Gemma 4 12B, con dettagli su licenza, architettura, input multimodali, contesto da 256K token, lingue supportate e modalità d’uso. Apri fonte](https://huggingface.co/google/gemma-4-12B) [Google DeepMind ### Gemma 4 Pagina ufficiale della famiglia Gemma 4, utile per contestualizzare il 12B rispetto agli altri modelli della serie, ai benchmark, agli scenari on-device e agli agentic workflow. Apri fonte](https://deepmind.google/models/gemma/gemma-4/) [Hugging Face Blog ### Welcome Gemma 4 Approfondimento sulla famiglia Gemma 4, con dettagli su dimensioni dei modelli, supporto multimodale, contesto, deployment locale, llama.cpp, MLX, Transformers e fine-tuning. Apri fonte](https://huggingface.co/blog/gemma4)