# DiffusionGemma: il modello open di Google che genera testo “come le immagini” > Fonte: https://francescogruner.it/diffusiongemma-google-modello-open-testo-diffusione/ Google ha rilasciato **DiffusionGemma**, un nuovo modello sperimentale open-weight che prova a cambiare il modo in cui siamo abituati a pensare alla generazione del testo con l’intelligenza artificiale. Di solito, quando usiamo un modello come ChatGPT, Claude, Gemini, Llama o Gemma, vediamo il testo comparire progressivamente. Una parola dopo l’altra, una frase dopo l’altra, come se il modello stesse scrivendo con una macchina da scrivere molto veloce. Tecnicamente, il modello non genera esattamente “parole”, ma **token**, cioè piccoli pezzi di testo. Il principio però resta quello: prima un pezzetto, poi il successivo, poi quello dopo ancora. DiffusionGemma prova a fare qualcosa di diverso. Invece di generare testo un token alla volta, lavora su **blocchi interi**, li riempie, li osserva, li corregge e li rifinisce progressivamente. È un approccio ispirato ai **modelli di diffusione**, la stessa famiglia di tecniche che negli ultimi anni ha rivoluzionato la generazione di immagini. Attenzione però: **DiffusionGemma non genera immagini**. Genera testo. La somiglianza riguarda il metodo. Come un generatore di immagini parte da una specie di rumore e lo trasforma gradualmente in una figura riconoscibile, DiffusionGemma parte da un blocco testuale incompleto o “rumoroso” e lo raffina fino a ottenere una risposta leggibile. Detta in modo semplice: i modelli classici scrivono come una macchina da scrivere. DiffusionGemma lavora più come una persona che prima fa una bozza su tutto il foglio, poi cancella, corregge e sistema finché il testo non prende forma. Indice dei contenuti [Toggle](#) - [Che cos’è DiffusionGemma](#Che_cose_DiffusionGemma) - [Il problema dei modelli che scrivono una parola alla volta](#Il_problema_dei_modelli_che_scrivono_una_parola_alla_volta) - [Ti sta piacendo?](#Ti_sta_piacendo) - [Come funziona la generazione con diffusione testuale](#Come_funziona_la_generazione_con_diffusione_testuale) - [Che cos’è un token, spiegato semplice](#Che_cose_un_token_spiegato_semplice) - [L’attenzione bidirezionale: perché è importante](#Lattenzione_bidirezionale_perche_e_importante) - [Perché Google parla di self-correction](#Perche_Google_parla_di_self-correction) - [Perché può essere così veloce](#Perche_puo_essere_cosi_veloce) - [Che hardware serve davvero](#Che_hardware_serve_davvero) - [DiffusionGemma è multimodale?](#DiffusionGemma_e_multimodale) - [Dove può essere utile DiffusionGemma](#Dove_puo_essere_utile_DiffusionGemma) - [Dove invece non è la scelta migliore](#Dove_invece_non_e_la_scelta_migliore) - [Open source o open-weight?](#Open_source_o_open-weight) - [Come si può provare DiffusionGemma](#Come_si_puo_provare_DiffusionGemma) - [Perché questa notizia è importante](#Perche_questa_notizia_e_importante) - [Il confronto più semplice](#Il_confronto_piu_semplice) - [Conclusione](#Conclusione) - [FAQ](#FAQ) - [Fonti](#Fonti) - [DiffusionGemma: 4x faster text generation](#DiffusionGemma_4x_faster_text_generation) - [Pagina ufficiale DiffusionGemma](#Pagina_ufficiale_DiffusionGemma) - [DiffusionGemma model card](#DiffusionGemma_model_card) - [Diffusion in Text Generation Explained](#Diffusion_in_Text_Generation_Explained) - [google/diffusiongemma-26B-A4B-it](#googlediffusiongemma-26B-A4B-it) - [Run DiffusionGemma on NVIDIA](#Run_DiffusionGemma_on_NVIDIA) ## Che cos’è DiffusionGemma DiffusionGemma è un modello sperimentale sviluppato da **Google DeepMind** e rilasciato con licenza **Apache 2.0**. È basato sulla famiglia **Gemma 4** e sulla ricerca **Gemini Diffusion**, cioè il lavoro di Google sui modelli di diffusione applicati anche al testo. Questo collegamento con Gemma 4 è importante, perché DiffusionGemma non nasce dal nulla. È parte della strategia con cui Google sta portando avanti modelli sempre più aperti, sperimentabili e adatti anche a scenari locali. Ne avevo già parlato nell’articolo su [Gemma 4 12B, l’AI multimodale di Google che gira sul laptop](https://francescogruner.it/gemma-4-12b-ai-locale/), dove il punto centrale era proprio questo: modelli potenti, multimodali e più accessibili rispetto ai grandi sistemi chiusi disponibili solo via cloud. DiffusionGemma prende quella direzione e aggiunge un elemento nuovo: non si limita a essere un altro modello Gemma, ma sperimenta un modo diverso di generare testo. Il modello principale è un **26B Mixture of Experts**, spesso abbreviato in **MoE**. Questa sigla può sembrare complicata, ma il concetto è abbastanza intuitivo. Un modello Mixture of Experts è come una grande squadra composta da tanti specialisti. Non tutti vengono chiamati per ogni compito. A seconda della richiesta, il modello attiva solo una parte degli “esperti” interni. DiffusionGemma ha circa **26 miliardi di parametri totali**, ma durante l’inferenza ne attiva circa **3,8 miliardi**. Questo gli permette di avere una struttura grande e articolata, ma senza dover usare tutto il modello a ogni singola risposta. È un compromesso interessante: più capacità rispetto a un modello piccolo, ma con un consumo più controllato rispetto a un modello denso che utilizza tutti i parametri contemporaneamente. In parole semplici: DiffusionGemma ha una grande squadra, ma per ogni lavoro chiama solo gli specialisti necessari. ## Il problema dei modelli che scrivono una parola alla volta Per capire perché DiffusionGemma è interessante, bisogna prima capire come funzionano i modelli linguistici tradizionali. La maggior parte degli LLM moderni è **autoregressiva**. Significa che il modello genera il testo in sequenza. Prima produce un token, poi usa quel token per prevedere il successivo, poi usa entrambi per prevedere quello dopo ancora. È un meccanismo molto potente, ma ha un limite naturale: **ogni passo dipende dal passo precedente**. Immagina di dover scrivere una frase senza poter vedere tutta la frase in anticipo. Scrivi una parola, poi decidi la successiva, poi quella dopo. Puoi essere bravissimo, ma il processo rimane sequenziale. Non puoi davvero generare tutto insieme, perché ogni pezzo nasce da quello che è già stato scritto. Questo approccio funziona benissimo per moltissimi casi d’uso. È alla base dei modelli che usiamo ogni giorno per scrivere testi, rispondere a domande, generare codice, riassumere documenti e conversare. Però diventa meno efficiente quando vogliamo sfruttare al massimo una GPU potente in locale. Google spiega questo limite con una metafora efficace: nel cloud, i modelli autoregressivi possono essere efficienti perché i server gestiscono tante richieste contemporaneamente e riescono a “riempire” bene la capacità della macchina. Ma quando esegui un modello localmente, magari per un solo utente, la GPU può rimanere sottoutilizzata. È come avere una tipografia industriale e usarla per stampare una lettera alla volta. DiffusionGemma nasce proprio per esplorare una strada diversa. ## Ti sta piacendo? Ricevi una guida pratica ogni settimana. AI, tool e automazioni. Iscriviti gratis Perfetto, sei dentro. ## Come funziona la generazione con diffusione testuale DiffusionGemma non genera il testo solo da sinistra a destra, token dopo token. Lavora invece su un **canvas**, cioè un blocco di testo temporaneo. Questo canvas può contenere **256 token**. Il modello parte da una struttura incompleta, provvisoria o rumorosa. Poi esegue più passaggi di raffinamento. A ogni passaggio prova a capire quali parti del blocco sono già buone, quali sono incerte e quali devono essere riscritte. I token più sicuri vengono progressivamente stabilizzati, mentre quelli meno sicuri possono essere rielaborati. ![Schema dell’architettura DiffusionGemma con input query, noisy canvas, token embedding layer, encoder, denoiser con attenzione bidirezionale, KV-cache e canvas aggiornato.](https://francescogruner.it/wp-content/uploads/2026/06/diffusion_architecture.original-876x1024.png) L’architettura di DiffusionGemma combina un encoder per leggere la richiesta iniziale e un denoiser che lavora sul canvas testuale, correggendo più token in parallelo invece di generare solo il token successivo. > Il dettaglio importante non è memorizzare ogni parte dello schema, ma capire il principio: DiffusionGemma separa la lettura del prompt dalla generazione del testo e usa un processo di raffinamento per trasformare un canvas inizialmente rumoroso in una risposta più coerente. È un po’ come quando un bambino disegna con la matita. All’inizio fa delle linee leggere e imprecise. Poi guarda il disegno, cancella qualche tratto, ne rinforza altri, aggiunge dettagli e corregge le proporzioni. Alla fine il disegno diventa più chiaro. DiffusionGemma fa qualcosa di simile, ma con il testo. Questa logica si chiama **discrete diffusion**, perché applica il principio della diffusione a elementi discreti, cioè token testuali, invece che a pixel o valori continui come avviene spesso nella generazione di immagini. Il punto importante è che il modello non sta semplicemente “scrivendo più veloce”. Sta lavorando in modo diverso. Non vede il testo solo come una catena lineare, ma come un blocco da costruire e migliorare progressivamente. ## Che cos’è un token, spiegato semplice Quando parliamo di modelli linguistici, il termine **token** torna continuamente. Un token è un piccolo pezzo di testo. A volte corrisponde a una parola intera, a volte a una parte di parola, a volte a uno spazio, un simbolo, un segno di punteggiatura o un frammento di codice. Per esempio, una frase come “intelligenza artificiale” non viene necessariamente vista dal modello come due parole. Potrebbe essere divisa in più token. Questo dipende dal tokenizer, cioè dal sistema che trasforma il testo in unità comprensibili per il modello. Quando diciamo che DiffusionGemma lavora su blocchi da 256 token, significa che il modello può generare e correggere insieme una porzione relativamente ampia di testo. Non sta guardando solo il prossimo pezzettino. Sta guardando un blocco intero e prova a farlo tornare nel suo insieme. Questo è molto importante in attività dove la **coerenza globale** conta più della semplice continuazione lineare. ## L’attenzione bidirezionale: perché è importante ![Confronto visivo tra generazione autoregressiva e generazione con diffusione: il modello autoregressivo produce token in sequenza, mentre il modello diffusion usa attenzione bidirezionale su tutto il blocco.](https://francescogruner.it/wp-content/uploads/2026/06/DiffusionGemma-Sudoku-Comparison.original-1024x259.png) Uno degli aspetti più interessanti di DiffusionGemma è l’**attenzione bidirezionale.** Nei modelli autoregressivi, quando il modello genera un token, normalmente può basarsi soprattutto su quello che viene prima. È come leggere una frase da sinistra a destra senza poter guardare davvero quello che verrà dopo. DiffusionGemma, durante il lavoro sul canvas, può invece far sì che ogni token tenga conto anche degli altri token presenti nel blocco. Questo gli permette di ragionare in modo più globale sulla struttura che sta costruendo. Per capire il vantaggio, pensiamo a un Sudoku. In un Sudoku, il numero corretto in una casella non dipende solo dalla casella precedente. Dipende dalla riga, dalla colonna, dal quadrante e da tutti gli altri numeri già presenti nella griglia. Se provi a risolverlo semplicemente da sinistra a destra, rischi di fare scelte che sembrano buone all’inizio ma creano problemi più avanti. ![Confronto tra DiffusionGemma base e DiffusionGemma dopo fine-tuning su un puzzle Sudoku, con due griglie affiancate che mostrano lo stesso problema prima e dopo l’addestramento specifico.](https://francescogruner.it/wp-content/uploads/2026/06/diffusiongemma-finetuning-sudoku-bidirectional-attention-1024x612.gif) Questo esempio aiuta a capire perché DiffusionGemma può essere interessante anche fuori dai puzzle. Lo stesso principio vale per codice, tabelle markdown, JSON, YAML o documenti strutturati: in tutti questi casi non basta generare il prossimo token, bisogna far tornare l’intera struttura. Una parentesi chiusa male, un’indentazione sbagliata o una tabella markdown incompleta possono rendere l’output inutilizzabile. La possibilità di lavorare su un blocco intero e correggerlo progressivamente può quindi diventare molto utile nei task dove conta la coerenza globale. Lo stesso principio può valere per il codice, per una tabella markdown, per un JSON, per uno YAML o per un testo strutturato. In questi casi non basta generare il prossimo token. Bisogna far tornare tutto: parentesi, indentazione, chiusure, riferimenti, formattazione e coerenza interna. È proprio qui che DiffusionGemma diventa interessante anche per chi lavora con strumenti AI locali, automazioni e sviluppo. In passato ho trattato modelli pensati per contesti lunghi e workflow tecnici, come [MiniMax M3, il modello open-weight da 1 milione di token](https://francescogruner.it/minimax-m3-modello-open-weight-ai-1-milione-token/). DiffusionGemma si muove su un piano diverso: non punta solo ad avere più contesto, ma a cambiare il modo in cui viene generata la risposta. ## Perché Google parla di self-correction Google descrive DiffusionGemma anche come un modello capace di **autocorrezione durante la generazione**. Questo non significa che diventi magicamente infallibile. Significa che, nel suo processo di denoising, può rivedere parti del canvas prima di arrivare all’output finale. Nei modelli autoregressivi classici, quando un token viene generato, il modello tende ad andare avanti. Può cercare di recuperare più avanti, ma non è naturale tornare indietro e cambiare davvero quello che ha già scritto. DiffusionGemma invece lavora con una logica più simile alla bozza: alcune parti vengono fissate, altre restano modificabili per qualche passaggio, poi il testo converge verso una forma finale. Questa caratteristica può essere interessante per attività come il completamento inline del codice, la generazione di formati strutturati e la correzione di layout testuali complessi. Non è difficile immaginare un editor in cui il modello non debba solo “continuare” il testo, ma debba riempire un buco in mezzo a una funzione, sistemare un blocco markdown o correggere una struttura JSON non valida. ## Perché può essere così veloce Google dichiara che DiffusionGemma può generare testo fino a **4 volte più velocemente** rispetto ai modelli autoregressivi su GPU dedicate. Nei test comunicati dall’azienda, il modello supera i **1.000 token al secondo** su una singola NVIDIA H100 e i **700 token al secondo** su una GeForce RTX 5090. Il motivo è legato al modo in cui viene usato l’hardware. Un modello autoregressivo deve fare moltissimi piccoli passi sequenziali. Anche con una GPU potente, ogni token dipende dal precedente. DiffusionGemma invece assegna alla GPU un blocco di lavoro più grande, permettendo di sfruttare meglio la capacità di calcolo disponibile. Google spiega questo passaggio dicendo che il collo di bottiglia si sposta dalla memoria alla potenza di calcolo. Tradotto in modo più semplice: invece di perdere tempo a recuperare continuamente informazioni per generare un pezzetto alla volta, il modello può dare alla GPU un compito più consistente e parallelizzabile. Questa differenza è particolarmente interessante in locale. Se hai una GPU potente sul tuo PC, ma stai servendo un solo utente, un modello autoregressivo può non sfruttare tutto il potenziale della macchina. DiffusionGemma nasce proprio per scenari a bassa o media concorrenza, dove conta avere una risposta molto veloce per un singolo utente o per pochi utenti contemporanei. In un grande servizio cloud ad altissimo traffico, invece, il vantaggio può ridursi. I modelli autoregressivi possono essere ottimizzati con batching e infrastrutture pensate per servire migliaia di richieste. Per questo DiffusionGemma non va letto come “la soluzione migliore sempre”, ma come una strada molto interessante per workflow locali e interattivi. ![Grafico “Intelligence vs. Latency” che confronta DiffusionGemma 26B A4B con Gemma 4 31B, 26B e 12B, mostrando DiffusionGemma con velocità di output superiore ma qualità benchmark leggermente inferiore.](https://francescogruner.it/wp-content/uploads/2026/06/diffusiongemma-intelligence-vs-latency-google.webp) DiffusionGemma sacrifica parte della qualità rispetto ai modelli Gemma 4 autoregressivi, ma aumenta drasticamente la velocità di generazione: il punto chiave non è “più intelligente”, ma “molto più rapido”. ## Che hardware serve davvero DiffusionGemma non è un modellino leggero da far girare serenamente su qualsiasi portatile. È un modello importante, con circa 26 miliardi di parametri totali. Però, grazie all’architettura MoE e alla quantizzazione, può diventare accessibile su GPU consumer di fascia alta. Google parla di compatibilità con schede come **NVIDIA RTX 4090** e **RTX 5090** quando il modello è quantizzato, con un footprint che può rientrare entro circa **18 GB di VRAM**. Questo è un dato molto interessante, ma va spiegato bene: non significa che qualunque PC sia adatto. Significa che, con una GPU seria, un modello di questa classe può essere sperimentato anche fuori da un datacenter. La quantizzazione è una tecnica che riduce la precisione numerica dei pesi del modello per farlo occupare meno memoria e renderlo più veloce. È un po’ come comprimere un’immagine: se lo fai bene, la differenza visiva è piccola, ma il file pesa molto meno. Con i modelli AI succede qualcosa di simile. Riduci il peso del modello, accetti un compromesso controllato sulla precisione e ottieni un’esecuzione più pratica su hardware reale. Google e NVIDIA citano anche il supporto a **NVFP4**, un formato numerico a 4 bit pensato per accelerare l’inferenza sulle GPU NVIDIA Blackwell. È un dettaglio tecnico, ma importante, perché mostra quanto l’evoluzione dei modelli AI sia ormai legata all’hardware. Non basta progettare un modello più intelligente: bisogna anche farlo girare bene sulle macchine disponibili. Questo si collega molto bene al tema dell’AI locale, che negli ultimi mesi è diventato sempre più concreto. Quando ho parlato di [Gemma 3n in locale](https://francescogruner.it/come-usare-gemma-3n-in-locale-lai-multimodale-di-google-per-testo-audio-e-immagini/), il punto era proprio capire quanto questi modelli possano uscire dal cloud e avvicinarsi ai dispositivi reali. DiffusionGemma continua questa direzione, ma lo fa puntando soprattutto sulla velocità di generazione. ## DiffusionGemma è multimodale? Sì, ma bisogna evitare confusione. DiffusionGemma è un modello **multimodale in input**, quindi può gestire testo e immagini, e la documentazione parla anche della possibilità di trattare video come sequenze di frame. L’output, però, è testuale. Questo significa che puoi dargli un’immagine, uno screenshot, un documento visivo o una sequenza di frame e chiedergli di descrivere, estrarre, interpretare o ragionare sul contenuto. Non significa che DiffusionGemma generi immagini. Il suo compito è produrre testo. Questo lo rende interessante anche per scenari come OCR, analisi di documenti, comprensione di schermate, interpretazione di grafici e assistenti AI che devono lavorare su contenuti visivi. È un tema vicino anche ad altri modelli multimodali locali, come quelli che ho approfondito nell’articolo su [GLM-4.6V e tool calling multimodale in locale su RTX](https://francescogruner.it/cina-glm-4-6v-tool-calling-locale-rtx/). La direzione è chiara: i modelli non devono più limitarsi a leggere testo, ma devono capire ambienti, interfacce, immagini e documenti. ## Dove può essere utile DiffusionGemma DiffusionGemma non nasce per sostituire immediatamente ChatGPT, Claude o Gemini nelle conversazioni quotidiane. Il suo valore è più specifico. È pensato per ricercatori e sviluppatori che vogliono esplorare applicazioni in cui velocità, bassa latenza e interazione in tempo reale sono fondamentali. Un primo ambito evidente è il **codice**. Nei moderni editor AI, il modello non deve solo scrivere una funzione da zero. Spesso deve modificare una porzione già esistente, completare un blocco, inserire codice in mezzo a un file, correggere una struttura o generare contenuti che devono rispettare vincoli precisi. In questi casi, la generazione non lineare può essere molto interessante. Un secondo ambito è quello dei **formati strutturati**. JSON, YAML, markdown, SVG, tabelle e configurazioni tecniche richiedono coerenza globale. Una parentesi chiusa male, un’indentazione sbagliata o una tabella markdown mal formata possono rendere l’output poco utile. La possibilità di lavorare su un blocco intero e correggerlo progressivamente può offrire vantaggi concreti. Un terzo ambito è quello delle **applicazioni locali interattive**. Immagina un assistente AI integrato in un programma desktop, in un editor, in una dashboard o in uno strumento di produttività. In questi casi non vuoi aspettare molti secondi per ogni risposta. Vuoi un’interazione fluida, quasi immediata. DiffusionGemma sembra pensato proprio per questo tipo di esperimenti. È una prospettiva diversa rispetto ai modelli che puntano soprattutto su contesto lunghissimo, reasoning o benchmark. Qui il tema è: quanto velocemente posso generare, correggere e aggiornare blocchi di contenuto in un ambiente operativo reale? ## Dove invece non è la scelta migliore La parte più importante da non dimenticare è che DiffusionGemma **non è il modello migliore in assoluto**. Google stessa chiarisce che i modelli Gemma 4 autoregressivi restano la scelta consigliata per applicazioni di produzione in cui conta la massima qualità dell’output. ![Grafico benchmark di DiffusionGemma che confronta velocità di output e risultati su MMLU, MMLU Pro, AIME 2026, LiveCodeBench, GPQA Diamond e t2-bench rispetto a Gemma 4 26B A4B.](https://francescogruner.it/wp-content/uploads/2026/06/DiffusionGemma-benchmark-velocita-e-confronto-con-Gemma-4.webp) DiffusionGemma supera Gemma 4 nella velocità di generazione, ma resta sotto in molti benchmark qualitativi. È un modello pensato per bassa latenza e workflow interattivi, non per battere Gemma 4 sulla qualità assoluta. La model card mostra che DiffusionGemma è spesso sotto Gemma 4 in molti benchmark importanti, tra cui ragionamento, coding, matematica e comprensione multimodale. Questo non lo rende un modello “scarso”, ma lo colloca nel modo giusto: è un modello sperimentale, progettato per esplorare velocità e generazione parallela, non per vincere ogni confronto qualitativo. Per scrivere articoli lunghi, generare analisi complesse, fare ragionamento avanzato o produrre contenuti dove lo stile e la profondità sono prioritari, probabilmente oggi ha più senso usare modelli tradizionali più maturi. DiffusionGemma è interessante soprattutto quando la velocità e la struttura dell’output contano più della qualità massima assoluta. Questo è un punto fondamentale anche per evitare titoli fuorvianti. DiffusionGemma non è “il modello che batte GPT” e non è “il nuovo re degli LLM open”. È qualcosa di più specifico e, forse, più interessante: un esperimento architetturale su come i modelli linguistici potrebbero generare testo in futuro. ## Open source o open-weight? Google presenta DiffusionGemma come modello open e lo rilascia con licenza Apache 2.0. Nel linguaggio comune molti useranno l’espressione “open source”, ma quando si parla di modelli AI è meglio essere precisi. La definizione più corretta è **open-weight**. Significa che i pesi del modello sono disponibili e utilizzabili secondo la licenza indicata, ma non necessariamente hai tutto quello che servirebbe per ricostruire il modello da zero: dataset completo, pipeline di addestramento, procedure esatte, filtri e tutti i passaggi interni. Questo non toglie valore al rilascio. Anzi, Apache 2.0 è una licenza molto permissiva e rende DiffusionGemma interessante anche per sperimentazioni commerciali e progetti aziendali. Però la distinzione è utile, perché nel mondo AI “open source” e “open-weight” non sono sempre la stessa cosa. Su questo tema avevo già fatto un ragionamento nell’articolo [Grok 2.5 di xAI su Hugging Face: open source o solo open weights?](https://francescogruner.it/grok-2-5-di-xai-su-hugging-face-open-source-o-solo-open-weights/). Il caso DiffusionGemma è diverso, soprattutto per la licenza Apache 2.0, ma la domanda di fondo resta la stessa: quando diciamo “modello open”, cosa intendiamo davvero? ## Come si può provare DiffusionGemma DiffusionGemma è disponibile su Hugging Face con il modello **google/diffusiongemma-26B-A4B-it**. Google indica anche Kaggle e Model Garden come canali di accesso. Dal punto di vista tecnico, il modello può essere usato con **Hugging Face Transformers**, **vLLM**, **SGLang** e **Docker Model Runner**. Questo è importante perché permette agli sviluppatori di integrarlo in ambienti diversi. Chi lavora in Python può partire da Transformers. Chi vuole esporre il modello tramite API compatibili con lo stile OpenAI può guardare a vLLM o SGLang. Chi lavora con container può sperimentare con Docker. Google cita anche MLX, NVIDIA NIM e il futuro supporto ufficiale per llama.cpp. Quest’ultimo punto è particolarmente interessante per la community dell’AI locale, perché llama.cpp è uno degli strumenti più usati per portare modelli su macchine consumer, spesso tramite quantizzazioni GGUF e interfacce come LM Studio o Ollama. Naturalmente, trattandosi di un modello sperimentale, non conviene aspettarsi subito la stessa semplicità d’uso di modelli già maturi e ampiamente supportati. È una tecnologia da seguire, testare e valutare con attenzione. ## Perché questa notizia è importante La cosa più interessante di DiffusionGemma non è il numero di token al secondo. Quello è importante, certo, ma non è il vero punto. Il punto è che Google sta sperimentando un modo diverso di generare testo. Per anni abbiamo dato quasi per scontato che un modello linguistico dovesse funzionare come una macchina da scrivere: una parola dopo l’altra, da sinistra a destra, fino alla fine della risposta. DiffusionGemma mette in discussione questa idea. Propone un modello che lavora su blocchi, li osserva nel loro insieme e li corregge progressivamente. Non è detto che questa diventi la strada principale per tutti i modelli futuri. Non è detto che la text diffusion sostituirà i modelli autoregressivi. Ma è una direzione molto interessante. Soprattutto perché apre scenari diversi. Meno chatbot tradizionale, più strumenti interattivi. Meno risposta lunga generata lentamente, più blocchi di testo, codice o struttura prodotti e raffinati quasi in tempo reale. Meno “scrivimi un tema”, più “modifica questo pezzo dentro un ambiente operativo”. In questo senso, DiffusionGemma è molto più interessante per chi sviluppa strumenti AI, editor, automazioni, assistenti locali e interfacce interattive che per chi cerca semplicemente il modello “più intelligente”. ## Il confronto più semplice Possiamo riassumere la differenza così: un modello autoregressivo è come una macchina da scrivere. Scrive un pezzo alla volta, in ordine, seguendo quello che ha già prodotto. È un metodo molto efficace, maturo e affidabile. DiffusionGemma è più simile a una tipografia o a una bozza su un foglio. Prima prepara un blocco, poi lo corregge, poi lo rifinisce. Non guarda solo il prossimo pezzo da scrivere, ma prova a far tornare l’intero blocco. Questa metafora non è perfetta, ma aiuta a capire la differenza fondamentale. DiffusionGemma non è solo un modello più veloce. È un modello che prova a cambiare il processo di generazione. ## Conclusione DiffusionGemma non va raccontato come “il modello che batte tutti”. Sarebbe una lettura sbagliata. Nei benchmark e nelle raccomandazioni ufficiali, Google stessa chiarisce che Gemma 4 autoregressivo resta preferibile quando serve la massima qualità dell’output. Il valore di DiffusionGemma è un altro. È un esperimento concreto su una modalità diversa di generazione del testo. Invece di procedere token dopo token, lavora su blocchi interi. Invece di comportarsi solo come una macchina da scrivere, prova a comportarsi come un editor che prepara una bozza, la osserva, la corregge e la rifinisce. Questa idea può diventare molto interessante per applicazioni AI locali, editor di codice, strumenti interattivi, formati strutturati e workflow in cui la latenza conta davvero. Forse i modelli del futuro non saranno tutti diffusivi. Forse i modelli autoregressivi resteranno dominanti ancora a lungo. Ma DiffusionGemma ci ricorda una cosa importante: l’evoluzione dell’intelligenza artificiale non riguarda solo modelli più grandi o benchmark più alti. Riguarda anche il modo in cui questi modelli pensano, generano e costruiscono le risposte. E Google, con DiffusionGemma, sta provando a cambiare proprio questo. ## FAQ DiffusionGemma genera immagini? No. **DiffusionGemma genera testo**. Può però ricevere anche immagini come input e ragionare su di esse, quindi è multimodale in input ma testuale in output. Perché si dice che genera testo “come le immagini”? Perché usa una logica ispirata ai **modelli di diffusione**, simile nel principio a quella usata dai generatori di immagini. Parte da un blocco incompleto o rumoroso e lo raffina progressivamente fino a ottenere testo leggibile. È meglio di ChatGPT, Claude o Gemini? No, non va visto in questo modo. DiffusionGemma è un modello sperimentale focalizzato su **velocità e generazione parallela**. Non è pensato per battere i migliori modelli generalisti nella qualità complessiva. È meglio di Gemma 4? Non in generale. Google stessa indica che i modelli **Gemma 4 autoregressivi** restano preferibili per output di produzione ad alta qualità. DiffusionGemma è più interessante per workflow veloci, locali e interattivi. Posso provarlo in locale? Sì, ma serve hardware adeguato. Google parla di GPU consumer di fascia alta, come **RTX 4090** e **RTX 5090**, soprattutto usando versioni quantizzate. È open source? È più preciso definirlo **open-weight con licenza Apache 2.0**. I pesi sono disponibili e la licenza è permissiva, ma nel mondo AI “open source” e “open-weight” non sempre significano la stessa cosa. A cosa può servire davvero? Può essere utile per **completamento codice, editing inline, generazione di markdown, JSON, YAML, documenti strutturati, applicazioni AI locali e strumenti interattivi** dove la velocità è molto importante. ## Fonti Per la stesura dell’articolo sono state consultate fonti ufficiali Google, Google DeepMind, Google AI for Developers, Hugging Face e NVIDIA. [Google Blog ### DiffusionGemma: 4x faster text generation Annuncio ufficiale del modello, con spiegazione del vantaggio in velocità, casi d’uso locali, benchmark dichiarati e limiti rispetto ai modelli Gemma 4 autoregressivi. Apri fonte](https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/) [Google DeepMind ### Pagina ufficiale DiffusionGemma Pagina di presentazione del modello, con panoramica su generazione non sequenziale, attenzione bidirezionale, hardware supportato e canali di download. Apri fonte](https://deepmind.google/models/gemma/diffusiongemma/) [Google AI for Developers ### DiffusionGemma model card Scheda tecnica del modello: architettura, parametri, canvas da 256 token, contesto, benchmark, modalità supportate, limitazioni e note di sicurezza. Apri fonte](https://ai.google.dev/gemma/docs/diffusiongemma/model_card) [Google AI for Developers ### Diffusion in Text Generation Explained Approfondimento sul funzionamento della diffusione applicata al testo, utile per capire canvas, denoising, generazione parallela e differenze rispetto ai modelli autoregressivi. Apri fonte](https://ai.google.dev/gemma/docs/diffusiongemma/explained) [Hugging Face ### google/diffusiongemma-26B-A4B-it Repository del modello con pesi, licenza Apache 2.0, esempi d’uso, compatibilità con Transformers, vLLM, SGLang, Docker Model Runner e quantizzazioni. Apri fonte](https://huggingface.co/google/diffusiongemma-26B-A4B-it) [NVIDIA Developer Blog ### Run DiffusionGemma on NVIDIA Approfondimento sulle ottimizzazioni NVIDIA, GPU supportate, inferenza ad alto throughput e uso di formati numerici come NVFP4 su hardware compatibile. Apri fonte](https://developer.nvidia.com/blog/run-diffusiongemma-on-nvidia-for-developer-ready-high-throughput-text-generation/)