LLM - Francesco Gruner

DiffusionGemma, modello AI di Google che genera testo a blocchi usando la diffusione invece della generazione token per token

DiffusionGemma: il modello open di Google che genera testo “come le immagini”

12/06/2026
Open Source

Google ha rilasciato DiffusionGemma, un modello open sperimentale che non genera testo una parola alla volta, ma lavora su blocchi interi come fanno i modelli di diffusione con le immagini. Ecco cosa significa, perché è veloce e quali sono i suoi limiti.

Immagine di copertina futuristica dedicata a MiniMax M3, modello AI open weight con contesto da 1 milione di token, coding agentico, multimodalità nativa e architettura MiniMax Sparse Attention.

MiniMax M3: il modello open weight da 1M di token

03/06/2026
Open Source

MiniMax M3 è un modello AI open weight con contesto fino a 1 milione di token, multimodalità nativa e coding agentico. Cosa cambia davvero per dev e aziende, senza hype.

Copertina articolo su Caveman per Claude Code con cavernicolo al computer e focus su riduzione dei token e output più conciso

Caveman per Claude Code: utile davvero o solo hype?

25/04/2026
Open Source, Sviluppo

Caveman è la skill open source per Claude Code e altri agenti AI che comprime l’output fino al 75% e alleggerisce anche i file di memoria. Ecco come funziona davvero, quanto può far risparmiare e quando ha senso usarla.

Grafica con il testo “Addio JSON” che mostra due icone a confronto: un file JSON con errore e un file TOON corretto, a indicare la riduzione del 60% dei token nei prompt AI.

TOON vs JSON: Il formato che taglia il 60% dei token nei prompt AI

10/11/2025
Open Source, Sviluppo

Hai mai pensato che JSON ti stia costando il doppio in token? TOON è un formato che taglia del 30-60% i costi dei prompt mantenendo la struttura. Zero parentesi, zero virgolette, massima leggibilità. Scopri se conviene migrare →

Copertina MiniMax M2 con testo “An Efficient Model for the Agentic Era” su sfondo rosso/arancione astratto.

MiniMax M2: cos’è, quanto costa e come usarlo

31/10/2025
Sviluppo, Open Source

MiniMax M2 spiegato semplice: cos’è, quanto costa e come usarlo con Ollama Cloud, OpenRouter e in self-host (vLLM/SGLang). Guida pratica + link e demo DeepSite.

Qwen3-Omni: analisi del modello che parla italiano e sfida GPT-4o

22/09/2025
Notizie, Open Source

La guida pratica a Qwen3-Omni. Scopri come provare via web, usare le API e scaricare il nuovo modello AI di Alibaba. Con esempi pratici e requisiti hardware.

Illustrazione “Ollama Cloud” con tre mascotte in stile cartoon: un lama con casco e paletta, un lama su una nuvola con occhiali VR e un lama supereroe con mantello.

Ollama Cloud: la guida completa per usare modelli AI senza GPU

21/09/2025
Sviluppo, Notizie

Scopri Ollama Cloud, la rivoluzione per l'AI open source. Esegui modelli enormi come DeepSeek da 671B parametri senza GPU, direttamente dal cloud.

Illustrazione della nuova interfaccia di Ollama 0.10.0 con personaggio cartoon sorpreso davanti al computer. Annuncio del rilascio della nuova app per macOS e Windows.

Ollama con UI: la nuova App Desktop per gestire LLM in locale

01/08/2025
Open Source, Notizie

Scopri la nuova app desktop di Ollama. Gestisci LLM come Gemma e Llama con una UI semplice, analizza PDF e immagini in locale. La guida completa per iniziare.

Kimi K2: Il Modello AI Open-Source da 1 Trilione di Parametri per Agenti e Codice

13/07/2025
Sviluppo, Open Source

Scopri Kimi K2, il modello AI open-source da 1 trilione di parametri, ottimizzato per agenti, tool digitali e coding avanzato. Ora disponibile su Hugging Face.

Articoli recenti

DiffusionGemma: il modello open di Google che genera testo “come le immagini”
Google ha rilasciato DiffusionGemma, un modello open sperimentale che non genera testo una parola alla volta, ma lavora su blocchi interi come fanno i modelli di diffusione con le immagini. Ecco cosa significa, perché è veloce e quali sono i suoi limiti.
Claude Fable 5: l’ho provato su una codebase reale.
Claude Fable 5 non è solo un modello che risponde meglio: è pensato per lavorare su task lunghi, complessi e agentici. L’ho provato con Claude Code su una codebase reale, tra UI, layout, widget, migrazioni e refactor. Il risultato mostra una cosa chiara: questi modelli possono produrre molto lavoro, ma vanno gestiti con metodo, soprattutto quando entrano in gioco subagenti, contesto lungo e sessioni operative.
Gemma 4 12B: l’AI multimodale di Google che gira sul laptop
Google rilascia Gemma 4 12B: AI multimodale con audio nativo che gira in locale su un laptop con 16 GB. Architettura encoder-free, 256K token e licenza Apache 2.0.
MiniMax M3: il modello open weight da 1M di token
MiniMax M3 è un modello AI open weight con contesto fino a 1 milione di token, multimodalità nativa e coding agentico. Cosa cambia davvero per dev e aziende, senza hype.
Claude Opus 4.8: Claude Code ora lavora con subagenti paralleli
Claude Opus 4.8 porta i workflow dinamici in Claude Code: centinaia di subagenti in parallelo, verifica prima del merge e un modello che mente meno sui propri progressi.

Di tendenza