Ricevi la newsletter
Tool, prompt e workflow AI. Una volta a settimana, gratis.
Sei dentro. Da questa settimana ricevi la newsletter.
Dalla Cina arriva GLM-4.6V, il modello multimodale open-source con tool calling nativo: interpreta immagini, PDF e UI e può usare strumenti in autonomia, anche in locale su GPU RTX.
Ho raccolto benchmark, link ufficiali e la procedura completa per provarlo davvero sul tuo PC o su server. Uno dei rilasci più importanti per chi lavora con modelli open-source →

Zhipu AI torna a sorpresa con GLM-4.6V, un modello multimodale open-source che sta facendo molto parlare di sé. Non solo per la qualità nella visione, ma per una funzione che finora era appannaggio solo dei modelli proprietari top-tier: il tool calling nativo multimodale, cioè la capacità di usare strumenti partendo direttamente da ciò che vede (immagini, screenshot, documenti, tabelle).
La serie comprende due versioni:
Ed è proprio la versione Flash a renderlo davvero interessante: un modello multimodale, open-source, con tool calling, utilizzabile in locale su RTX, senza costi di API e senza hardware impossibile.
Ricevi una guida pratica ogni settimana. AI, tool e automazioni.
Qui c’è la svolta. GLM-4.6V può:
Nessuna conversione a testo, nessun workaround: l’immagine è la fonte primaria dell’azione.
Questo abilita agenti multimodali molto più maturi, soprattutto in contesti aziendali (automazioni RPA, classificazione documentale, estrazione dati, UI automation).
Il modello gestisce:
La parte visiva è decisamente superiore rispetto ai modelli 3.5–4B tradizionali, e si nota in tasks come OCR, ChartQA, reasoning multimodale e interpretazione di report.
Carichi uno screenshot → GLM-4.6V produce HTML/CSS/JS.
Poi cerchi un elemento, lo selezioni, gli dici:
“Sposta questo pulsante a sinistra e rendilo più scuro.”
E lui genera la patch corretta sul codice.
Una funzione molto rara nei modelli open-source.

La versione 106B mantiene risultati da modello “frontier open-source” in:
La Flash 9B, pur essendo un modello leggero, supera molti modelli della stessa fascia (Qwen3-VL-8B, Phi-3.5 VLM) nei compiti visivi.
Il paper presenta un modello multimodale con pre-training su dataset visivi e documentali altamente interleaved, 128K token di contesto e un framework di reinforcement learning multimodale che integra tool-calling, visione e reasoning.
Vengono introdotti:
Risultato: il modello ottiene SoTA tra gli open-source di dimensioni simili.
Perfetto con vLLM o SGLang.
Per GLM-4.6V-Flash (9B):
Per la 106B → solo data center.
Supporto buono tramite:
Schede supportate:
VRAM: 16GB consigliati.
Supporto tramite MLX, perfetto per la versione Flash (9B).
pip install vllm>=0.12.0
vllm serve zai-org/GLM-4.6V-Flash
pip install sglang>=0.5.6.post1
sglang serve zai-org/GLM-4.6V-Flash
GLM-4.6V conferma una tendenza ormai evidente: la Cina sta spingendo l’open-source multimodale molto più velocemente di quanto ci si aspettasse. Con una finestra di contesto da 128k, tool calling nativo anche sulle immagini e una variante Flash da 9B davvero utilizzabile in locale, questo modello amplia il ventaglio di soluzioni reali per chi costruisce agenti, pipeline multimodali e applicazioni aziendali avanzate.
Non sostituisce i modelli top per coding o reasoning profondo, ma rappresenta una piattaforma estremamente solida per tutto ciò che richiede visione + azione, soprattutto in scenari dove il deployment ibrido (cloud + locale) è un requisito strategico.
Se lavori con orchestrazione AI, automazioni, interfacce visuali o generazione di contenuti ricchi, GLM-4.6V è probabilmente uno dei modelli più flessibili da aggiungere al tuo stack.
E adesso sono curioso di sapere la tua:
hai già un’idea di come potresti usarlo? Provalo nei commenti: qual è il tuo use case?