La Cina l'ha rifatto: GLM-4.6V, tool calling multimodale open-source anche in locale su RTX

Zhipu AI torna a sorpresa con GLM-4.6V, un modello multimodale open-source che sta facendo molto parlare di sé. Non solo per la qualità nella visione, ma per una funzione che finora era appannaggio solo dei modelli proprietari top-tier: il tool calling nativo multimodale, cioè la capacità di usare strumenti partendo direttamente da ciò che vede (immagini, screenshot, documenti, tabelle).

La serie comprende due versioni:

GLM-4.6V (106B) – fondazionale, pensata per cloud e cluster HPC
GLM-4.6V-Flash (9B) – ottimizzata per l’uso locale su GPU consumer, Mac e ROCm

Ed è proprio la versione Flash a renderlo davvero interessante: un modello multimodale, open-source, con tool calling, utilizzabile in locale su RTX, senza costi di API e senza hardware impossibile.

🔗 Link ufficiali

Blog tecnico → https://z.ai/blog/glm-4.6v
Demo online → https://chat.z.ai
GitHub → https://github.com/zai-org/GLM-V
HuggingFace (106B) → https://huggingface.co/zai-org/GLM-4.6V
HuggingFace (9B Flash) → https://huggingface.co/zai-org/GLM-4.6V-Flash
API Z.ai → https://docs.z.ai
Paper → https://arxiv.org/abs/2507.01006

Cosa introduce davvero GLM-4.6V

Ti sta piacendo?

Ricevi una guida pratica ogni settimana. AI, tool e automazioni.

Tool calling nativo multimodale

Qui c’è la svolta. GLM-4.6V può:

ricevere una immagine come input diretto per uno strumento
chiedere a un tool di elaborare screenshot o documenti
valutare visivamente la risposta dello strumento
proseguire la catena di reasoning basandosi su contenuti visivi

Nessuna conversione a testo, nessun workaround: l’immagine è la fonte primaria dell’azione.

Questo abilita agenti multimodali molto più maturi, soprattutto in contesti aziendali (automazioni RPA, classificazione documentale, estrazione dati, UI automation).

Comprensione documenti e long-context (128K)

Il modello gestisce:

PDF con testo, grafici, figure, layout complessi
schermate UI
tabelle multi-pagina
più documenti simultanei

La parte visiva è decisamente superiore rispetto ai modelli 3.5–4B tradizionali, e si nota in tasks come OCR, ChartQA, reasoning multimodale e interpretazione di report.

Frontend replication e modifica visiva del codice

Carichi uno screenshot → GLM-4.6V produce HTML/CSS/JS.
Poi cerchi un elemento, lo selezioni, gli dici:

“Sposta questo pulsante a sinistra e rendilo più scuro.”

E lui genera la patch corretta sul codice.

Una funzione molto rara nei modelli open-source.

Benchmark: dove si posiziona davvero

Tabella benchmark GLM-4.6V e GLM-4.6V-Flash con confronto contro Qwen, Kimi K2, GLM-4.5V e Step su VQA, reasoning, OCR e long-context. — Performance di GLM-4.6V e della versione Flash (9B) sui principali benchmark multimodali: visione, reasoning, OCR, agentic tasks e long-context. Confronto diretto con Qwen-VL, Kimi-VL e Step-3.

La versione 106B mantiene risultati da modello “frontier open-source” in:

MMMU
OCRBench
ChartQA
document understanding
reasoning visivo

La Flash 9B, pur essendo un modello leggero, supera molti modelli della stessa fascia (Qwen3-VL-8B, Phi-3.5 VLM) nei compiti visivi.

Le due versioni a confronto

GLM-4.6V – 106B (MoE)

pensato per cloud e HPC
215GB di pesi
richiede multi-GPU (8× A100/H100)
reasoning più profondo e contesto a 128K
👉 adatto a chi ha infrastrutture serie o deve fare batch massivi

GLM-4.6V-Flash – 9B (Dense)

pensato per uso locale
quantizzabile (GGUF, GPTQ, AWQ)
funziona su RTX, Mac M-series e ROCm
tool calling integrato
più veloce e leggero
👉 è il modello da usare nel quotidiano

Abstract del paper (versione semplificata)

Il paper presenta un modello multimodale con pre-training su dataset visivi e documentali altamente interleaved, 128K token di contesto e un framework di reinforcement learning multimodale che integra tool-calling, visione e reasoning.

Vengono introdotti:

un loop di feedback visivo per correggere codice e azioni
un sistema di output interleaved testo/immagini
un pre-training multimodale di larga scala per migliorare logica, OCR e analisi documentale

Risultato: il modello ottiene SoTA tra gli open-source di dimensioni simili.

Requisiti hardware per usarlo in locale

NVIDIA – CUDA (consigliato)

Perfetto con vLLM o SGLang.

Per GLM-4.6V-Flash (9B):

VRAM minima: 12 GB (Q4_K_M)
VRAM consigliata: 16–24 GB
GPU ideali: RTX 3090 / 4080 / 4090 / 5080

Per la 106B → solo data center.

AMD ROCm

Supporto buono tramite:

vLLM ROCm build
Optimum ROCm HF

Schede supportate:

RX 7900 XTX
MI200/MI300

VRAM: 16GB consigliati.

Apple Mac (M-series) – MLX

Supporto tramite MLX, perfetto per la versione Flash (9B).

M2 Ultra, M3 Max, M3 Ultra
Limiti: visione più lenta rispetto a CUDA, niente 106B

Come avviarlo in locale (snippet rapido)

vLLM

pip install vllm>=0.12.0
vllm serve zai-org/GLM-4.6V-Flash

SGLang (preferibile per multimodale)

pip install sglang>=0.5.6.post1
sglang serve zai-org/GLM-4.6V-Flash

A chi serve davvero questo modello

Aziende che fanno automazione documentale
Sviluppatori di agenti multimodali
Team che lavorano su UI automation
Analisti e reparti finance
Chi vuole un modello multimodale potente senza costi di API
Ricercatori che vogliono tool calling + visione in un modello open

Conclusioni

GLM-4.6V conferma una tendenza ormai evidente: la Cina sta spingendo l’open-source multimodale molto più velocemente di quanto ci si aspettasse. Con una finestra di contesto da 128k, tool calling nativo anche sulle immagini e una variante Flash da 9B davvero utilizzabile in locale, questo modello amplia il ventaglio di soluzioni reali per chi costruisce agenti, pipeline multimodali e applicazioni aziendali avanzate.

Non sostituisce i modelli top per coding o reasoning profondo, ma rappresenta una piattaforma estremamente solida per tutto ciò che richiede visione + azione, soprattutto in scenari dove il deployment ibrido (cloud + locale) è un requisito strategico.

Se lavori con orchestrazione AI, automazioni, interfacce visuali o generazione di contenuti ricchi, GLM-4.6V è probabilmente uno dei modelli più flessibili da aggiungere al tuo stack.

E adesso sono curioso di sapere la tua:
hai già un’idea di come potresti usarlo? Provalo nei commenti: qual è il tuo use case?

Nuovo su Google

Aggiungi francescogruner.it come fonte preferita

Se leggi spesso i miei articoli su AI, automazione e tecnologia, ora puoi dire a Google che vuoi vedere più spesso i contenuti di francescogruner.it tra le notizie.

La Cina l’ha rifatto: GLM-4.6V, tool calling multimodale open-source anche in locale su RTX

🔗 Link ufficiali

Cosa introduce davvero GLM-4.6V