La Cina l’ha rifatto: GLM-4.6V, tool calling multimodale open-source anche in locale su RTX

Dalla Cina arriva GLM-4.6V, il modello multimodale open-source con tool calling nativo: interpreta immagini, PDF e UI e può usare strumenti in autonomia, anche in locale su GPU RTX.
Ho raccolto benchmark, link ufficiali e la procedura completa per provarlo davvero sul tuo PC o su server. Uno dei rilasci più importanti per chi lavora con modelli open-source →

Zhipu AI torna a sorpresa con GLM-4.6V, un modello multimodale open-source che sta facendo molto parlare di sé. Non solo per la qualità nella visione, ma per una funzione che finora era appannaggio solo dei modelli proprietari top-tier: il tool calling nativo multimodale, cioè la capacità di usare strumenti partendo direttamente da ciò che vede (immagini, screenshot, documenti, tabelle).

La serie comprende due versioni:

  • GLM-4.6V (106B) – fondazionale, pensata per cloud e cluster HPC
  • GLM-4.6V-Flash (9B) – ottimizzata per l’uso locale su GPU consumer, Mac e ROCm

Ed è proprio la versione Flash a renderlo davvero interessante: un modello multimodale, open-source, con tool calling, utilizzabile in locale su RTX, senza costi di API e senza hardware impossibile.

🔗 Link ufficiali

Cosa introduce davvero GLM-4.6V

Ti sta piacendo?

Ricevi una guida pratica ogni settimana. AI, tool e automazioni.

Tool calling nativo multimodale

Qui c’è la svolta. GLM-4.6V può:

  • ricevere una immagine come input diretto per uno strumento
  • chiedere a un tool di elaborare screenshot o documenti
  • valutare visivamente la risposta dello strumento
  • proseguire la catena di reasoning basandosi su contenuti visivi

Nessuna conversione a testo, nessun workaround: l’immagine è la fonte primaria dell’azione.

Questo abilita agenti multimodali molto più maturi, soprattutto in contesti aziendali (automazioni RPA, classificazione documentale, estrazione dati, UI automation).

Comprensione documenti e long-context (128K)

Il modello gestisce:

  • PDF con testo, grafici, figure, layout complessi
  • schermate UI
  • tabelle multi-pagina
  • più documenti simultanei

La parte visiva è decisamente superiore rispetto ai modelli 3.5–4B tradizionali, e si nota in tasks come OCR, ChartQA, reasoning multimodale e interpretazione di report.

Frontend replication e modifica visiva del codice

Carichi uno screenshot → GLM-4.6V produce HTML/CSS/JS.
Poi cerchi un elemento, lo selezioni, gli dici:

“Sposta questo pulsante a sinistra e rendilo più scuro.”

E lui genera la patch corretta sul codice.

Una funzione molto rara nei modelli open-source.

Benchmark: dove si posiziona davvero

Tabella benchmark GLM-4.6V e GLM-4.6V-Flash con confronto contro Qwen, Kimi K2, GLM-4.5V e Step su VQA, reasoning, OCR e long-context.
Performance di GLM-4.6V e della versione Flash (9B) sui principali benchmark multimodali: visione, reasoning, OCR, agentic tasks e long-context. Confronto diretto con Qwen-VL, Kimi-VL e Step-3.

La versione 106B mantiene risultati da modello “frontier open-source” in:

  • MMMU
  • OCRBench
  • ChartQA
  • document understanding
  • reasoning visivo

La Flash 9B, pur essendo un modello leggero, supera molti modelli della stessa fascia (Qwen3-VL-8B, Phi-3.5 VLM) nei compiti visivi.

Le due versioni a confronto

GLM-4.6V – 106B (MoE)

  • pensato per cloud e HPC
  • 215GB di pesi
  • richiede multi-GPU (8× A100/H100)
  • reasoning più profondo e contesto a 128K
    👉 adatto a chi ha infrastrutture serie o deve fare batch massivi

GLM-4.6V-Flash – 9B (Dense)

  • pensato per uso locale
  • quantizzabile (GGUF, GPTQ, AWQ)
  • funziona su RTX, Mac M-series e ROCm
  • tool calling integrato
  • più veloce e leggero
    👉 è il modello da usare nel quotidiano

Abstract del paper (versione semplificata)

Il paper presenta un modello multimodale con pre-training su dataset visivi e documentali altamente interleaved, 128K token di contesto e un framework di reinforcement learning multimodale che integra tool-calling, visione e reasoning.

Vengono introdotti:

  • un loop di feedback visivo per correggere codice e azioni
  • un sistema di output interleaved testo/immagini
  • un pre-training multimodale di larga scala per migliorare logica, OCR e analisi documentale

Risultato: il modello ottiene SoTA tra gli open-source di dimensioni simili.

Requisiti hardware per usarlo in locale

NVIDIA – CUDA (consigliato)

Perfetto con vLLM o SGLang.

Per GLM-4.6V-Flash (9B):

  • VRAM minima: 12 GB (Q4_K_M)
  • VRAM consigliata: 16–24 GB
  • GPU ideali: RTX 3090 / 4080 / 4090 / 5080

Per la 106B → solo data center.

AMD ROCm

Supporto buono tramite:

  • vLLM ROCm build
  • Optimum ROCm HF

Schede supportate:

  • RX 7900 XTX
  • MI200/MI300

VRAM: 16GB consigliati.

Apple Mac (M-series) – MLX

Supporto tramite MLX, perfetto per la versione Flash (9B).

  • M2 Ultra, M3 Max, M3 Ultra
  • Limiti: visione più lenta rispetto a CUDA, niente 106B

Come avviarlo in locale (snippet rapido)

vLLM

pip install vllm>=0.12.0
vllm serve zai-org/GLM-4.6V-Flash

SGLang (preferibile per multimodale)

pip install sglang>=0.5.6.post1
sglang serve zai-org/GLM-4.6V-Flash

A chi serve davvero questo modello

  • Aziende che fanno automazione documentale
  • Sviluppatori di agenti multimodali
  • Team che lavorano su UI automation
  • Analisti e reparti finance
  • Chi vuole un modello multimodale potente senza costi di API
  • Ricercatori che vogliono tool calling + visione in un modello open

Conclusioni

GLM-4.6V conferma una tendenza ormai evidente: la Cina sta spingendo l’open-source multimodale molto più velocemente di quanto ci si aspettasse. Con una finestra di contesto da 128k, tool calling nativo anche sulle immagini e una variante Flash da 9B davvero utilizzabile in locale, questo modello amplia il ventaglio di soluzioni reali per chi costruisce agenti, pipeline multimodali e applicazioni aziendali avanzate.

Non sostituisce i modelli top per coding o reasoning profondo, ma rappresenta una piattaforma estremamente solida per tutto ciò che richiede visione + azione, soprattutto in scenari dove il deployment ibrido (cloud + locale) è un requisito strategico.

Se lavori con orchestrazione AI, automazioni, interfacce visuali o generazione di contenuti ricchi, GLM-4.6V è probabilmente uno dei modelli più flessibili da aggiungere al tuo stack.

E adesso sono curioso di sapere la tua:
hai già un’idea di come potresti usarlo? Provalo nei commenti: qual è il tuo use case?

Nuovo su Google

Aggiungi francescogruner.it come fonte preferita

Se leggi spesso i miei articoli su AI, automazione e tecnologia, ora puoi dire a Google che vuoi vedere più spesso i contenuti di francescogruner.it tra le notizie.

Francesco Gruner
Francesco Gruner

Sono un consulente IT, divulgatore e imprenditore tech. Mi occupo di automazione, AI e gestione di sistemi e infrastrutture IT, cercando soluzioni semplici a problemi complessi. Qui condivido strumenti, esperimenti e idee utili.