# La Cina l&#8217;ha rifatto: GLM-4.6V, tool calling multimodale open-source anche in locale su RTX

> Fonte: https://francescogruner.it/cina-glm-4-6v-tool-calling-locale-rtx/

Zhipu AI torna a sorpresa con **GLM-4.6V**, un modello multimodale open-source che sta facendo molto parlare di sé. Non solo per la qualità nella visione, ma per una funzione che finora era appannaggio solo dei modelli proprietari top-tier: **il tool calling nativo multimodale**, cioè la capacità di usare strumenti partendo direttamente da ciò che vede (immagini, screenshot, documenti, tabelle).

 

La serie comprende due versioni:

 

- **GLM-4.6V (106B)** – fondazionale, pensata per cloud e cluster HPC
- **GLM-4.6V-Flash (9B)** – ottimizzata per l’uso locale su GPU consumer, Mac e ROCm

 

Ed è proprio la versione Flash a renderlo davvero interessante: un modello *multimodale*, *open-source*, *con tool calling*, utilizzabile **in locale su RTX**, senza costi di API e senza hardware impossibile.

   

Indice dei contenuti

 [Toggle](#) 

- [🔗 Link ufficiali](#%F0%9F%94%97_Link_ufficiali)
- [Cosa introduce davvero GLM-4.6V](#Cosa_introduce_davvero_GLM-46V)
- [Ti sta piacendo?](#Ti_sta_piacendo)

- [Tool calling nativo multimodale](#Tool_calling_nativo_multimodale)
- [Comprensione documenti e long-context (128K)](#Comprensione_documenti_e_long-context_128K)
- [Frontend replication e modifica visiva del codice](#Frontend_replication_e_modifica_visiva_del_codice)
- [Benchmark: dove si posiziona davvero](#Benchmark_dove_si_posiziona_davvero)
- [Le due versioni a confronto](#Le_due_versioni_a_confronto)

- [GLM-4.6V – 106B (MoE)](#GLM-46V_%E2%80%93_106B_MoE)
- [GLM-4.6V-Flash – 9B (Dense)](#GLM-46V-Flash_%E2%80%93_9B_Dense)
- [Abstract del paper (versione semplificata)](#Abstract_del_paper_versione_semplificata)
- [Requisiti hardware per usarlo in locale](#Requisiti_hardware_per_usarlo_in_locale)

- [NVIDIA – CUDA (consigliato)](#NVIDIA_%E2%80%93_CUDA_consigliato)
- [AMD ROCm](#AMD_ROCm)
- [Apple Mac (M-series) – MLX](#Apple_Mac_M-series_%E2%80%93_MLX)
- [Come avviarlo in locale (snippet rapido)](#Come_avviarlo_in_locale_snippet_rapido)

- [vLLM](#vLLM)
- [SGLang (preferibile per multimodale)](#SGLang_preferibile_per_multimodale)
- [A chi serve davvero questo modello](#A_chi_serve_davvero_questo_modello)
- [Conclusioni](#Conclusioni)

 

## 🔗 Link ufficiali

 

- Blog tecnico → [https://z.ai/blog/glm-4.6v](https://z.ai/blog/glm-4.6v)
- Demo online → [https://chat.z.ai](https://chat.z.ai)
- GitHub → [https://github.com/zai-org/GLM-V](https://github.com/zai-org/GLM-V)
- HuggingFace (106B) → [https://huggingface.co/zai-org/GLM-4.6V](https://huggingface.co/zai-org/GLM-4.6V)
- HuggingFace (9B Flash) → [https://huggingface.co/zai-org/GLM-4.6V-Flash](https://huggingface.co/zai-org/GLM-4.6V-Flash)
- API Z.ai → [https://docs.z.ai](https://docs.z.ai)
- Paper → [https://arxiv.org/abs/2507.01006](https://arxiv.org/abs/2507.01006)

 

## **Cosa introduce davvero GLM-4.6V**

                   

## Ti sta piacendo?

 

Ricevi una guida pratica ogni settimana. AI, tool e automazioni.

            Iscriviti gratis             Perfetto, sei dentro.         

### Tool calling nativo multimodale

 

Qui c’è la svolta. GLM-4.6V può:

 

- ricevere una **immagine** come input diretto per uno strumento
- chiedere a un tool di elaborare screenshot o documenti
- valutare visivamente la risposta dello strumento
- proseguire la catena di reasoning basandosi su contenuti visivi

 

Nessuna conversione a testo, nessun workaround: l’immagine è la fonte primaria dell’azione.

 

Questo abilita agenti multimodali molto più maturi, soprattutto in contesti aziendali (automazioni RPA, classificazione documentale, estrazione dati, UI automation).

 

### Comprensione documenti e long-context (128K)

  

Il modello gestisce:

 

- PDF con testo, grafici, figure, layout complessi
- schermate UI
- tabelle multi-pagina
- più documenti simultanei

 

La parte visiva è decisamente superiore rispetto ai modelli 3.5–4B tradizionali, e si nota in tasks come OCR, ChartQA, reasoning multimodale e interpretazione di report.

  

### Frontend replication e modifica visiva del codice

  

Carichi uno screenshot → GLM-4.6V produce HTML/CSS/JS.  
Poi cerchi un elemento, lo selezioni, gli dici:

 

> “Sposta questo pulsante a sinistra e rendilo più scuro.”

 

E lui genera la patch corretta sul codice.

 

Una funzione molto rara nei modelli open-source.

 

## **Benchmark: dove si posiziona davvero**

 

![Tabella benchmark GLM-4.6V e GLM-4.6V-Flash con confronto contro Qwen, Kimi K2, GLM-4.5V e Step su VQA, reasoning, OCR e long-context.](https://francescogruner.it/wp-content/uploads/2025/12/GLM-4.6V-Benchmarks-confronto-prestazioni-vs-Qwen-Kimi-e-Step.jpeg)

Performance di GLM-4.6V e della versione Flash (9B) sui principali benchmark multimodali: visione, reasoning, OCR, agentic tasks e long-context. Confronto diretto con Qwen-VL, Kimi-VL e Step-3. 

La versione **106B** mantiene risultati da modello “frontier open-source” in:

 

- MMMU
- OCRBench
- ChartQA
- document understanding
- reasoning visivo

 

La **Flash 9B**, pur essendo un modello leggero, supera molti modelli della stessa fascia (Qwen3-VL-8B, Phi-3.5 VLM) nei compiti visivi.

 

## **Le due versioni a confronto**

 

### **GLM-4.6V – 106B (MoE)**

 

- pensato per cloud e HPC
- 215GB di pesi
- richiede *multi-GPU* (8× A100/H100)
- reasoning più profondo e contesto a 128K  
👉 adatto a chi ha infrastrutture serie o deve fare batch massivi

 

### **GLM-4.6V-Flash – 9B (Dense)**

 

- pensato per uso locale
- quantizzabile (GGUF, GPTQ, AWQ)
- funziona su RTX, Mac M-series e ROCm
- tool calling integrato
- più veloce e leggero  
👉 è il modello da usare nel quotidiano

 

## Abstract del paper (versione semplificata)

 

Il paper presenta un modello multimodale con pre-training su dataset visivi e documentali altamente interleaved, 128K token di contesto e un framework di **reinforcement learning multimodale** che integra tool-calling, visione e reasoning.

 

Vengono introdotti:

 

- un loop di feedback visivo per correggere codice e azioni
- un sistema di output interleaved testo/immagini
- un pre-training multimodale di larga scala per migliorare logica, OCR e analisi documentale

 

Risultato: il modello ottiene **SoTA** tra gli open-source di dimensioni simili.

 

## Requisiti hardware per usarlo in locale

 

### **NVIDIA – CUDA (consigliato)**

 

Perfetto con **vLLM** o **SGLang**.

 

Per GLM-4.6V-Flash (9B):

 

- VRAM minima: **12 GB** (Q4_K_M)
- VRAM consigliata: **16–24 GB**
- GPU ideali: **RTX 3090 / 4080 / 4090 / 5080**

 

Per la 106B → solo data center.

 

### **AMD ROCm**

 

Supporto buono tramite:

 

- vLLM ROCm build
- Optimum ROCm HF

 

Schede supportate:

 

- RX 7900 XTX
- MI200/MI300

 

VRAM: 16GB consigliati.

 

### **Apple Mac (M-series) – MLX**

 

Supporto tramite **MLX**, perfetto per la versione Flash (9B).

 

- M2 Ultra, M3 Max, M3 Ultra
- Limiti: visione più lenta rispetto a CUDA, niente 106B

 

## Come avviarlo in locale (snippet rapido)

 

### vLLM

 

```
pip install vllm>=0.12.0
vllm serve zai-org/GLM-4.6V-Flash
```

 

### SGLang (preferibile per multimodale)

 

```
pip install sglang>=0.5.6.post1
sglang serve zai-org/GLM-4.6V-Flash
```

 

## A chi serve davvero questo modello

 

- Aziende che fanno **automazione documentale**
- Sviluppatori di **agenti multimodali**
- Team che lavorano su **UI automation**
- Analisti e reparti finance
- Chi vuole un modello multimodale potente *senza* costi di API
- Ricercatori che vogliono tool calling + visione in un modello open

 

## Conclusioni

 

GLM-4.6V conferma una tendenza ormai evidente: la Cina sta spingendo l’open-source multimodale molto più velocemente di quanto ci si aspettasse. Con una finestra di contesto da 128k, tool calling nativo anche sulle immagini e una variante Flash da 9B davvero utilizzabile in locale, questo modello amplia il ventaglio di soluzioni reali per chi costruisce agenti, pipeline multimodali e applicazioni aziendali avanzate.

 

Non sostituisce i modelli top per coding o reasoning profondo, ma rappresenta una piattaforma estremamente solida per tutto ciò che richiede **visione + azione**, soprattutto in scenari dove il deployment ibrido (cloud + locale) è un requisito strategico.

 

Se lavori con orchestrazione AI, automazioni, interfacce visuali o generazione di contenuti ricchi, GLM-4.6V è probabilmente uno dei modelli più flessibili da aggiungere al tuo stack.

 

**E adesso sono curioso di sapere la tua:**  
hai già un’idea di come potresti usarlo? Provalo nei commenti: **qual è il tuo use case?**