# La Cina l’ha rifatto: GLM-4.6V, tool calling multimodale open-source anche in locale su RTX > Fonte: https://francescogruner.it/cina-glm-4-6v-tool-calling-locale-rtx/ Zhipu AI torna a sorpresa con **GLM-4.6V**, un modello multimodale open-source che sta facendo molto parlare di sé. Non solo per la qualità nella visione, ma per una funzione che finora era appannaggio solo dei modelli proprietari top-tier: **il tool calling nativo multimodale**, cioè la capacità di usare strumenti partendo direttamente da ciò che vede (immagini, screenshot, documenti, tabelle). La serie comprende due versioni: - **GLM-4.6V (106B)** – fondazionale, pensata per cloud e cluster HPC - **GLM-4.6V-Flash (9B)** – ottimizzata per l’uso locale su GPU consumer, Mac e ROCm Ed è proprio la versione Flash a renderlo davvero interessante: un modello *multimodale*, *open-source*, *con tool calling*, utilizzabile **in locale su RTX**, senza costi di API e senza hardware impossibile. Indice dei contenuti [Toggle](#) - [🔗 Link ufficiali](#%F0%9F%94%97_Link_ufficiali) - [Cosa introduce davvero GLM-4.6V](#Cosa_introduce_davvero_GLM-46V) - [Ti sta piacendo?](#Ti_sta_piacendo) - [Tool calling nativo multimodale](#Tool_calling_nativo_multimodale) - [Comprensione documenti e long-context (128K)](#Comprensione_documenti_e_long-context_128K) - [Frontend replication e modifica visiva del codice](#Frontend_replication_e_modifica_visiva_del_codice) - [Benchmark: dove si posiziona davvero](#Benchmark_dove_si_posiziona_davvero) - [Le due versioni a confronto](#Le_due_versioni_a_confronto) - [GLM-4.6V – 106B (MoE)](#GLM-46V_%E2%80%93_106B_MoE) - [GLM-4.6V-Flash – 9B (Dense)](#GLM-46V-Flash_%E2%80%93_9B_Dense) - [Abstract del paper (versione semplificata)](#Abstract_del_paper_versione_semplificata) - [Requisiti hardware per usarlo in locale](#Requisiti_hardware_per_usarlo_in_locale) - [NVIDIA – CUDA (consigliato)](#NVIDIA_%E2%80%93_CUDA_consigliato) - [AMD ROCm](#AMD_ROCm) - [Apple Mac (M-series) – MLX](#Apple_Mac_M-series_%E2%80%93_MLX) - [Come avviarlo in locale (snippet rapido)](#Come_avviarlo_in_locale_snippet_rapido) - [vLLM](#vLLM) - [SGLang (preferibile per multimodale)](#SGLang_preferibile_per_multimodale) - [A chi serve davvero questo modello](#A_chi_serve_davvero_questo_modello) - [Conclusioni](#Conclusioni) ## 🔗 Link ufficiali - Blog tecnico → [https://z.ai/blog/glm-4.6v](https://z.ai/blog/glm-4.6v) - Demo online → [https://chat.z.ai](https://chat.z.ai) - GitHub → [https://github.com/zai-org/GLM-V](https://github.com/zai-org/GLM-V) - HuggingFace (106B) → [https://huggingface.co/zai-org/GLM-4.6V](https://huggingface.co/zai-org/GLM-4.6V) - HuggingFace (9B Flash) → [https://huggingface.co/zai-org/GLM-4.6V-Flash](https://huggingface.co/zai-org/GLM-4.6V-Flash) - API Z.ai → [https://docs.z.ai](https://docs.z.ai) - Paper → [https://arxiv.org/abs/2507.01006](https://arxiv.org/abs/2507.01006) ## **Cosa introduce davvero GLM-4.6V** ## Ti sta piacendo? Ricevi una guida pratica ogni settimana. AI, tool e automazioni. Iscriviti gratis Perfetto, sei dentro. ### Tool calling nativo multimodale Qui c’è la svolta. GLM-4.6V può: - ricevere una **immagine** come input diretto per uno strumento - chiedere a un tool di elaborare screenshot o documenti - valutare visivamente la risposta dello strumento - proseguire la catena di reasoning basandosi su contenuti visivi Nessuna conversione a testo, nessun workaround: l’immagine è la fonte primaria dell’azione. Questo abilita agenti multimodali molto più maturi, soprattutto in contesti aziendali (automazioni RPA, classificazione documentale, estrazione dati, UI automation). ### Comprensione documenti e long-context (128K) Il modello gestisce: - PDF con testo, grafici, figure, layout complessi - schermate UI - tabelle multi-pagina - più documenti simultanei La parte visiva è decisamente superiore rispetto ai modelli 3.5–4B tradizionali, e si nota in tasks come OCR, ChartQA, reasoning multimodale e interpretazione di report. ### Frontend replication e modifica visiva del codice Carichi uno screenshot → GLM-4.6V produce HTML/CSS/JS. Poi cerchi un elemento, lo selezioni, gli dici: > “Sposta questo pulsante a sinistra e rendilo più scuro.” E lui genera la patch corretta sul codice. Una funzione molto rara nei modelli open-source. ## **Benchmark: dove si posiziona davvero** ![Tabella benchmark GLM-4.6V e GLM-4.6V-Flash con confronto contro Qwen, Kimi K2, GLM-4.5V e Step su VQA, reasoning, OCR e long-context.](https://francescogruner.it/wp-content/uploads/2025/12/GLM-4.6V-Benchmarks-confronto-prestazioni-vs-Qwen-Kimi-e-Step.jpeg) Performance di GLM-4.6V e della versione Flash (9B) sui principali benchmark multimodali: visione, reasoning, OCR, agentic tasks e long-context. Confronto diretto con Qwen-VL, Kimi-VL e Step-3. La versione **106B** mantiene risultati da modello “frontier open-source” in: - MMMU - OCRBench - ChartQA - document understanding - reasoning visivo La **Flash 9B**, pur essendo un modello leggero, supera molti modelli della stessa fascia (Qwen3-VL-8B, Phi-3.5 VLM) nei compiti visivi. ## **Le due versioni a confronto** ### **GLM-4.6V – 106B (MoE)** - pensato per cloud e HPC - 215GB di pesi - richiede *multi-GPU* (8× A100/H100) - reasoning più profondo e contesto a 128K 👉 adatto a chi ha infrastrutture serie o deve fare batch massivi ### **GLM-4.6V-Flash – 9B (Dense)** - pensato per uso locale - quantizzabile (GGUF, GPTQ, AWQ) - funziona su RTX, Mac M-series e ROCm - tool calling integrato - più veloce e leggero 👉 è il modello da usare nel quotidiano ## Abstract del paper (versione semplificata) Il paper presenta un modello multimodale con pre-training su dataset visivi e documentali altamente interleaved, 128K token di contesto e un framework di **reinforcement learning multimodale** che integra tool-calling, visione e reasoning. Vengono introdotti: - un loop di feedback visivo per correggere codice e azioni - un sistema di output interleaved testo/immagini - un pre-training multimodale di larga scala per migliorare logica, OCR e analisi documentale Risultato: il modello ottiene **SoTA** tra gli open-source di dimensioni simili. ## Requisiti hardware per usarlo in locale ### **NVIDIA – CUDA (consigliato)** Perfetto con **vLLM** o **SGLang**. Per GLM-4.6V-Flash (9B): - VRAM minima: **12 GB** (Q4_K_M) - VRAM consigliata: **16–24 GB** - GPU ideali: **RTX 3090 / 4080 / 4090 / 5080** Per la 106B → solo data center. ### **AMD ROCm** Supporto buono tramite: - vLLM ROCm build - Optimum ROCm HF Schede supportate: - RX 7900 XTX - MI200/MI300 VRAM: 16GB consigliati. ### **Apple Mac (M-series) – MLX** Supporto tramite **MLX**, perfetto per la versione Flash (9B). - M2 Ultra, M3 Max, M3 Ultra - Limiti: visione più lenta rispetto a CUDA, niente 106B ## Come avviarlo in locale (snippet rapido) ### vLLM ``` pip install vllm>=0.12.0 vllm serve zai-org/GLM-4.6V-Flash ``` ### SGLang (preferibile per multimodale) ``` pip install sglang>=0.5.6.post1 sglang serve zai-org/GLM-4.6V-Flash ``` ## A chi serve davvero questo modello - Aziende che fanno **automazione documentale** - Sviluppatori di **agenti multimodali** - Team che lavorano su **UI automation** - Analisti e reparti finance - Chi vuole un modello multimodale potente *senza* costi di API - Ricercatori che vogliono tool calling + visione in un modello open ## Conclusioni GLM-4.6V conferma una tendenza ormai evidente: la Cina sta spingendo l’open-source multimodale molto più velocemente di quanto ci si aspettasse. Con una finestra di contesto da 128k, tool calling nativo anche sulle immagini e una variante Flash da 9B davvero utilizzabile in locale, questo modello amplia il ventaglio di soluzioni reali per chi costruisce agenti, pipeline multimodali e applicazioni aziendali avanzate. Non sostituisce i modelli top per coding o reasoning profondo, ma rappresenta una piattaforma estremamente solida per tutto ciò che richiede **visione + azione**, soprattutto in scenari dove il deployment ibrido (cloud + locale) è un requisito strategico. Se lavori con orchestrazione AI, automazioni, interfacce visuali o generazione di contenuti ricchi, GLM-4.6V è probabilmente uno dei modelli più flessibili da aggiungere al tuo stack. **E adesso sono curioso di sapere la tua:** hai già un’idea di come potresti usarlo? Provalo nei commenti: **qual è il tuo use case?**