
Questa settimana è stata intensa per chi segue l’AI: nuovi rilasci, benchmark e come si mormorava l’uscita di GLM 4.6 da parte di Z.ai (Zhipu AI), uno dei laboratori cinesi più solidi e in rapida crescita. Il modello arriva con pesi aperti e licenza permissiva, e si posiziona come uno dei primi open-weight a sfidare il riferimento closed-source sul coding e sugli agenti, Claude Sonnet 4.5 di Anthropic.
Perché GLM 4.6 interessa davvero a chi sviluppa
GLM 4.6 non è pensato per impressionare con prompt poetici o sketch virali. È un modello che punta a supportare lavoro reale, con quattro caratteristiche chiave:
1. Finestra di contesto: 200.000 token
Puoi caricare interi repo, guideline interne, backlog di progetto e dizionari API senza spezzare la sessione.
Risultato: meno perdita di contesto, meno prompt di recupero, più continuità per agenti e task complessi.
2. Prestazioni solide nel coding “vero”
Benchmark indipendenti lo piazzano sopra Claude Code e DeepSeek-V3.1-Terminus su compiti di programmazione reali: refactor, generazione UI, tool-use.
Non il migliore su singola funzione, ma eccellente su flussi lunghi e multi-step.
3. Thinking tag: ragionamento a comando
Il modello permette di attivare il “thinking mode” solo quando serve.
Spiegazioni dettagliate? Lo attivi. Risposte secche e rapide? Lo disattivi.
Controlli latency, costo e verbosità.
4. Pesi pubblici (MIT) e architettura MoE
Architettura Mixture-of-Experts, pesi scaricabili. Puoi servirlo via vLLM
, SGLang
, DeepSpeed
o altri orchestratori.
Perfetto per chi vuole portarlo in casa per motivi di privacy o sovranità del dato.
Strumenti compatibili: non devi cambiare ambiente
Puoi usare GLM 4.6 con oltre 10 strumenti LLM-oriented:
Tool | Descrizione |
---|---|
Kilo Code | Web IDE orientato al coding agentico. Supporta nativamente GLM 4.6. |
Cline (VS Code) | Estensione per agenti AI all’interno di Visual Studio Code. |
Claude Code | UI Claude compatibile. Puoi usare GLM 4.6 come motore alternativo. |
Roo Code, Goose, Crush | Altri ambienti agentici orientati alla generazione codice, già integrati. |
OpenCode | Frontend opensource personalizzabile. |
API Z.ai | Richieste dirette, con o senza thinking mode. Perfette per automazioni, chatbot, backend. |
OpenRouter | Usabile come provider alternativo a pagamento, senza abbonamento fisso. |
Cosa cambia nella pratica quotidiana
- Progetti lunghi e documentati: con 200K token carichi guideline, componenti UI, standard interni e backlog nella stessa sessione, riducendo switching e incoerenze.
- Agenti in IDE: i flussi “apri file → analizza → modifica → testa” risultano più stabili quando l’agente deve combinare istruzioni, tool e contesto esteso.
- Controllo del costo/latency: disabilitando il “thinking” ottieni risposte più rapide e meno token ragionati; lo riattivi per plan e debugging passo-passo.
Piani e prezzi ufficiali (con promo –50% sul 1° abbonamento)

Z.ai offre piani dedicati al coding e con il 50% di sconto, utilizzabili dentro più di 10 strumenti.
- Fatturazione mensile piano lite: a partire da $3/mese poi 6$ al rinnovo.
- Fatturazione trimestrale piano lite: $9/trimestre poi 18$ al rinnovo.
- Fatturazione annuale piano lite: $36/anno poi 72$ al rinnovo.
Tier annuali:
- GLM Coding Lite: $36/anno (poi $72/anno). Pensato per carichi leggeri.
- GLM Coding Pro: $180/anno (poi $360/anno). 5× Lite, più rapido del Lite, include comprensione immagini/video, web search MCP.
- GLM Coding Max: $360/anno (poi $720/anno). 4× Pro, performance garantite nelle ore di picco, accesso anticipato a nuove feature.
📌 Promo valida al momento della scrittura → https://z.ai/subscribe
💡 Se pensi che Sonnet 4.5 Max costa $200/mese, qui parliamo di una cifra simile… ma annuale.
Dove provarlo subito (senza server)
Ti basta uno di questi:
- Kilo Code (registrazione gratuita)
- OpenRouter (modalità token-based)
- vLLM/SGLang (per installazione on-prem)
- Claude Code UI + GLM 4.6 via API (fallback gratuito)
- OpenCode (setup in locale con scelta provider)
Se ti serve on-prem: scarica i pesi e servi tramite vLLM/SGLang, con quantizzazione e offload su NVMe. Prevedi RAM a due cifre e SSD veloci; accetta trade-off su throughput/latency.
Nota: al momento non è su Ollama, ma ci sono richieste aperte.
Tienilo d’occhio: ollama.com/models
GLM 4.6 vs Sonnet 4.5: confronto operativo
Dove GLM 4.6 è forte
- Codebase grandi e molte istruzioni: i 200K token riducono context-switch e perdita di stato degli agenti.
- Costo/beneficio: con i piani annuali scontati è un on-ramp economico per team e freelance che vogliono agentic coding stabile senza lock-in.
- Open-weight: puoi migrare tra ambienti, fare A/B con altri modelli e—se serve—portarlo on-prem per policy o sovranità del dato.
Dove Sonnet 4.5 resta un riferimento
- Pure coding “hard” e computer-use enterprise: su bugfix intricati, compliance e tool-use avanzato l’ecosistema Anthropic (policies, audit, Bedrock/Vertex) è ancora un punto di forza.
- Strategia consigliata: ensemble/fallback. Usa GLM 4.6 come first-pass per velocità e costo, con fallback a Sonnet 4.5 se non converge in N iterazioni o su classi di task ad alto rischio.
Come impostare il “thinking” senza buttare budget
- Attivalo per planning multi-passo, orchestrazione di tool e spiegazioni didattiche.
- Disattivalo per refactor rapidi, generazione di componenti e Q&A tecnici dove conta la velocità.
- Regola per progetto: definisci preset diversi in base a repo e task, così eviti di pagare “ragionamento” quando non serve.
Checklist rapida per partire
- Scegli il piano: se vuoi provare con calma, parte Lite annuale ($36). Se lavori tutti i giorni, vai direttamente su Pro annuale ($180), oppure valuta abbonamenti trimestrali o mensili (il lite mensile costa solo 3$ il primo mese per poi arrivare al prezzo normale di 6$).
- Attiva uno strumento: Kilo Code o Cline su VS Code. Seleziona GLM-4.6 nelle impostazioni del provider.
- Imposta i preset: due profili—“Fast” con thinking off (per everyday coding), “Plan” con thinking on (per design/analisi).
- Valuta in 1 settimana: tre task tipo—refactor di un modulo, creazione di una piccola UI, fixing con test. Misura tempo, numero di iterazioni e qualità.
- Decidi l’assetto: se copre l’80% dei casi, resta su GLM 4.6; per il 20% critico configura fallback Sonnet 4.5.
- Opzione on-prem: se servono dati in house, prova i pesi con quantizzazione e NVMe-offload; monitora latenza e throughput prima del go-live.
Link utili e fonti ufficiali
- Modello GLM-4.6 su Hugging Face
https://huggingface.co/zai-org/GLM-4.6
→ Pagina ufficiale con pesi pubblici, config e info tecniche. - Pagine abbonamento e prezzi Z.ai
https://z.ai/subscribe
→ Per scegliere e attivare un piano (Lite, Pro, Max) con lo sconto -50%. - Chat online con GLM 4.6
https://chat.z.ai/
→ Interfaccia web ufficiale. - API ufficiali e documentazione
https://z.ai/manage-apikey/apikey-list
→ Endpoint API, esempi, parametri, token “thinking mode”, ecc. - Kilo Code (IDE compatibile)
https://kilocode.com
→ IDE cloud con supporto diretto a GLM 4.6, gratuito nella versione base. - OpenRouter (alternativa API token-based)
https://openrouter.ai/z-ai/glm-4.6
→ Provider alternativo per usare GLM 4.6 senza abbonamento fisso. - Repo GitHub non ufficiale per orchestrazione
https://github.com/THUDM/ChatGLM4
→ Per usare versioni precedenti o monitorare update del team THUDM.
Conclusione
GLM 4.6 rende più accessibile il coding agentico “serio”:
- contesto 200K,
- pesi pubblici,
- integrazione con IDE reali
- e piani annuali con -50% che abbassano la soglia d’ingresso.
Non sostituisce Sonnet 4.5 in tutti gli scenari, soprattutto quelli enterprise, ma accorcia il gap e ti restituisce controllo:
- puoi partire as-a-service,
- orchestrare più modelli,
- e quando serve portarlo in casa.
Su Ollama non c’è (ancora). Ma nel frattempo? Se vuoi far lavorare gli agenti sul serio, GLM 4.6 merita un posto nel tuo stack.