Tool, prompt e workflow AI. Una volta a settimana, gratis.
Sei dentro. Da questa settimana ricevi la newsletter.
GLM 4.6 di Z.ai sfida Sonnet 4.5: 200K token, pesi open e costa 10× meno
Zhipu AI lancia GLM 4.6: modello open-weight con 200K token, architettura MoE e costi 10× inferiori a Sonnet 4.5. Pensato per coding e automazioni agentiche.
Immagine di copertina del modello GLM 4.6 di Zhipu AI, sviluppato da Z.AI per sfidare i grandi modelli proprietari nel coding e agent automation.
Questa settimana è stata intensa per chi segue l’AI: nuovi rilasci, benchmark e come si mormorava l’uscita di GLM 4.6 da parte di Z.ai (Zhipu AI), uno dei laboratori cinesi più solidi e in rapida crescita. Il modello arriva con pesi aperti e licenza permissiva, e si posiziona come uno dei primi open-weight a sfidare il riferimento closed-source sul coding e sugli agenti, Claude Sonnet 4.5 di Anthropic.
GLM 4.6 non è pensato per impressionare con prompt poetici o sketch virali. È un modello che punta a supportare lavoro reale, con quattro caratteristiche chiave:
1. Finestra di contesto: 200.000 token
Puoi caricare interi repo, guideline interne, backlog di progetto e dizionari API senza spezzare la sessione. Risultato: meno perdita di contesto, meno prompt di recupero, più continuità per agenti e task complessi.
Ti sta piacendo?
Ricevi una guida pratica ogni settimana. AI, tool e automazioni.
Perfetto, sei dentro.
2. Prestazioni solide nel coding “vero”
Benchmark indipendenti lo piazzano sopra Claude Code e DeepSeek-V3.1-Terminus su compiti di programmazione reali: refactor, generazione UI, tool-use. Non il migliore su singola funzione, ma eccellente su flussi lunghi e multi-step.
3. Thinking tag: ragionamento a comando
Il modello permette di attivare il “thinking mode” solo quando serve. Spiegazioni dettagliate? Lo attivi. Risposte secche e rapide? Lo disattivi. Controlli latency, costo e verbosità.
4. Pesi pubblici (MIT) e architettura MoE
Architettura Mixture-of-Experts, pesi scaricabili. Puoi servirlo via vLLM, SGLang, DeepSpeed o altri orchestratori. Perfetto per chi vuole portarlo in casa per motivi di privacy o sovranità del dato.
Strumenti compatibili: non devi cambiare ambiente
Puoi usare GLM 4.6 con oltre 10 strumenti LLM-oriented:
Tool
Descrizione
Kilo Code
Web IDE orientato al coding agentico. Supporta nativamente GLM 4.6.
Cline (VS Code)
Estensione per agenti AI all’interno di Visual Studio Code.
Claude Code
UI Claude compatibile. Puoi usare GLM 4.6 come motore alternativo.
Roo Code, Goose, Crush
Altri ambienti agentici orientati alla generazione codice, già integrati.
OpenCode
Frontend opensource personalizzabile.
API Z.ai
Richieste dirette, con o senza thinking mode. Perfette per automazioni, chatbot, backend.
OpenRouter
Usabile come provider alternativo a pagamento, senza abbonamento fisso.
Cosa cambia nella pratica quotidiana
Progetti lunghi e documentati: con 200K token carichi guideline, componenti UI, standard interni e backlog nella stessa sessione, riducendo switching e incoerenze.
Agenti in IDE: i flussi “apri file → analizza → modifica → testa” risultano più stabili quando l’agente deve combinare istruzioni, tool e contesto esteso.
Controllo del costo/latency: disabilitando il “thinking” ottieni risposte più rapide e meno token ragionati; lo riattivi per plan e debugging passo-passo.
Piani e prezzi ufficiali (con promo –50% sul 1° abbonamento)
Confronto tra i piani GLM Coding 4.6: Lite, Pro e Max, con prezzi annuali scontati per il primo anno. Ogni piano offre compatibilità con strumenti AI per sviluppatori.
Z.ai offre piani dedicati al coding e con il 50% di sconto, utilizzabili dentro più di 10 strumenti.
Fatturazione mensile piano lite: a partire da $3/mese poi 6$ al rinnovo.
Fatturazione trimestrale piano lite: $9/trimestre poi 18$ al rinnovo.
Fatturazione annuale piano lite: $36/anno poi 72$ al rinnovo.
Tier annuali:
GLM Coding Lite: $36/anno (poi $72/anno). Pensato per carichi leggeri.
GLM Coding Pro: $180/anno (poi $360/anno). 5× Lite, più rapido del Lite, include comprensione immagini/video, web search MCP.
GLM Coding Max: $360/anno (poi $720/anno). 4× Pro, performance garantite nelle ore di picco, accesso anticipato a nuove feature.
💡 Se pensi che Sonnet 4.5 Max costa $200/mese, qui parliamo di una cifra simile… ma annuale.
Dove provarlo subito (senza server)
Ti basta uno di questi:
Kilo Code (registrazione gratuita)
OpenRouter (modalità token-based)
vLLM/SGLang (per installazione on-prem)
Claude Code UI + GLM 4.6 via API (fallback gratuito)
OpenCode (setup in locale con scelta provider)
Se ti serve on-prem: scarica i pesi e servi tramite vLLM/SGLang, con quantizzazione e offload su NVMe. Prevedi RAM a due cifre e SSD veloci; accetta trade-off su throughput/latency.
Nota: al momento non è su Ollama, ma ci sono richieste aperte. Tienilo d’occhio: ollama.com/models
GLM 4.6 vs Sonnet 4.5: confronto operativo
Dove GLM 4.6 è forte
Codebase grandi e molte istruzioni: i 200K token riducono context-switch e perdita di stato degli agenti.
Costo/beneficio: con i piani annuali scontati è un on-ramp economico per team e freelance che vogliono agentic coding stabile senza lock-in.
Open-weight: puoi migrare tra ambienti, fare A/B con altri modelli e—se serve—portarlo on-prem per policy o sovranità del dato.
Dove Sonnet 4.5 resta un riferimento
Pure coding “hard” e computer-use enterprise: su bugfix intricati, compliance e tool-use avanzato l’ecosistema Anthropic (policies, audit, Bedrock/Vertex) è ancora un punto di forza.
Strategia consigliata: ensemble/fallback. Usa GLM 4.6 come first-pass per velocità e costo, con fallback a Sonnet 4.5 se non converge in N iterazioni o su classi di task ad alto rischio.
Come impostare il “thinking” senza buttare budget
Attivalo per planning multi-passo, orchestrazione di tool e spiegazioni didattiche.
Disattivalo per refactor rapidi, generazione di componenti e Q&A tecnici dove conta la velocità.
Regola per progetto: definisci preset diversi in base a repo e task, così eviti di pagare “ragionamento” quando non serve.
Checklist rapida per partire
Scegli il piano: se vuoi provare con calma, parte Lite annuale ($36). Se lavori tutti i giorni, vai direttamente su Pro annuale ($180), oppure valuta abbonamenti trimestrali o mensili (il lite mensile costa solo 3$ il primo mese per poi arrivare al prezzo normale di 6$).
Attiva uno strumento: Kilo Code o Cline su VS Code. Seleziona GLM-4.6 nelle impostazioni del provider.
Imposta i preset: due profili—“Fast” con thinking off (per everyday coding), “Plan” con thinking on (per design/analisi).
Valuta in 1 settimana: tre task tipo—refactor di un modulo, creazione di una piccola UI, fixing con test. Misura tempo, numero di iterazioni e qualità.
Decidi l’assetto: se copre l’80% dei casi, resta su GLM 4.6; per il 20% critico configura fallback Sonnet 4.5.
Opzione on-prem: se servono dati in house, prova i pesi con quantizzazione e NVMe-offload; monitora latenza e throughput prima del go-live.
Kilo Code (IDE compatibile) https://kilocode.com → IDE cloud con supporto diretto a GLM 4.6, gratuito nella versione base.
OpenRouter (alternativa API token-based) https://openrouter.ai/z-ai/glm-4.6 → Provider alternativo per usare GLM 4.6 senza abbonamento fisso.
Repo GitHub non ufficiale per orchestrazione https://github.com/THUDM/ChatGLM4 → Per usare versioni precedenti o monitorare update del team THUDM.
Conclusione
GLM 4.6 rende più accessibile il coding agentico “serio”:
contesto 200K,
pesi pubblici,
integrazione con IDE reali
e piani annuali con -50% che abbassano la soglia d’ingresso.
Non sostituisce Sonnet 4.5 in tutti gli scenari, soprattutto quelli enterprise, ma accorcia il gap e ti restituisce controllo:
puoi partire as-a-service,
orchestrare più modelli,
e quando serve portarlo in casa.
Su Ollama non c’è (ancora). Ma nel frattempo? Se vuoi far lavorare gli agenti sul serio, GLM 4.6 merita un posto nel tuo stack.
Nuovo su Google
Aggiungi francescogruner.it come fonte preferita
Se leggi spesso i miei articoli su AI, automazione e tecnologia, ora puoi dire a Google
che vuoi vedere più spesso i contenuti di francescogruner.it tra le notizie.
Sono un consulente IT, divulgatore e imprenditore tech. Mi occupo di automazione, AI e gestione di sistemi e infrastrutture IT, cercando soluzioni semplici a problemi complessi. Qui condivido strumenti, esperimenti e idee utili.