# GLM-5 (Z.ai): agenti e MoE 744B (MIT) > Fonte: https://francescogruner.it/glm-5-z-ai-agenti-lunghi-moe-744b-mit/ GLM-5 (Z.ai) arriva con un messaggio semplice: meno “chat”, più **agenti** e **task lunghi**. Tradotto: lavori che non si chiudono in 2 prompt e che mettono in crisi i modelli quando devono pianificare, usare tool e non perdere il filo. Qui non mi interessa il numerino “da leaderboard”. Mi interessa se regge quando lo metti a fare **sistemi**: più componenti, più vincoli, più passi, più errori da recuperare. Indice dei contenuti [Toggle](#) - [Il limite grosso (subito)](#Il_limite_grosso_subito) - [Numeri che contano (senza romanzi)](#Numeri_che_contano_senza_romanzi) - [Ti sta piacendo?](#Ti_sta_piacendo) - [Agenti: la demo che capisci al volo](#Agenti_la_demo_che_capisci_al_volo) - [Office (output: docx, xlsx, pdf)](#Office_output_docx_xlsx_pdf) - [Grafici (ufficiali)](#Grafici_ufficiali) - [Open source (MIT) e dove provarlo](#Open_source_MIT_e_dove_provarlo) - [I miei post sulla serie GLM](#I_miei_post_sulla_serie_GLM) - [Prompt pack (per test veloce)](#Prompt_pack_per_test_veloce) - [Fonti](#Fonti) ## Il limite grosso (subito) → se non hai una toolchain decente (guardrail, logging, retry, timeouts), un modello “più agentico” ti produce casino **più velocemente** → se lo vuoi davvero “in casa”, serving e memoria contano più del marketing: GLM-5 è grosso, e va trattato come un pezzo d’infrastruttura. ## Numeri che contano (senza romanzi) Z.ai lo posiziona così: **744B** parametri totali in MoE, **40B** attivi. Rispetto a GLM-4.5 parla di salto sia di scala sia di dati (da 23T a 28.5T token), con due scelte tecniche che tornano spesso: → **DSA (DeepSeek Sparse Attention)** per tenere il long context senza bruciarsi i costi di serving → **slime**: infrastruttura RL asincrona per accelerare il post-training (meno iterazioni “lente”, più cicli) ## Ti sta piacendo? Ricevi una guida pratica ogni settimana. AI, tool e automazioni. Iscriviti gratis Perfetto, sei dentro. ## Agenti: la demo che capisci al volo Il pezzo più interessante del lancio non è “ragiona meglio”. È che insistono su **orizzonti lunghi**. E su Vending Bench 2 dicono di essere **#1 tra gli open source**: simulazione di un vending business su un anno, con un risultato finale (saldo) che loro mettono a confronto con modelli chiusi. **Note pratiche (senza benchmark)** → quando deve generare **UI complete** (layout + componenti + micro-interazioni), di solito regge bene → quando il task diventa “simulazione/gioco”, il rischio è l’opposto: **bella faccia, logica fragile** → se lo usi in tool e automazioni: valuta sempre **stato**, error recovery e retry, non solo la prima risposta ## Office (output: docx, xlsx, pdf) Uno dei punti più concreti del posizionamento Z.ai non è “scrive meglio”. È **output da consegnare**: documenti e file pronti (Word/Excel/PDF), non solo testo in chat. Qui sotto c’è un esempio ufficiale: un **.docx generato da GLM-5**. [![](https://francescogruner.it/wp-content/uploads/2026/02/glm-5-docx-example-zai.png)](https://francescogruner.it/wp-content/uploads/2026/02/glm-5-docx-example-zai.png)Esempio ufficiale: documento (.docx) generato da GLM-5. Fonte: Z.ai. ## Grafici (ufficiali) Due grafici ufficiali Z.ai: li uso solo per inquadrare il posizionamento (non per fare tifo). → takeaway 1: spingono su agenti e task lunghi → takeaway 2: mostrano benchmark “macro” + suite interna (CC-Bench-V2) Apri i grafici (cliccabili) Due grafici ufficiali Z.ai, messi qui per dare contesto al claim “agenti + task lunghi”. Prendili come posizionamento, non come sentenza. [![](https://francescogruner.it/wp-content/uploads/2026/02/glm-5-figure-1.png)](https://francescogruner.it/wp-content/uploads/2026/02/glm-5-figure-1.png)Benchmark “macro” (reasoning, coding, agent): GLM-5 vs GLM-4.7 + alcuni modelli chiusi. Fonte: Z.ai. [![](https://francescogruner.it/wp-content/uploads/2026/02/glm-5-figure-2.png)](https://francescogruner.it/wp-content/uploads/2026/02/glm-5-figure-2.png)Benchmark “real world” (CC-Bench-V2): frontend/backend/long-horizon. Fonte: Z.ai. Se ti serve una demo “da capire al volo”: qui l’output è un **.docx pronto**, non un muro di testo. Fonte: Z.ai. Qui il take pratico è semplice: se il tuo uso è “scrivimi una mail”, non te ne accorgi. Se invece fai automazioni, deployment, analisi log, tool use e task multi-step, questo è il terreno dove o ti salva tempo o ti fa perdere giornate. ## Open source (MIT) e dove provarlo GLM-5 è rilasciato con licenza MIT. Se vuoi vederlo e toccarlo subito: → chat ufficiale: [chat.z.ai](https://chat.z.ai/) → API: [docs.z.ai (GLM-5)](https://docs.z.ai/guides/llm/glm-5) → repo: [zai-org/GLM-5 su GitHub](https://github.com/zai-org/GLM-5) → pesi: [GLM-5 su Hugging Face](https://huggingface.co/zai-org/GLM-5) → Ollama Cloud: [ollama.com/library/glm-5](https://ollama.com/library/glm-5) → provider (API pronta): [OpenRouter (GLM-5)](https://openrouter.ai/z-ai/glm-5) Nota pratica: se non hai già GPU + serving pronti, provarlo “in casa” è il modo più lento per capire se ti piace. Per test e uso quotidiano, chat/API/provider ti danno prestazioni più prevedibili e zero sbatti. ## I miei post sulla serie GLM Se hai seguito la serie Z.ai/GLM qui sul sito: GLM-5 va letto come step successivo rispetto a GLM-4.6 e 4.6V: **Video**: GLM-4.6 spiegato in 6 minuti → [GLM-4.6 (Z.ai)](https://francescogruner.it/glm-4-6-di-z-ai-sfida-sonnet-4-5-200k-token-pesi-open-e-costa-10-meno/) → e qui: [GLM-4.6V (tool calling in locale)](https://francescogruner.it/cina-glm-4-6v-tool-calling-locale-rtx/) ## Prompt pack (per test veloce) Se lo provi in chat o API, non farti fregare dai test “da bar”. Usa un task che ti somiglia: ``` Hai 3 tool: (1) search_logs(query), (2) apply_patch(file, diff), (3) run_tests(). Obiettivo: risolvere il bug senza rompere altro. Step obbligatori: - fai un piano breve (5 righe max) - poi esegui: prima search_logs, poi patch, poi run_tests - se fallisce, fai retry con una sola ipotesi alla volta - output finale: spiegazione + diff + comandi eseguiti ``` ## Fonti → Z.ai (post tecnico): [https://z.ai/blog/glm-5](https://z.ai/blog/glm-5) → GitHub (repo + deploy): [https://github.com/zai-org/GLM-5](https://github.com/zai-org/GLM-5) → Hugging Face (pesi): [https://huggingface.co/zai-org/GLM-5](https://huggingface.co/zai-org/GLM-5) → Paper: [https://arxiv.org/abs/2602.15763](https://arxiv.org/abs/2602.15763) → Docs API: [https://docs.z.ai/guides/llm/glm-5](https://docs.z.ai/guides/llm/glm-5) → Provider (scheda): [https://openrouter.ai/z-ai/glm-5](https://openrouter.ai/z-ai/glm-5)