# GLM-5 (Z.ai): agenti e MoE 744B (MIT)

> Fonte: https://francescogruner.it/glm-5-z-ai-agenti-lunghi-moe-744b-mit/

GLM-5 (Z.ai) arriva con un messaggio semplice: meno “chat”, più **agenti** e **task lunghi**. Tradotto: lavori che non si chiudono in 2 prompt e che mettono in crisi i modelli quando devono pianificare, usare tool e non perdere il filo.

 

Qui non mi interessa il numerino “da leaderboard”. Mi interessa se regge quando lo metti a fare **sistemi**: più componenti, più vincoli, più passi, più errori da recuperare.

   

Indice dei contenuti

 [Toggle](#) 

- [Il limite grosso (subito)](#Il_limite_grosso_subito)
- [Numeri che contano (senza romanzi)](#Numeri_che_contano_senza_romanzi)
- [Ti sta piacendo?](#Ti_sta_piacendo)
- [Agenti: la demo che capisci al volo](#Agenti_la_demo_che_capisci_al_volo)
- [Office (output: docx, xlsx, pdf)](#Office_output_docx_xlsx_pdf)
- [Grafici (ufficiali)](#Grafici_ufficiali)
- [Open source (MIT) e dove provarlo](#Open_source_MIT_e_dove_provarlo)
- [I miei post sulla serie GLM](#I_miei_post_sulla_serie_GLM)
- [Prompt pack (per test veloce)](#Prompt_pack_per_test_veloce)
- [Fonti](#Fonti)

 

## Il limite grosso (subito)

 

→ se non hai una toolchain decente (guardrail, logging, retry, timeouts), un modello “più agentico” ti produce casino **più velocemente**  
→ se lo vuoi davvero “in casa”, serving e memoria contano più del marketing: GLM-5 è grosso, e va trattato come un pezzo d’infrastruttura.

 

## Numeri che contano (senza romanzi)

 

Z.ai lo posiziona così: **744B** parametri totali in MoE, **40B** attivi. Rispetto a GLM-4.5 parla di salto sia di scala sia di dati (da 23T a 28.5T token), con due scelte tecniche che tornano spesso:

 

→ **DSA (DeepSeek Sparse Attention)** per tenere il long context senza bruciarsi i costi di serving  
→ **slime**: infrastruttura RL asincrona per accelerare il post-training (meno iterazioni “lente”, più cicli)

                  

## Ti sta piacendo?

 

Ricevi una guida pratica ogni settimana. AI, tool e automazioni.

            Iscriviti gratis             Perfetto, sei dentro.         

## Agenti: la demo che capisci al volo

 

Il pezzo più interessante del lancio non è “ragiona meglio”. È che insistono su **orizzonti lunghi**. E su Vending Bench 2 dicono di essere **#1 tra gli open source**: simulazione di un vending business su un anno, con un risultato finale (saldo) che loro mettono a confronto con modelli chiusi.

 

**Note pratiche (senza benchmark)**

 

→ quando deve generare **UI complete** (layout + componenti + micro-interazioni), di solito regge bene  
→ quando il task diventa “simulazione/gioco”, il rischio è l’opposto: **bella faccia, logica fragile**  
→ se lo usi in tool e automazioni: valuta sempre **stato**, error recovery e retry, non solo la prima risposta

 

## Office (output: docx, xlsx, pdf)

 

Uno dei punti più concreti del posizionamento Z.ai non è “scrive meglio”. È **output da consegnare**: documenti e file pronti (Word/Excel/PDF), non solo testo in chat. Qui sotto c’è un esempio ufficiale: un **.docx generato da GLM-5**.

 [![](https://francescogruner.it/wp-content/uploads/2026/02/glm-5-docx-example-zai.png)](https://francescogruner.it/wp-content/uploads/2026/02/glm-5-docx-example-zai.png)Esempio ufficiale: documento (.docx) generato da GLM-5. Fonte: Z.ai. 

## Grafici (ufficiali)

 

Due grafici ufficiali Z.ai: li uso solo per inquadrare il posizionamento (non per fare tifo).

 

→ takeaway 1: spingono su agenti e task lunghi  
→ takeaway 2: mostrano benchmark “macro” + suite interna (CC-Bench-V2)

 Apri i grafici (cliccabili) 

Due grafici ufficiali Z.ai, messi qui per dare contesto al claim “agenti + task lunghi”. Prendili come posizionamento, non come sentenza.

 [![](https://francescogruner.it/wp-content/uploads/2026/02/glm-5-figure-1.png)](https://francescogruner.it/wp-content/uploads/2026/02/glm-5-figure-1.png)Benchmark “macro” (reasoning, coding, agent): GLM-5 vs GLM-4.7 + alcuni modelli chiusi. Fonte: Z.ai. [![](https://francescogruner.it/wp-content/uploads/2026/02/glm-5-figure-2.png)](https://francescogruner.it/wp-content/uploads/2026/02/glm-5-figure-2.png)Benchmark “real world” (CC-Bench-V2): frontend/backend/long-horizon. Fonte: Z.ai. 

Se ti serve una demo “da capire al volo”: qui l’output è un **.docx pronto**, non un muro di testo. Fonte: Z.ai.

 

Qui il take pratico è semplice: se il tuo uso è “scrivimi una mail”, non te ne accorgi. Se invece fai automazioni, deployment, analisi log, tool use e task multi-step, questo è il terreno dove o ti salva tempo o ti fa perdere giornate.

  

## Open source (MIT) e dove provarlo

 

GLM-5 è rilasciato con licenza MIT. Se vuoi vederlo e toccarlo subito:

 

→ chat ufficiale: [chat.z.ai](https://chat.z.ai/)  
→ API: [docs.z.ai (GLM-5)](https://docs.z.ai/guides/llm/glm-5)  
→ repo: [zai-org/GLM-5 su GitHub](https://github.com/zai-org/GLM-5)  
→ pesi: [GLM-5 su Hugging Face](https://huggingface.co/zai-org/GLM-5)  
→ Ollama Cloud: [ollama.com/library/glm-5](https://ollama.com/library/glm-5)  
→ provider (API pronta): [OpenRouter (GLM-5)](https://openrouter.ai/z-ai/glm-5)

 

Nota pratica: se non hai già GPU + serving pronti, provarlo “in casa” è il modo più lento per capire se ti piace. Per test e uso quotidiano, chat/API/provider ti danno prestazioni più prevedibili e zero sbatti.

 

## I miei post sulla serie GLM

 

Se hai seguito la serie Z.ai/GLM qui sul sito: GLM-5 va letto come step successivo rispetto a GLM-4.6 e 4.6V:

 

**Video**: GLM-4.6 spiegato in 6 minuti

    

→ [GLM-4.6 (Z.ai)](https://francescogruner.it/glm-4-6-di-z-ai-sfida-sonnet-4-5-200k-token-pesi-open-e-costa-10-meno/)  
→ e qui: [GLM-4.6V (tool calling in locale)](https://francescogruner.it/cina-glm-4-6v-tool-calling-locale-rtx/)

 

## Prompt pack (per test veloce)

 

Se lo provi in chat o API, non farti fregare dai test “da bar”. Usa un task che ti somiglia:

 

```
Hai 3 tool: (1) search_logs(query), (2) apply_patch(file, diff), (3) run_tests().
Obiettivo: risolvere il bug senza rompere altro. Step obbligatori:
- fai un piano breve (5 righe max)
- poi esegui: prima search_logs, poi patch, poi run_tests
- se fallisce, fai retry con una sola ipotesi alla volta
- output finale: spiegazione + diff + comandi eseguiti
```

 

## Fonti

 

→ Z.ai (post tecnico): [https://z.ai/blog/glm-5](https://z.ai/blog/glm-5)  
→ GitHub (repo + deploy): [https://github.com/zai-org/GLM-5](https://github.com/zai-org/GLM-5)  
→ Hugging Face (pesi): [https://huggingface.co/zai-org/GLM-5](https://huggingface.co/zai-org/GLM-5)  
→ Paper: [https://arxiv.org/abs/2602.15763](https://arxiv.org/abs/2602.15763)  
→ Docs API: [https://docs.z.ai/guides/llm/glm-5](https://docs.z.ai/guides/llm/glm-5)  
→ Provider (scheda): [https://openrouter.ai/z-ai/glm-5](https://openrouter.ai/z-ai/glm-5)