# MiniMax M3: il modello open weight da 1M di token > Fonte: https://francescogruner.it/minimax-m3-modello-open-weight-ai-1-milione-token/ La notizia non è “è uscito un altro modello AI”. Di modelli ne escono in continuazione, ormai quasi più spesso degli aggiornamenti di Windows quando hai fretta di spegnere il PC. La notizia vera è un’altra: MiniMax M3 mette in un solo modello **open weight** tre cose che fino a poco fa erano roba quasi esclusiva dei modelli proprietari di punta. Coding agentico serio, contesto fino a 1 milione di token e multimodalità nativa su testo, immagini e video. MiniMax ha presentato M3 il 1 giugno 2026. È un modello che punta dritto alla fascia alta, e che dichiara di battere o avvicinare GPT-5.5 e Gemini 3.1 Pro su diversi benchmark di coding. I pesi e il report tecnico arrivano su Hugging Face e GitHub entro una decina di giorni dal lancio. Non significa che Claude, GPT o Gemini siano da buttare. Significa che il mondo open weight è entrato in una fase nuova, molto più concreta. E per chi sviluppa, automatizza o consiglia stack AI in azienda, è una cosa da guardare da vicino. Indice dei contenuti [Toggle](#) - [Cos’è MiniMax M3](#Cose_MiniMax_M3) - [Le tre promesse: coding, contesto lungo, multimodalità](#Le_tre_promesse_coding_contesto_lungo_multimodalita) - [Ti sta piacendo?](#Ti_sta_piacendo) - [MSA: perché l’architettura conta più del numerone](#MSA_perche_larchitettura_conta_piu_del_numerone) - [I benchmark: M3 è davvero vicino alla frontiera?](#I_benchmark_M3_e_davvero_vicino_alla_frontiera) - [I casi reali dichiarati da MiniMax](#I_casi_reali_dichiarati_da_MiniMax) - [MiniMax Code: l’ambiente agentico attorno a M3](#MiniMax_Code_lambiente_agentico_attorno_a_M3) - [Prezzi: il vero argomento di MiniMax](#Prezzi_il_vero_argomento_di_MiniMax) - [Prezzi API](#Prezzi_API) - [Open weight non vuol dire self-hosting facile](#Open_weight_non_vuol_dire_self-hosting_facile) - [API proprietarie o open weight? La risposta è ibrida](#API_proprietarie_o_open_weight_La_risposta_e_ibrida) - [Il problema che nessuno guarda: quanti token consumi davvero?](#Il_problema_che_nessuno_guarda_quanti_token_consumi_davvero) - [Quando vale la pena valutare MiniMax M3](#Quando_vale_la_pena_valutare_MiniMax_M3) - [Cosa verificare prima di fidarsi](#Cosa_verificare_prima_di_fidarsi) - [Cosa fare adesso, in concreto](#Cosa_fare_adesso_in_concreto) - [MiniMax M3 e la direzione degli agenti](#MiniMax_M3_e_la_direzione_degli_agenti) - [FAQ](#FAQ) - [Conclusione](#Conclusione) - [Fonti](#Fonti) - [MiniMax M3](#MiniMax_M3) - [Scheda modello MiniMax M3](#Scheda_modello_MiniMax_M3) ## Cos’è MiniMax M3 MiniMax M3 è un modello AI open weight sviluppato da MiniMax, azienda cinese fondata nel 2022, già attiva su AI generativa, agenti, video, audio e strumenti per sviluppatori. Combina coding agentico, contesto fino a 1 milione di token e comprensione nativa di testo, immagini e video, ed è accessibile via API e tramite l’ambiente MiniMax Code. Il punto è proprio questo: non è il classico chatbot generalista. È un modello pensato per lavorare dentro task lunghi, tecnici e multi-step. In pratica, roba come: → leggere e analizzare codebase intere → lavorare su documenti molto lunghi → interpretare grafici, formule e immagini → eseguire coding in più passaggi → coordinare agenti e usare strumenti esterni → portare avanti task che durano ore M3 non vuole solo rispondere bene a una domanda. Vuole stare dentro un flusso operativo e reggerlo nel tempo. Ed è lì che la cosa diventa interessante per il lavoro vero. ## Le tre promesse: coding, contesto lungo, multimodalità MiniMax costruisce M3 attorno a tre pilastri. Il **coding agentico**. Secondo i benchmark di MiniMax, M3 è competitivo su test come SWE-Bench Pro, Terminal-Bench, KernelBench, MCP Atlas, BrowseComp e OSWorld, cioè sviluppo software, uso del terminale, navigazione autonoma e task agentici. Il **contesto lungo**. M3 arriva fino a 1 milione di token, con un minimo garantito di 512K via API. Può quindi lavorare in teoria su quantità enormi di testo, codice, log e documentazione in una sola sessione. La **multimodalità nativa**. MiniMax dice di aver addestrato M3 con dati multimodali fin dall’inizio. Quindi non un modello testuale a cui hanno “attaccato” la vista dopo, ma un sistema costruito per leggere testo, immagini e video insieme. Questi tre elementi messi insieme contano perché è la direzione in cui si muovono tutti i modelli di frontiera. Saper scrivere bene non basta più. Un modello moderno deve leggere documenti, capire immagini, ragionare su codice, usare tool, pianificare e tirare avanti processi lunghi. ## Ti sta piacendo? Ricevi una guida pratica ogni settimana. AI, tool e automazioni. Iscriviti gratis Perfetto, sei dentro. ## MSA: perché l’architettura conta più del numerone La parte più interessante di M3 non è il “1 milione di token” da mettere in homepage. È come ci arriva: l’architettura **MiniMax Sparse Attention (MSA)**. Parto dal problema, che è semplice: il contesto lungo costa. L’attenzione classica ha un costo che cresce in modo quadratico con la lunghezza del contesto. Tradotto: raddoppiare il contesto non raddoppia il costo, lo fa esplodere. Più testo dai al modello, più diventa pesante capire quali parti contano davvero. MSA affronta la cosa con un’attenzione sparsa a blocchi. Invece di far guardare tutto a tutto, il modello seleziona i blocchi di contesto più rilevanti e calcola l’attenzione solo su quelli. → una prima fase individua e seleziona i blocchi importanti → una seconda applica l’attenzione sparsa solo su quei blocchi → il carico computazionale crolla → il contesto lungo diventa sostenibile I numeri che MiniMax dichiara sono grossi: a 1 milione di token, M3 userebbe circa un ventesimo del compute per token rispetto alla generazione precedente, con prompt processati oltre 9 volte più velocemente e risposte generate oltre 15 volte più rapide. Il punto non è avere un contesto enorme. È riuscire a usarlo davvero, senza che latenza e costi diventino ingestibili. Dire “supporto 1 milione di token” è facile. Renderlo utile in produzione è un altro discorso. ## I benchmark: M3 è davvero vicino alla frontiera? MiniMax pubblica risultati aggressivi. I più citati: BenchmarkMiniMax M3 (dichiarato)Cosa misuraSWE-Bench Pro59,0coding / fix su repo realiTerminal-Bench 2.166,0task agentici da terminaleBrowseComp83,5navigazione web autonomaOSWorld-Verified70,0uso del computerMCP Atlas74,2uso di tool via MCPGDPval Rubrics74,7knowledge workKernelBench Hard28,8ottimizzazione kernel Su SWE-Bench Pro, M3 si mette davanti a GPT-5.5 e Gemini 3.1 Pro, e resta poco dietro a Claude Opus 4.7. Su altri test li avvicina o li supera, almeno secondo le valutazioni di MiniMax. Qui però serve il caveat onesto. I benchmark vanno letti con prudenza, e non perché siano inutili. Dipendono da troppe cose: → metodologia di test e scaffolding usato → prompt di sistema e numero di tentativi → ambiente di esecuzione e modello usato come giudice → differenze tra API pubblica e versioni interne Quindi no, non direi “MiniMax M3 ha distrutto GPT e Claude”. Direi una cosa più corretta: M3 mostra segnali forti su coding, agenti e task lunghi, e conferma che gli open weight stanno chiudendo il divario con i modelli proprietari di punta. Se vuoi un termine di paragone aggiornato lato proprietario, ne ho parlato nella [guida a Claude Opus 4.8 e i workflow dinamici in Claude Code](https://francescogruner.it/claude-opus-4-8-workflow-dinamici-claude-code/). ## I casi reali dichiarati da MiniMax Oltre ai numeri, MiniMax porta due esempi che spiegano meglio dei benchmark a cosa serve M3. Il primo: riprodurre in autonomia un paper scientifico. MiniMax ha chiesto a M3 di riprodurre “Learning Dynamics of LLM Finetuning”, vincitore di un Outstanding Paper Award a ICLR 2025. Secondo MiniMax, M3 ha lavorato da solo per quasi 12 ore, producendo 18 commit, 23 figure sperimentali e la riproduzione dei principali esperimenti, mettendo insieme multimodalità, coding e contesto lungo. Non basta leggere il paper: bisogna capire formule, grafici, log, risultati intermedi e poi iterare. È molto più vicino al lavoro reale di R&D del classico “scrivimi una funzione Python”. ![Paper Reproduction: 12-Hour Autonomous ICLR Paper Replication](https://file.cdn.minimax.io/public/ce62e404-de42-4c88-8897-f355eea0df41.png) Il secondo: ottimizzare un kernel CUDA FP8 GEMM su GPU NVIDIA Hopper. MiniMax dichiara circa 24 ore di lavoro autonomo, 147 submission di benchmark, 1.959 tool call e un miglioramento dell’utilizzo hardware dal 7,6% al 71,3%, con uno speedup finale di 9,4 volte e zero intervento umano. ![CUDA Kernel Optimization: 147 Iterations, 9.4× Speedup](https://file.cdn.minimax.io/public/24346a19-3459-47e1-a5b6-a771951b2ca9.gif) Anche qui il punto non è il numero. È che il modello non si è fermato dopo i primi tentativi falliti. Molti agenti funzionano bene quando il task è corto e il feedback immediato, e crollano quando devono lavorare per ore, accumulare contesto, correggersi e superare gli stalli. MiniMax vuole posizionare M3 proprio lì: autonomia su task lunghi, la cosiddetta long-horizon autonomy. È una delle aree più importanti per il futuro degli agenti. ## MiniMax Code: l’ambiente agentico attorno a M3 Con M3 arriva anche MiniMax Code, lo strumento per usare il modello su sviluppo software e automazione agentica. Non è un semplice editor o una chat per programmare. L’idea è dargli un ambiente in cui può analizzare un task complesso, spezzarlo in sotto-attività, creare team di agenti, usare tool, lavorare su codice, correggere errori in modo iterativo e adattare il piano mentre lavora, anche per giorni. È la stessa direzione che vediamo con Claude Code, Codex, Gemini CLI, Cursor e Windsurf. Il punto non è più generare codice. È costruire un collaboratore tecnico che segue un progetto nel tempo. Un conto è “fammi una funzione che fa X”. Un altro è “analizza questo repository, capisci com’è strutturato, trova il problema, proponi la modifica, scrivi i test, applica la patch, verifica e documenta tutto”. Il secondo caso richiede contesto lungo, tool use, pianificazione, memoria operativa e ragionamento multi-step. Esattamente dove M3 vuole competere. ## Prezzi: il vero argomento di MiniMax Il prezzo è uno dei colpi forti. Sui piani Token Plan, MiniMax dichiara: PianoPrezzo/meseToken mensili (circa)Plus20$1,7 miliardiMax50$5,1 miliardiUltra120$9,8 miliardi Tutti i piani includono l’accesso alla famiglia MiniMax, con uso condiviso tra testo, immagini, speech e musica. È un’offerta aggressiva, soprattutto se la confronti con abbonamenti AI professionali dove il limite vero spesso non è il prezzo, ma il numero di richieste, i limiti di contesto e la gestione dei tool. Per chi lavora con agenti, il volume di token diventa decisivo. Un agente che legge file, esegue tool, riceve errori e corregge codice ne brucia parecchi. Il costo non va valutato come una chat: va valutato come costo operativo di un workflow. ### Prezzi API M3 è disponibile anche via API, con tariffa che dipende dalla lunghezza dell’input. Lunghezza inputInput ($/M token)Output ($/M token)Caching read ($/M)fino a 512K0,602,400,12512K – 1M1,204,800,24 Al lancio MiniMax ha applicato anche uno sconto del 50% sulla prima settimana (circa 0,30$ input / 1,20$ output sullo scaglione standard). Sono prezzi interessanti per chi deve analizzare grandi quantità di testo o codice: document intelligence, analisi contratti, parsing di knowledge base, audit di configurazioni, generazione di documentazione tecnica, agenti per service desk. Attenzione però: il prezzo al token non è l’unico fattore. Contano qualità, latenza, affidabilità, privacy, SLA e integrazione con quello che già usi. MiniMax sta cercando di posizionarsi come l’alternativa economica, ma “economico al token” non vuol dire “economico in produzione”. ## Open weight non vuol dire self-hosting facile Qui c’è un equivoco da togliere subito. Quando si dice “open weight”, molti pensano: bene, lo scarico e lo faccio girare in locale. In teoria sì. In pratica dipende. Un conto è testare un modello su una GPU cloud per curiosità. Un altro è metterlo in produzione in azienda. Per un uso serio servono GPU adeguate, un sistema di inference ottimizzato, gestione delle code, monitoraggio, sicurezza, logging, controllo accessi, backup, aggiornamenti, isolamento dei dati e personale tecnico che sappia cosa sta facendo. Per molte PMI, le API gestite restano la scelta più semplice ed economica, soprattutto a volumi bassi. Il self-hosting diventa interessante quando entra in gioco almeno uno di questi fattori: → grandi volumi di token → dati molto sensibili o sovranità del dato → costi API troppo alti → workflow interni ripetitivi ad alto volume → vincoli di compliance o volontà di ridurre il lock-in Il punto non è “open è meglio” o “closed è meglio”. È scegliere lo stack giusto per il caso d’uso. ## API proprietarie o open weight? La risposta è ibrida Fino a poco fa la scelta sembrava netta. Da una parte le API proprietarie: potenti, semplici, aggiornate, ma con costi e dipendenza dal fornitore. Dall’altra i modelli open: più controllabili, ma spesso più deboli sui task complessi. Con modelli come M3 questa distinzione si sfuma. Gli open weight migliorano in fretta. Non battono i migliori modelli chiusi in ogni area, ma iniziano a bastare per molti workflow reali. La scelta sensata, soprattutto in azienda, sarà sempre più ibrida: → Claude, GPT o Gemini per i task ad alta complessità → MiniMax M3 o simili per analisi massiva di documenti e codice → modelli europei dove conta la sovranità del dato → modelli piccoli locali per task ripetitivi a bassa complessità → orchestrazione con n8n, MCP e API aziendali sopra tutto Un’azienda matura non dovrebbe chiedersi “qual è il modello migliore”. Dovrebbe chiedersi quale modello per quale processo, quali dati possono uscire e quali no, dove serve la massima qualità e dove il massimo risparmio, e come cambiare modello senza riscrivere tutto il workflow. Questo è il salto di maturità vero. ## Il problema che nessuno guarda: quanti token consumi davvero? C’è un aspetto pratico che viene sempre ignorato. Prima di decidere tra API, self-hosting, open o proprietario, bisognerebbe sapere quanti token si consumano. E molte aziende non lo sanno. Non sanno quanti dipendenti usano strumenti AI, quali reparti, per quali task, con quali dati, con quale frequenza, a quale costo e con quale ritorno reale. Senza questi dati, ogni discussione sul “modello migliore” resta teorica. Il primo passo non è installare M3. È fare un censimento dell’uso AI in azienda: quali strumenti girano oggi, chi li usa, per cosa, con quali dati e con quali rischi. Solo dopo ha senso decidere se restare su API proprietarie, costruire uno stack ibrido o valutare un open weight in self-hosting. ## Quando vale la pena valutare MiniMax M3 M3 diventa interessante in scenari precisi. Il **coding avanzato**: team che lavorano su repo grandi, refactoring, test, documentazione tecnica e automazioni software. L’**analisi documentale**: il contesto lungo aiuta su manuali, contratti, policy, documentazione ISO, report e knowledge base. L’**automazione agentica**: processi a molti step, con uso di tool, lettura di file e correzione iterativa, più complessi di un normale chatbot. La **privacy**: scenari dove i dati non devono uscire dall’infrastruttura aziendale o europea, con deployment controllati. Il **costo**: se il consumo di token è alto, un modello alternativo o il self-hosting possono ridurre la dipendenza da API costose. Sul costo, però, va fatto il calcolo vero. Non basta confrontare il prezzo al token con quello della GPU. Vanno messi dentro infrastruttura, personale, manutenzione, sicurezza, monitoraggio, downtime, aggiornamenti, ottimizzazione dell’inference e tempo dei senior. Molte valutazioni sul self-hosting sembrano convenienti solo perché ignorano metà dei costi. Il foglio Excel è paziente, la produzione no. ## Cosa verificare prima di fidarsi M3 è promettente, ma ci sono punti aperti da controllare prima di considerarlo una scelta stabile per un’azienda. I **benchmark** sono in gran parte dichiarati da MiniMax o basati su metodologie interne. Non li rende falsi, ma servono test indipendenti e ripetibili. La **disponibilità dei pesi**: MiniMax dice che arriveranno su Hugging Face e GitHub entro pochi giorni dal lancio. Da verificare licenza, dimensioni, requisiti hardware e formati supportati. La **latenza**: un contesto lunghissimo è potente, ma se i tempi di risposta esplodono non è adatto a tutto. L’**integrazione**: per essere utile in azienda deve dialogare con IDE, API, orchestratori, MCP e sistemi documentali esistenti. La **compliance**: per chi opera in Italia o UE, vanno letti bene licenza, trattamento dati, retention e possibilità di deployment controllato. Il **supporto**: in produzione servono documentazione, community, esempi e aggiornamenti affidabili, non solo un modello potente. ## Cosa fare adesso, in concreto Se sei uno sviluppatore, M3 merita un test. Non per buttare gli strumenti di oggi, ma per vedere come si comporta su casi reali: refactoring, generazione test, analisi di un repo, debugging, task da terminale, documentazione, analisi di file lunghi. Il test va fatto su casi concreti, non su prompt generici. Se sei un’azienda, il percorso è più strutturato: 1. **Censimento.** Quali strumenti AI sono già in uso, da chi e con quali dati. 2. **Misurazione.** Volumi, costi, casi d’uso e benefici reali. 3. **Classificazione.** Separa i task: bassa o alta complessità, dati sensibili o no, uso occasionale o ad alto volume, interattivo o batch. 4. **Test controllato.** Prova M3 o simili su uno o due casi aziendali, misurando qualità, costo, tempi e affidabilità. 5. **Decisione architetturale.** Costruisci uno stack modulare, senza legarti a un solo provider. L’ultimo punto è il più importante. Il vantaggio non è inseguire ogni nuovo modello. È costruire processi in cui il modello sia sostituibile. Oggi vince MiniMax su un benchmark, domani Claude su un altro, dopodomani GPT su un altro ancora. Se il tuo workflow dipende da un solo fornitore, ogni mossa del mercato diventa un problema. Con uno stack modulare, cambi modello senza rifare tutto. ## MiniMax M3 e la direzione degli agenti M3 conferma una tendenza più ampia: l’AI si sta spostando dalla risposta alla collaborazione. Prima era “fammi una risposta”. Poi “fammi un contenuto”. Adesso “esegui un task”. La fase verso cui andiamo è “porta avanti un processo”. E per portare avanti un processo servono memoria operativa lunga, lettura di tanto contesto, uso di tool, capacità di correggersi, pianificazione, verifica e interazione con sistemi esterni. M3 punta proprio a questa fase: non un modello per chattare, ma un modello da mettere dentro ambienti agentici. È lì che si gioca buona parte del futuro dell’AI applicata al lavoro. Se vuoi un setup pratico per far girare agenti con modelli diversi, l’ho mostrato nella [guida a Claude Code con Ollama e GLM](https://francescogruner.it/claude-code-ollama-glm-guida-2026/). ## FAQ MiniMax M3 è open source? MiniMax lo presenta come **open weight** e dichiara che pubblicherà i pesi su Hugging Face e GitHub entro pochi giorni dal lancio. Prima di usarlo a scopo commerciale vanno verificati licenza, termini d’uso e requisiti hardware. MiniMax M3 batte GPT, Claude e Gemini? Non in assoluto. Secondo i benchmark pubblicati da MiniMax, M3 ottiene risultati molto competitivi su alcuni test di coding e agentic workflow, ma molti benchmark dipendono da metodologia, condizioni di test e task scelti. Meglio leggerlo come un **forte avvicinamento degli open weight alla frontiera**, non come una vittoria definitiva su tutti i modelli cloud. A cosa serve il contesto da 1 milione di token? Serve a lavorare su grandi quantità di dati in una singola sessione: **repository, documentazione tecnica, contratti, manuali, log, paper e dataset testuali**. Il valore reale però dipende da quanto bene il modello usa quel contesto, non solo dalla sua dimensione. Cos’è l’architettura MSA di MiniMax M3? **MSA**, cioè MiniMax Sparse Attention, è un meccanismo di attenzione sparsa a blocchi. Invece di calcolare l’attenzione su ogni coppia di token, seleziona i blocchi di contesto più rilevanti e lavora solo su quelli. Serve a reggere il contesto lungo con costi molto più bassi. MiniMax M3 si può usare in azienda? Sì, ma va valutato con attenzione. Per molte PMI le API gestite restano più semplici. M3 diventa interessante con **grandi volumi, dati sensibili, automazioni avanzate, coding agentico o necessità di controllo infrastrutturale**. Conviene self-hostare MiniMax M3? Dipende da volumi, costi, privacy e competenze interne. Può convenire per consumi alti o dati sensibili, ma richiede **GPU, monitoraggio, sicurezza e personale qualificato**. Il calcolo va fatto sul costo totale, non solo sul prezzo della GPU. ## Conclusione MiniMax M3 non va raccontato come “il modello che batte tutti”. Sarebbe una lettura comoda e sbagliata. Va raccontato come un segnale forte. Un open weight con 1 milione di token di contesto, multimodalità nativa, coding competitivo e ambizioni agentiche dimostra che la distanza tra modelli chiusi e aperti si sta riducendo. E questo cambia la prospettiva: per dev e aziende non si tratta più di scegliere “quale chatbot uso”, ma di ragionare in termini di stack. Quale modello per quale processo, quale dato può uscire e quale no, dove serve la frontiera e dove basta un open. La direzione più intelligente sarà ibrida. API proprietarie dove serve massima qualità e semplicità, open weight dove servono controllo, volumi e privacy, orchestrazione sopra tutto per non restare bloccati su un fornitore. M3 non risolve tutto. Ma rende evidente una cosa: la frontiera dell’AI non è più un club riservato ai modelli chiusi. E per chi lavora su automazione, sviluppo e consulenza IT, è una notizia da seguire da vicino. Se vuoi i prossimi test sui modelli open e gli agenti prima degli altri, iscriviti alla [newsletter settimanale](https://francescogruner.it). E se hai già provato M3 su un caso reale, raccontamelo nella [community Facebook](https://www.facebook.com/groups/1614848349007261). ## Fonti Per la stesura dell’articolo sono state consultate fonti ufficiali MiniMax relative al rilascio di MiniMax M3, alla scheda tecnica del modello, al contesto da 1 milione di token, all’architettura MSA e ai benchmark dichiarati. [MiniMax Blog ### MiniMax M3 Articolo ufficiale di lancio di MiniMax M3, con panoramica sul modello open weight, contesto da 1 milione di token, architettura MiniMax Sparse Attention, benchmark e scenari d’uso principali. Apri fonte](https://www.minimax.io/blog/minimax-m3) [MiniMax Models ### Scheda modello MiniMax M3 Pagina ufficiale del modello MiniMax M3, utile per verificare caratteristiche tecniche, capacità dichiarate, modalità di accesso, contesto supportato e informazioni operative. Apri fonte](https://www.minimax.io/models/text/m3)