Ricevi la newsletter
Tool, prompt e workflow AI. Una volta a settimana, gratis.
Sei dentro. Da questa settimana ricevi la newsletter.
MiniMax M2 spiegato semplice: cos’è, quanto costa e come usarlo con Ollama Cloud, OpenRouter e in self-host (vLLM/SGLang). Guida pratica + link e demo DeepSite.

MiniMax M2 è un modello di intelligenza artificiale open-weight (licenza MIT) con architettura Mixture-of-Experts: 230 miliardi di parametri totali, 10 miliardi attivi per token. Nasce per scrivere codice e usare strumenti (terminale, browser, interprete Python) in autonomia. Supporta contesti fino a 200.000 token, è rapido ed economico, e si integra sia via API sia in locale. Se costruisci agenti o assistenti per sviluppatori, è una scelta solida per POC e produzione.
<think>…</think> che deve rimanere nella cronologia. Se lo togli, peggiorano pianificazione e coerenza.Usalo se:
Valuta alternative se:
<think> tra i turni.Ricevi una guida pratica ogni settimana. AI, tool e automazioni.
Indicazioni tipiche API: ~$0,30/M token input, ~$1,20/M token output.
Conta il costo per task (quanto paghi per chiudere il lavoro), non il prezzo “al milione” preso da solo.
Esempio: 120.000 token in + 80.000 token out
Consigli
Riferimenti API: https://platform.minimax.io/docs/guides/pricing#text

Prova lampo da terminale, nessun peso da scaricare.
Comando
ollama run minimax-m2:cloud
Note
echo "Spiegami come risolvere l'errore X" | ollama run minimax-m2:cloud
Pagina modello: https://ollama.com/library/minimax-m2
Pro: parti in 30 secondi.
Contro: meno controllo su latenza/rete; non è un endpoint API “universale”.
Endpoint compatibile OpenAI, perfetto per app, bot, IDE, n8n.
Python
from openai import OpenAI
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="<OPENROUTER_API_KEY>",
)
res = client.chat.completions.create(
model="minimax/minimax-m2:free",
messages=[
{"role":"system","content":"Sei un assistente per coding e tool-use."},
{"role":"user","content":"Scrivi un test che riproduce il bug #123 e proponi la patch."}
],
temperature=1.0,
top_p=0.95
)
print(res.choices[0].message.content)
Curl
curl https://openrouter.ai/api/v1/chat/completions \
-H "Authorization: Bearer $OPENROUTER_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model":"minimax/minimax-m2:free",
"messages":[
{"role":"system","content":"Assistant per coding/agent."},
{"role":"user","content":"Genera un piano passo-passo per correggere il test fallito e preparare la PR."}
],
"temperature":1.0,
"top_p":0.95
}'
Pagina modello: https://openrouter.ai/minimax/minimax-m2:free
Parametri consigliati: temperature 1.0, top_p 0.95, top_k 40 (A/B con 20).
Cruciale: non filtrare <think> quando invii la cronologia del turno successivo.
Pro: integrazione veloce; al momento gratis; throughput/latency buoni.
Contro: la gratuità può cambiare → prevedi fallback a versione paid o self-host.
Pesi e doc
Indicativamente 40–80 GB VRAM a seconda di dtype/quantizzazione/parallelismi.
pip install "vllm>=0.6.0.dev0"
python -m vllm.entrypoints.openai.api_server \
--model MiniMaxAI/MiniMax-M2 \
--dtype auto \
--gpu-memory-utilization 0.9 \
--max-model-len 200000 \
--trust-remote-code
Ottimizzazioni: PagedAttention (default), batching dinamico, KV-cache, FP8/INT8 (quando stabile), tensor/pipeline parallel, speculative decoding (se disponibile).
pip install "sglang>=0.3.0"
sglang serve \
--model MiniMaxAI/MiniMax-M2 \
--context-length 200000 \
--trust-remote-code
Tip: abilita chunk prefill per contesti lunghi e logga la tool-latency (plan → act → verify) per trovare i colli di bottiglia.
Vuoi “giocarci” senza installare nulla e generare codice/front-end al volo?
Usa DeepSite – Vibe Coding: https://huggingface.co/spaces/enzostvs/deepsite

Come fare (2 minuti):
Perché è utile: è il modo più semplice e gratuito per testare MiniMax-M2 su un flusso di coding reale (UI/HTML/CSS/JS) prima di integrarlo nelle tue pipeline.
System (una volta sola)
Sei un agente di sviluppo. Strategia: pianifica → agisci → verifica.
Strumenti: terminale, interprete Python, browser. Log sintetici.
Limiti: massimo 100 comandi; apri PR solo se i test sono verdi.
User
Repo: <URL>
Obiettivo: riprodurre il bug #123, scrivere un test, applicare la patch, rieseguire i test.
Consegna: diff, breve spiegazione tecnica, link alla PR.
Loop tipico
<think>).Non rimuovere
<think>dalla cronologia: serve a mantenere il piano.
<think>. Conservalo (puoi nasconderlo in UI, ma salvalo lato server).Tieni sempre queste 4 metriche:
costo_task = (token_in_tot * prezzo_in/M + token_out_tot * prezzo_out/M) / 1.000.000
Esempio tabella (SWE-bench: 3 issue)
| Task | Esito | Minuti | Token IN | Token OUT | Retry | Costo |
|---|---|---|---|---|---|---|
| 123 | Pass | 18,4 | 121.000 | 84.000 | 2 | 0,13 |
| 77 | Fail | 22,9 | 160.000 | 112.000 | 4 | 0,23 |
| 9 | Pass | 14,6 | 98.000 | 62.000 | 1 | 0,10 |
Medie rapide: pass-rate, tempo medio, costo medio.
Sono i numeri che aiutano davvero a decidere (CTO/CFO).

<think>; usa un vault.È migliore dei modelli proprietari top?
Su tool-use e coding è competitivo; sul ragionamento matematico puro in genere no. Decidi con il costo per task.
Devo davvero conservare <think>?
Sì: MiniMax-M2 è progettato per interleaved thinking. Se lo togli, degradano pianificazione e coerenza.
Supporta MCP e strumenti esterni?
Sì: terminale, browser, Python sono first-class; MCP è uno scenario naturale.
Quanta GPU serve on-prem?
Dipende da dtype/quantizzazione. Con FP8/INT8 e parallelismi puoi ridurre la VRAM, ma verifica sempre la latenza tail rispetto ai tuoi SLO.