Claude Opus 4.8: Claude Code ora lavora con subagenti paralleli

La notizia non è che Claude Opus 4.8 va meglio nei benchmark.

Quella è la parte più facile da raccontare.

La notizia vera è un’altra: con Opus 4.8, Anthropic sta trasformando Claude Code da semplice assistente per programmare a un ambiente di lavoro agentico, capace di gestire task lunghi, complessi e distribuiti su più subagenti.

In pratica, Claude non si limita più a rispondere o modificare un file. Può pianificare un lavoro, dividerlo in sotto-attività, lanciare agenti paralleli, verificare i risultati e continuare il task per ore o giorni.

È qui che l’aggiornamento diventa interessante.

Non tanto perché Opus 4.8 “batte” altri modelli su alcune metriche, ma perché mostra dove sta andando il mercato: meno chatbot, più sistemi agentici persistenti.

Video ufficiale di Anthropic

Anthropic ha pubblicato anche un video ufficiale di presentazione di Claude Opus 4.8 e dei nuovi workflow dinamici in Claude Code.

È utile perché fa capire bene il posizionamento del modello: non solo prestazioni migliori, ma soprattutto agentic workflow, orchestrazione e lavoro persistente.

Indice dei contenuti

I benchmark di Claude Opus 4.8: buoni, ma non raccontano tutto

Partiamo dai numeri, così togliamo subito il dente.

Tabella benchmark che confronta Claude Opus 4.8 con Opus 4.7, GPT-5.5 e Gemini 3.1 Pro su coding agentico, terminal coding, reasoning, computer use, knowledge work e analisi finanziaria

La tabella dice una cosa abbastanza chiara: Opus 4.8 migliora quasi ovunque rispetto a Opus 4.7.

È davanti su coding agentico, uso del computer, knowledge work, reasoning con strumenti e analisi finanziaria agentica.

Attenzione però: non vince su tutto.

Nel benchmark di terminal coding, GPT-5.5 resta sopra: 78,2% contro il 74,6% di Opus 4.8.

E questo, secondo me, rende il dato più credibile. Opus 4.8 non è “il migliore in assoluto su qualsiasi cosa”. È un modello chiaramente ottimizzato per una direzione precisa: workflow agentici lunghi, verificati e più autonomi. La tua bozza originale centra già questo punto, distinguendo bene benchmark e impatto reale su Claude Code.

La vera novità: i workflow dinamici in Claude Code

La parte più interessante dell’annuncio non è il modello da solo.

È quello che Anthropic ha lanciato insieme al modello: i workflow dinamici dentro Claude Code.

I workflow dinamici permettono a Claude di prendere un task complesso, dividerlo in parti più piccole e assegnarle a più subagenti che lavorano in parallelo.

In pratica, Claude può:

analizzare il prompt iniziale;
creare un piano di lavoro;
spezzare il task in sotto-attività;
lanciare decine o centinaia di subagenti;
coordinare i risultati;
verificare il lavoro prima di consegnarlo;
riprendere il task anche dopo un’interruzione.

Questo cambia parecchio il modo in cui si usa Claude Code.

Non stiamo più parlando solo di “scrivimi questa funzione” o “correggimi questo bug”.

Stiamo parlando di task tipo:

migrare una codebase complessa;
rifattorizzare centinaia di file;
portare un progetto da un linguaggio a un altro;
analizzare un repository molto grande;
eseguire test, correggere errori e riprovare;
far lavorare più agenti con ruoli diversi sullo stesso obiettivo.

Il punto non è solo che Claude diventa più bravo.

Il punto è che ora ha un’impalcatura migliore per reggere lavori lunghi.

Ti sta piacendo?

Ricevi una guida pratica ogni settimana. AI, tool e automazioni.

Non è più solo una chat per programmare

Questa è la parte da capire bene.

Una normale sessione con un assistente AI funziona più o meno così: tu chiedi, il modello risponde, tu verifichi, poi gli chiedi il passo successivo.

È utile, ma resta un lavoro molto guidato.

Con i workflow dinamici, invece, Claude Code prova a spostarsi verso un modello diverso: tu definisci l’obiettivo, e il sistema organizza il lavoro per arrivarci.

Aspetto	Sessione classica	Workflow dinamico
Scala del lavoro	File singolo o task circoscritto	Repository grandi e attività multi-step
Numero di agenti	Un agente principale	Più subagenti in parallelo
Durata	Minuti	Ore o giorni
Verifica	Spesso manuale	Più controlli interni tra agenti
Ripresa del lavoro	Spesso bisogna ricostruire il contesto	Il workflow può riprendere da dove si era fermato
Consumo token	Più prevedibile	Molto più alto

In pratica, Claude Code somiglia sempre meno a una chat per programmare e sempre di più a un ambiente operativo per gestire lavoro tecnico complesso.

Ed è qui che Opus 4.8 diventa interessante per sviluppatori, consulenti IT, team DevOps e aziende che stanno iniziando a usare agenti AI su processi reali.

Il caso Bun: da Zig a Rust con workflow agentici

L’esempio più forte citato da Anthropic riguarda Bun, il runtime JavaScript creato da Jarred Sumner.

Secondo Anthropic, i workflow dinamici sono stati usati per portare una parte enorme del codice di Bun da Zig a Rust.

Il risultato dichiarato è notevole:

circa 750.000 righe di codice Rust generate;
99,8% della test suite esistente superata;
11 giorni dal primo commit al merge;
centinaia di agenti usati in parallelo;
più passaggi di revisione sui file generati.

Qui bisogna stare attenti a non trasformare tutto in magia.

Non significa che da domani ogni azienda può premere un bottone e migrare un gestionale legacy senza problemi.

Significa però una cosa concreta: task che prima richiedevano settimane o mesi di lavoro coordinato possono iniziare a essere affrontati con una struttura agentica più seria.

Non è ancora autonomia totale.

È più realistico leggerlo così: Claude Code può diventare un acceleratore molto forte quando il lavoro è grande, ripetitivo, verificabile e supportato da test.

Il punto critico: Claude deve ammettere quando non ha finito

C’è una parte dell’annuncio che secondo me è più importante di molti benchmark: Anthropic parla di maggiore honesty del modello.

Tradotto in modo semplice: Claude Opus 4.8 dovrebbe essere meno propenso a dichiarare concluso un lavoro quando in realtà non lo è.

Questo è un problema enorme negli agenti AI.

Chi li usa davvero lo sa: il fastidio non è solo quando sbagliano codice. Il fastidio è quando dicono “fatto”, ma non hanno eseguito i test, non hanno verificato un file, hanno saltato un errore o hanno interpretato male il risultato.

Su un prompt singolo, te ne accorgi abbastanza in fretta.

Su un workflow lungo, distribuito su decine o centinaia di subagenti, il problema diventa molto più serio.

Se un agente lavora per ore e poi ti consegna un risultato apparentemente coerente ma non verificato, il rischio operativo aumenta.

Per questo la parte sull’honesty è centrale.

Un modello agentico utile non deve solo produrre output. Deve anche sapere dire:

non ho finito;
questo test non passa;
questa parte non è verificata;
qui serve intervento umano;
questo risultato è incerto.

È meno spettacolare da raccontare rispetto a “centinaia di agenti in parallelo”, ma per l’uso professionale conta tantissimo.

Agent View: controllare più sessioni senza impazzire

Insieme ai workflow dinamici arriva anche Agent View, una vista pensata per monitorare più agenti e più sessioni in parallelo.

È una novità meno appariscente, ma molto coerente con la direzione del prodotto.

Se Claude Code può lanciare molti subagenti e farli lavorare per ore, serve anche un modo per capire cosa sta succedendo.

Non puoi gestire tutto guardando un terminale alla volta.

Agent View serve proprio a questo: dare una vista più chiara sui lavori in corso, sugli agenti attivi e sullo stato delle attività.

È un altro segnale del passaggio da “chat AI” ad ambiente di orchestrazione.

Fast mode, effort e costi: il vero limite resta il consumo

Opus 4.8 introduce anche una modalità Fast, pensata per ottenere risposte più rapide.

Secondo i dati comunicati da Anthropic, la modalità Fast è circa 2,5 volte più veloce, ma costa di più rispetto alla modalità standard.

Il prezzo standard resta a 5 dollari per milione di token in input e 25 dollari per milione di token in output.

La modalità Fast sale a 10 dollari per milione di token in input e 50 dollari per milione di token in output.

In pratica: vai più veloce, ma paghi di più.

E qui arriva il punto più importante per chi vuole usare davvero questi strumenti.

I workflow dinamici consumano molti più token di una normale sessione. Non è una funzione da usare per qualsiasi modifica banale.

Se devi sistemare una funzione piccola, probabilmente è overkill.

Se invece devi affrontare una migrazione complessa, una codebase enorme, un refactoring massivo o un’attività verificabile con test automatici, allora inizia ad avere senso.

Anthropic sta aggiungendo anche controlli sull’effort, cioè su quanto il modello deve “pensare” e quanto deve spingere sul ragionamento.

È un dettaglio importante perché il futuro degli agenti AI non sarà solo una questione di intelligenza.

Sarà anche una questione di sostenibilità economica.

Un agente che lavora per giorni può essere utilissimo. Ma se costa troppo, resta un giocattolo per pochi casi eccezionali.

Quando ha senso usare i workflow dinamici

I workflow dinamici non sono la risposta giusta per tutto.

Hanno senso quando il lavoro è grande, divisibile, verificabile e abbastanza ripetitivo.

Esempi concreti:

migrazione di codice da un framework a un altro;
refactoring di molte parti simili di una codebase;
analisi di repository molto grandi;
creazione o aggiornamento massivo di test;
normalizzazione di pattern di codice;
controllo di regressioni su tante componenti;
porting di moduli da un linguaggio a un altro.

Hanno meno senso, invece, per attività piccole o molto ambigue.

Se il task non è verificabile, se non hai test, se non sai bene quale risultato vuoi ottenere, l’agente rischia di correre tanto ma nella direzione sbagliata.

È il classico problema dell’automazione: prima devi rendere chiaro il processo, poi puoi automatizzarlo.

Altrimenti hai solo un errore più veloce.

Non è solo Anthropic: il mercato va verso agenti persistenti

La cosa interessante è che Anthropic non si sta muovendo da sola.

Negli ultimi mesi stanno emergendo sempre più strumenti che vanno nella stessa direzione: ambienti AI persistenti, sistemi multi-agente, agenti che lavorano in background e interfacce dove l’AI non si limita più a rispondere in chat.

Progetti come AionUi, Hermes Agent, OpenHands, Manus e altri strumenti simili raccontano tutti la stessa storia.

Il mercato si sta spostando da:

chatbot che rispondono;
copilot che suggeriscono codice;
strumenti AI usati a singoli prompt;

a sistemi che:

mantengono stato;
usano strumenti esterni;
leggono e modificano file;
coordinano più agenti;
continuano un lavoro nel tempo;
provano a verificare il risultato.

È probabilmente questa la direzione più importante per il 2026.

Non modelli usati solo per “chattare meglio”, ma agenti AI inseriti dentro workflow reali.

Ed è anche il motivo per cui Opus 4.8 va letto insieme a Claude Code, non come semplice modello isolato.

Come provare Claude Opus 4.8 e i workflow dinamici

Se usi Claude Code, i workflow dinamici sono disponibili in research preview su CLI, app desktop ed estensione VS Code, in base al piano e alle impostazioni dell’account.

Il modo più semplice per iniziare è partire da un task piccolo ma reale.

Non partire subito con “migra tutto il repository”.

Meglio iniziare con qualcosa tipo:

analizza questa cartella e trova pattern duplicati;
crea un piano di refactoring;
applica la modifica solo a un modulo;
esegui i test;
mostrami cosa hai cambiato e cosa non sei riuscito a verificare.

Questo ti permette di capire tre cose fondamentali:

quanto consuma;
quanto è affidabile sul tuo progetto;
quanto riesce davvero a verificare prima di consegnare.

Il consiglio pratico è semplice: usa i workflow dinamici dove hai test, vincoli chiari e un obiettivo misurabile.

Se il progetto è caotico, senza test e senza documentazione, l’agente può aiutarti, ma non aspettarti miracoli.

Prima metti ordine. Poi fai correre gli agenti.

Se vuoi approfondire l’uso di Claude Code con modelli alternativi e workflow più tecnici, ho già scritto una guida dedicata a Claude Code con Ollama e GLM.

Inoltre, se ti interessa il tema degli agenti accessibili da interfacce diverse dalla classica chat, puoi leggere anche la guida su OpenClaw e agenti AI su WhatsApp.

FAQ su Claude Opus 4.8

Cos’è Claude Opus 4.8?

Claude Opus 4.8 è il modello AI di punta di Anthropic successivo a Opus 4.7. Migliora diversi benchmark legati a coding agentico, uso del computer, reasoning e knowledge work, ma la parte più interessante è l’integrazione con i workflow dinamici in Claude Code.

Cosa sono i workflow dinamici di Claude Code?

I workflow dinamici sono una funzione di Claude Code che permette a Claude di pianificare task complessi, dividerli in sotto-attività e far lavorare più subagenti in parallelo per completare lavori lunghi e verificabili.

Claude Opus 4.8 è migliore di GPT-5.5?

Dipende dal benchmark e dal tipo di lavoro.

Opus 4.8 risulta più forte in diverse metriche agentiche, ma su Terminal-Bench 2.1 GPT-5.5 resta davanti. Il punto forte di Opus 4.8 è soprattutto l’integrazione con Claude Code e i workflow persistenti.

I workflow dinamici consumano molti token?

Sì. I workflow dinamici possono consumare molti più token rispetto a una normale sessione, perché coinvolgono più subagenti, più verifiche e task più lunghi.

Conviene usarli su attività dove il valore del risultato giustifica il costo.

Quando conviene usare i workflow dinamici?

Conviene usarli su migrazioni, refactoring importanti, repository grandi, generazione di test, analisi massiva di codice e attività tecniche divisibili in sotto-task.

Sono meno adatti a modifiche piccole o richieste molto vaghe.

Claude Code sostituisce uno sviluppatore?

No.

Claude Code può accelerare molto alcune attività, ma ha ancora bisogno di supervisione, test, review e obiettivi chiari.

È più corretto vederlo come un ambiente agentico di supporto al lavoro tecnico, non come un sostituto completo.

Conclusione: Opus 4.8 non è solo un upgrade di modello

Claude Opus 4.8 non va letto solo come “il nuovo modello di Anthropic”.

Il miglioramento dei benchmark c’è, ma non è la parte più importante.

La vera novità è che Claude Code sta diventando sempre meno una chat per programmare e sempre più un ambiente operativo per far lavorare agenti AI su task lunghi, complessi e verificabili.

Workflow dinamici, subagenti paralleli, Agent View, controllo dell’effort, modalità Fast e maggiore attenzione all’honesty del modello vanno tutti nella stessa direzione.

Non basta più generare codice.

Bisogna pianificare, coordinare, verificare, riprendere il lavoro e sapere dire quando qualcosa non è stato completato.

Questo è il passaggio interessante.

Attenzione però: tutto questo ha un costo. Più agenti, più verifiche e più autonomia significano anche più token, più compute e più necessità di controllo.

Per attività piccole, probabilmente è troppo.

Per migrazioni, refactoring importanti e codebase complesse, invece, può diventare uno degli aggiornamenti più interessanti di Claude Code.

La partita dei prossimi mesi non sarà solo chi ha il modello più intelligente.

Sarà chi riesce a trasformare quell’intelligenza in lavoro reale, controllabile e sostenibile.

Se vuoi seguire i prossimi test su Claude Code, agenti AI, workflow dinamici e strumenti per automatizzare davvero il lavoro tecnico, puoi iscriverti alla newsletter settimanale.

Parlo di questi temi anche sul mio canale YouTube: Francesco Gruner su YouTube.

Fonti

Anthropic: Introducing Claude Opus 4.8

Claude: Introducing dynamic workflows in Claude Code

Nuovo su Google

Aggiungi francescogruner.it come fonte preferita

Se leggi spesso i miei articoli su AI, automazione e tecnologia, ora puoi dire a Google che vuoi vedere più spesso i contenuti di francescogruner.it tra le notizie.