Supertonic TTS: voce AI in italiano, locale su Windows e senza API cloud

Negli ultimi anni ci siamo abituati a usare la voce AI quasi sempre nello stesso modo: apri La voce AI non vive solo nel cloud.

Negli ultimi anni abbiamo visto crescere tantissimo i servizi vocali online: ElevenLabs, OpenAI, Gemini, Microsoft e tanti altri. Sono strumenti potenti, spesso molto naturali, e in molti casi restano la scelta migliore quando serve una voce premium, espressiva e pronta per la produzione.

Ma accanto a questi servizi esiste anche un’altra strada: il text-to-speech locale.

Non è una novità assoluta. Esistono già diversi progetti, modelli open-source e motori vocali capaci di generare voce direttamente sul dispositivo. Alcuni funzionano bene, altri sono più sperimentali, altri ancora supportano l’italiano in modo più o meno fluente, ma spesso richiedono configurazioni non proprio immediate.

Supertonic TTS è interessante perché prova a rendere questa strada più pratica: modello relativamente leggero, supporto multilingua, italiano incluso, ONNX Runtime e possibilità di generare audio direttamente dal proprio PC.

Non è il primo TTS locale.

Non è ancora al livello dei migliori servizi cloud per qualità espressiva.

Però nel mio test su Windows ha fatto una cosa molto concreta: ha generato voce AI in italiano in locale, senza API esterne, con un download iniziale di circa 400 MB.

E per renderlo più semplice da provare, ho preparato anche una piccola demo gratuita su GitHub.

Scarica la demo Supertonic Local Demo da GitHub

Indice dei contenuti

Cos’è Supertonic TTS

Supertonic TTS è un motore text-to-speech sviluppato da Supertone Inc.

Il progetto ufficiale è disponibile su GitHub nella repository di Supertone.

In pratica prende un testo e lo trasforma in voce. La differenza interessante è che può farlo direttamente in locale, usando ONNX Runtime, senza obbligarti a passare ogni volta da un servizio cloud.

Questo lo rende interessante per chi vuole sperimentare con applicazioni vocali più controllabili, leggere e integrabili in workflow locali.

Supertonic non va interpretato come “il killer di ElevenLabs” o “il sostituto definitivo dei TTS cloud”.

Sarebbe una lettura sbagliata.

Va visto piuttosto come un tassello utile dentro un panorama più ampio: quello dei modelli vocali locali, dove contano molto peso del modello, semplicità di installazione, lingue supportate, latenza e possibilità di integrazione.

Perché Supertonic è interessante

La cosa interessante di Supertonic non è semplicemente che “genera voce”.

Quello lo fanno già molti strumenti.

Il punto è che prova a combinare alcune caratteristiche molto pratiche:

→ gira in locale
→ supporta più lingue, incluso l’italiano
→ usa ONNX Runtime
→ non richiede necessariamente una GPU dedicata
→ pesa relativamente poco
→ può essere integrato in demo, tool e prototipi vocali
→ non richiede chiamate API per ogni generazione

Questo lo rende adatto a chi vuole provare il TTS locale senza dover scaricare modelli enormi o configurare ambienti troppo complessi.

Ed è proprio qui che secondo me diventa interessante.

Non perché sia l’unico.

Ma perché è abbastanza semplice da testare e abbastanza leggero da non scoraggiare subito chi vuole sperimentare.

Ti sta piacendo?

Ricevi una guida pratica ogni settimana. AI, tool e automazioni.

Quanto pesa Supertonic?

Nel mio test su Windows, il primo download dei modelli è stato di circa 400 MB.

Per capirci: meno di molti video Full HD da 15-20 minuti esportati per YouTube.

Non è “zero”, ovviamente. Ma rispetto a tanti modelli AI locali che richiedono diversi GB di download, GPU dedicata, CUDA, driver specifici e configurazioni più delicate, è un peso molto gestibile.

Supertonic 3 viene presentato come un modello da circa 99 milioni di parametri, quindi si colloca in una fascia interessante: abbastanza piccolo da essere pratico per test locali e integrazioni leggere, ma comunque capace di generare una voce utilizzabile anche in italiano.

Questa è una delle cose che mi ha colpito di più.

Non ho dovuto configurare CUDA.

Non ho dovuto litigare con driver NVIDIA.

Non ho dovuto scaricare decine di GB.

Ho creato un ambiente Python, installato le dipendenze, avviato una piccola interfaccia e generato audio.

Per una demo locale, è già un buon risultato.

Supertonic supporta tante lingue, incluso l’italiano

Altro punto importante: Supertonic non è limitato all’inglese.

La versione Supertonic 3 supporta molte lingue, tra cui anche:

→ italiano
→ inglese
→ spagnolo
→ francese
→ tedesco
→ portoghese
→ giapponese
→ coreano
→ arabo
→ olandese
→ polacco
→ svedese
→ turco
→ ucraino
→ vietnamita

Questo è un dettaglio fondamentale.

Molti progetti vocali locali sono interessanti in inglese, ma diventano molto meno utili quando si prova a usarli in italiano. Qui invece l’italiano è supportato e, nel mio test, il risultato è stato più che utilizzabile.

Non perfetto.

Non premium.

Ma valido.

Qualità della voce italiana: buona, ma non ancora al livello dei big

La qualità della voce in italiano mi ha sorpreso positivamente.

Detto questo, bisogna essere onesti: non siamo ancora ai livelli dei migliori servizi cloud come OpenAI, Gemini o ElevenLabs.

La differenza si sente soprattutto su:

→ naturalezza
→ espressività
→ controllo emotivo
→ intonazione
→ resa “broadcast”
→ qualità percepita su testi lunghi

I servizi cloud migliori oggi restano superiori quando serve una voce molto naturale, emozionale o pronta per contenuti professionali di alto livello.

Però Supertonic ha un altro tipo di vantaggio.

Gira in locale.

Pesa poco.

Non richiede una GPU enorme.

Non manda il testo a un servizio esterno.

E per molti casi d’uso questo può pesare più della perfezione vocale.

Esempio di test in italiano

Ho provato una frase semplice come questa:

Ciao, questo è un test vocale in italiano generato localmente con Supertonic. La qualità non è ancora al livello dei migliori servizi cloud, ma per un TTS locale leggero il risultato è davvero interessante.

Il risultato è stato comprensibile, pulito e utilizzabile.

Ascolta il risultato generato in locale

Non lo userei ancora per uno spot pubblicitario o per una voce narrante premium, ma lo vedo già adatto per:

→ demo tecniche
→ tool interni
→ lettura automatica di testi
→ notifiche vocali
→ prototipi di voicebot
→ assistenti locali
→ applicazioni dove privacy, costo e controllo contano più della voce perfetta

In sintesi: Supertonic non vince oggi sulla qualità assoluta, ma è molto interessante nel rapporto tra qualità, leggerezza e controllo locale.

Cosa cambia rispetto a ElevenLabs, OpenAI o Gemini

Supertonic non va confrontato con ElevenLabs, OpenAI o Gemini solo sul piano della qualità vocale.

Se il confronto è: “qual è la voce più naturale e pronta per un contenuto professionale?”, oggi probabilmente vincono ancora i servizi cloud premium.

Ma se il confronto diventa:

→ posso generare voce in locale?
→ posso evitare chiamate API per ogni frase?
→ posso fare test offline o semi-offline?
→ posso integrarlo in una demo locale?
→ posso ridurre costi a consumo?
→ posso usarlo in un piccolo tool interno?

allora Supertonic diventa molto più interessante.

La sua forza non è essere “il più bello”.

La sua forza è essere pratico, leggero e locale.

Il mio test su Windows

Per provarlo ho fatto un test molto semplice su Windows.

L’obiettivo non era costruire un prodotto completo, ma capire quanto fosse difficile avviare una piccola interfaccia locale per generare audio.

Il flusso è stato questo:

→ creo una cartella di progetto
→ creo un ambiente virtuale Python
→ installo Supertonic e Gradio
→ preparo una piccola interfaccia web
→ scrivo il testo
→ scelgo lingua e voce
→ genero il file WAV

Il pannello gira in locale e si apre dal browser su:

http://127.0.0.1:7860

Al primo avvio Supertonic scarica i modelli. Nel mio caso il download è stato di circa 400 MB.

Dopo quel primo passaggio, la generazione avviene direttamente dal PC.

La demo gratuita che ho preparato

Per evitare di lasciare tutto alla teoria, ho preparato una piccola demo pronta da scaricare.

Non è un prodotto finito e non vuole esserlo.

È semplicemente un punto di partenza per provare Supertonic TTS in modo più comodo, con una piccola interfaccia web locale basata su Gradio.

Interfaccia web locale di Supertonic TTS su Windows per generare voce AI in italiano con Gradio

La demo è disponibile qui:

Scarica Supertonic Local Demo da GitHub

Con questa demo puoi:

→ scrivere un testo
→ scegliere la lingua
→ scegliere una voce preset
→ generare audio WAV
→ ascoltarlo direttamente dal browser
→ usare tutto in locale sul tuo PC

L’ho pensata soprattutto per chi vuole testare rapidamente il progetto senza partire da zero.

Come installare la demo su Windows

Serve Python installato sul PC.

Una volta pronta la cartella, puoi creare un ambiente virtuale dedicato:

mkdir C:\AI\supertonic-local-demo
cd C:\AI\supertonic-local-demo
python -m venv .venv
.\.venv\Scripts\activate

Poi cloni la repo:

git clone https://github.com/francescogruner/supertonic-local-demo.git .

Installi le dipendenze:

pip install -r requirements.txt

Avvii il pannello:

python app.py

A quel punto apri il browser su:

http://127.0.0.1:7860

Se tutto è andato bene, vedrai un piccolo pannello locale per generare audio.

Problemi comuni durante l’installazione

Durante il test mi sono imbattuto in un paio di errori classici.

Il primo riguarda winget.

Se PowerShell mostra:

winget : Termine 'winget' non riconosciuto

non è un problema di Supertonic.

Vuol dire solo che Windows Package Manager non è disponibile o non è configurato correttamente.

La soluzione più semplice è installare Python manualmente dal sito ufficiale e ricordarsi di abilitare l’opzione:

Add Python to PATH

Il secondo errore riguarda PowerShell.

Il codice Python non va incollato direttamente dentro PowerShell.

Va salvato in un file .py, ad esempio:

app.py

e poi avviato con:

python app.py

Sembra una banalità, ma quando si fanno test veloci è facile mischiare snippet, terminale e file. E a quel punto Python e PowerShell iniziano una bellissima collaborazione per farti perdere tempo.

Supertonic è realtime?

Dipende da cosa intendiamo per realtime.

Supertonic da solo non è un assistente vocale completo. Non ascolta il microfono, non trascrive, non ragiona e non risponde come ChatGPT.

Supertonic fa una cosa precisa:

testo → voce

Per creare un assistente vocale completo servirebbe una pipeline di questo tipo:

microfono
→ speech-to-text
→ modello AI
→ Supertonic TTS
→ audio in uscita

Quindi Supertonic può diventare il modulo finale della catena, quello che trasforma la risposta testuale dell’AI in voce.

Per esempio si potrebbe combinare con:

→ Whisper o faster-whisper per la trascrizione
→ Ollama, OpenAI, Claude o altri modelli per la risposta
→ LiveKit per la parte WebRTC e audio realtime
→ Supertonic per generare la voce localmente

In questo scenario Supertonic non sostituisce tutto il sistema vocale, ma può sostituire la parte TTS cloud.

E la clonazione vocale?

Qui bisogna essere chiari.

La demo che ho preparato usa le voci preset disponibili con Supertonic.

Non è un clone locale completo di ElevenLabs e non va presentata come sistema di clonazione vocale avanzata.

Supertone parla anche di strumenti legati alla creazione di voci personalizzate, ma la demo pubblica che ho preparato resta volutamente semplice:

→ testo
→ lingua
→ voce preset
→ file WAV

Questo la rende più riproducibile, più stabile e più adatta a un test tecnico.

Se in futuro la parte di voice cloning sarà più accessibile anche in locale, allora sarà interessante fare un secondo esperimento.

Dove può essere utile Supertonic TTS

Secondo me Supertonic può essere interessante in diversi scenari.

Non solo per “fare una voce carina”.

Lo vedo utile per:

→ tool locali per leggere articoli o documenti
→ assistenti vocali privati
→ applicazioni desktop con output vocale
→ prototipi di voicebot
→ sistemi embedded
→ estensioni browser
→ app offline
→ demo con LiveKit
→ interfacce vocali per agenti AI
→ ambienti aziendali dove non si vuole inviare testo a servizi esterni

Per un creator tecnico, è anche un bel punto di partenza per costruire una demo più avanzata: per esempio un assistente vocale locale, un lettore di articoli, un generatore audio per newsletter, o un piccolo pannello TTS da usare nei workflow quotidiani.

Limiti attuali

Ovviamente non è tutto perfetto.

Supertonic è interessante, ma ci sono alcuni limiti da tenere presenti:

→ non è un assistente vocale completo
→ non fa speech-to-text
→ non ragiona, non usa LLM, non risponde da solo
→ la demo non include clonazione vocale
→ la qualità espressiva non è ancora al livello dei migliori servizi cloud premium
→ serve comunque un minimo di familiarità con Python

Quindi il modo corretto di leggerlo è questo:

Supertonic non è il prodotto finale. È un motore TTS locale da integrare in prodotti, demo e workflow più grandi.

Conclusione

Supertonic mi ha colpito perché rappresenta bene una direzione che vedremo sempre di più: AI vocali più leggere, locali, integrabili e meno dipendenti dal cloud.

Non è il primo TTS locale.

Non è ancora il migliore in assoluto per qualità vocale.

Ma è pratico, abbastanza leggero, multilingua, utilizzabile anche in italiano e semplice da provare rispetto a molte altre soluzioni locali.

Il fatto che nel mio test abbia scaricato circa 400 MB di modelli, cioè meno di molti video Full HD esportati per YouTube, lo rende molto più accessibile rispetto a tanti esperimenti AI locali che richiedono diversi GB e configurazioni più pesanti.

La qualità della voce italiana non è ancora al livello di OpenAI, Gemini o ElevenLabs, ma è già abbastanza valida per demo, tool interni, assistenti locali e prototipi vocali.

Per questo ho preparato una piccola demo pronta da provare:

Scarica Supertonic Local Demo da GitHub

Non è un prodotto finito, ma è un ottimo punto di partenza per capire dove sta andando una parte importante dell’AI vocale: meno cloud obbligatorio, più controllo locale, più integrazione nei propri strumenti.

Nuovo su Google

Aggiungi francescogruner.it come fonte preferita

Se leggi spesso i miei articoli su AI, automazione e tecnologia, ora puoi dire a Google che vuoi vedere più spesso i contenuti di francescogruner.it tra le notizie.