Recensione Chatterbox TTS

- Facilità d’uso
- Qualità audio
- Velocità di generazione
- Supporto API
- Lingue supportate
- Clonazione vocale
- Costo/beneficio
3.7/5Punteggio Complessivo
Chatterbox TTS è un server TTS open-source in locale (CPU/GPU) con API stile OpenAI, streaming e voice library. Installazione via Docker; guida completa con frontend Docker e Nginx.
Specifiche
- Linguaggi supportati: 20+ (incluso italiano)
- API: compatibili OpenAI /v1/audio/speech
- Streaming: sì (endpoint dedicato)
- Voice library: upload WAV/MP3, alias, default voice
- Self-hosted: Docker / Docker Desktop (WSL2 su Windows)
- Frontend: statico Nginx (opzionale, pronto per Docker)
- GPU: supporto CUDA; funziona anche solo CPU (più lento)
Pro
- Si installa in Docker e resta on-prem
- API chiare e compatibili OpenAI
- Streaming in tempo reale
- Voice library integrata (upload, alias, default)
- Funziona su GPU consumer (es. RTX 3050 Ti)
- Perfetto per prototipi e test di prodotto
Contro
- Italiano con accento inglese e prosodia da rifinire
- CPU molto lenta per scenari live
- Setup GPU e immagini Docker pesanti da scaricare
- Qualità non ancora da doppiaggio professionale
- RAM/WSL alta al primo warm-up modello

Server TTS auto-hosted con API stile OpenAI, streaming e voice library.
Gira in locale via Docker su CPU/GPU, supporta clonazione voce e modalità streaming. Su GPU è molto più reattivo; in italiano oggi resta un leggero accento, ma è già valido per assistenti, demo e prototipi. Ho pubblicato la guida passo-passo per replicare i test.