Come usare Gemma 3n in Locale: l’AI Multimodale di Google per Testo, Audio e Immagini

Guida completa a Gemma 3n: il nuovo modello AI open source di Google, leggero, veloce e multimodale. Scopri come installarlo in locale su PC, Raspberry Pi o mobile, senza bisogno di GPU.

Loading the

Scopri come installare e utilizzare Gemma 3n con Hugging Face, Ollama e LM Studio. Funzionalità, multimodalità, trascrizione e chatbot in locale.

Google ha rilasciato ufficialmente Gemma 3n, il suo nuovo modello open source di AI multimodale progettato per girare direttamente su smartphone, laptop e dispositivi edge, anche con risorse limitate.

A differenza di modelli come Gemini, Gemma 3n è destinato alla comunità degli sviluppatori e può essere usato offline, in locale, senza invio dati al cloud.

Supporta input testo, immagini, audio e video, ed è già disponibile su:

Perché Gemma 3n è rilevante

Gemma 3n introduce una nuova generazione di AI locale, multimodale e ottimizzata per dispositivi a bassa potenza. Ecco perché vale la pena provarlo:

Multimodalità nativa
Accetta input testuali, immagini, audio e video, ed è progettato per generare solo output testuali (descrizioni, riassunti, Q&A, trascrizioni).

🧠 Architettura avanzata (MatFormer + PLE)
Attiva dinamicamente solo i parametri necessari, ottimizzando qualità e tempi di risposta. Include anche un modello 2B “nascosto” nel 4B, attivabile secondo necessità.

💾 Efficiente anche con 2 GB di RAM
Grazie a tecnologie come embedding per layer (PLE) e caching locale, funziona anche su dispositivi con risorse limitate (es. E2B).

Performance elevate
Fino a 1.5x più veloce rispetto a Gemma 3 4B su mobile. Ideale per esecuzioni in tempo reale.

🖼️ Vision encoder MobileNet-V5
Elabora immagini e video con maggiore precisione e velocità.

🌐 Supporto multilingua avanzato
Oltre 140 lingue testuali supportate, con prestazioni eccellenti in giapponese, tedesco, spagnolo, francese e coreano.

🔒 Privacy by design
Funziona completamente offline, senza invio dati. Ideale per applicazioni sensibili alla privacy.

🧵 Finestra di contesto estesa
Gestisce fino a 32.000 token per analisi di documenti complessi o input concatenati multimodali.

🏠 Caching intelligente
Riduce il consumo di memoria memorizzando in locale i parametri più usati.

📊 Benchmark superiori
Nei test LMArena e Chatbot Arena, Gemma 3n ha superato modelli come LLaMA 4 Maverick 17B e GPT-4.1-nano.

📱 Compatibilità universale
Può essere eseguito su smartphone, Raspberry Pi, laptop e dispositivi edge con o senza GPU.

Benchmark ufficiali

LMArena Elo Score

Grafico dei punteggi Elo su LMArena di giugno 2025, dove Gemma 3n E4B ottiene 1303 punti, posizionandosi tra Gemini 1.5 Pro e LLaMA 4 Maverick.
Benchmark LMArena – Giugno 2025: Gemma 3n E4B ottiene un punteggio Elo di 1303, seconda solo a Gemini 1.5 Pro e davanti a LLaMA 4 e GPT-4.1-nano.

Chatbot Arena Elo Score

Grafico con i punteggi Elo dei modelli AI nel 2025, dove Gemma 3n raggiunge 1283 punti, superando GPT-4.1-nano e LLaMA 4 Maverick.
Classifica Chatbot Arena – Maggio 2025: Gemma 3n raggiunge un punteggio Elo di 1283, posizionandosi subito dietro a Claude Sonnet e superando modelli più grandi e proprietari.

Come usare Gemma 3n in locale

Ollama (per chi preferisce il terminale)

Come installarlo

Vai su ollama.com/download e scegli la versione per il tuo sistema operativo.

oppure:

curl -fsSL https://ollama.com/install.sh | sh

Scarica il modello

ollama pull gemma3n:e2b   # versione leggera (2GB RAM)
ollama pull gemma3n:e4b   # più potente (3-4GB RAM)

Avvia

ollama run gemma3n:e4b

Scrivi un prompt:

Analizza questo testo e fammi un riassunto in 3 punti.

Fargli leggere un file

📄 File di testo

cat documento.txt | ollama run gemma3n:e4b

📑 PDF

pdftotext documento.pdf - | ollama run gemma3n:e4b

🔉Audio (con Whisper)

whisper audio.mp3 --model base --language it
cat audio.txt | ollama run gemma3n:e4b

🖼️ Immagine (workaround)

  • Converti l’immagine in Base64
  • Incollala nel prompt: “Questa è un’immagine in base64: […]. Cosa rappresenta?”
  • Oppure usa LM Studio (vedi sotto)

Esempi di script Python

Script 1 – Analisi di un file .txt:

from ollama import Client

client = Client()
with open("documento.txt") as f:
    testo = f.read()

response = client.chat(model="gemma3n:e2b", messages=[{"role": "user", "content": testo}])
print(response['message']['content'])

Script 2 – Analisi immagine in base64:

import base64
from ollama import Client

with open("immagine.jpg", "rb") as img:
    img64 = base64.b64encode(img.read()).decode()

prompt = f"Descrivi l'immagine: {img64}"
response = Client().chat(model="gemma3n:e4b", messages=[{"role": "user", "content": prompt}])
print(response['message']['content'])

LM Studio (con interfaccia visuale, anche per immagini/audio)

Perfetto per chi vuole usare modelli localmente senza terminale, drag&drop per file multimediali.

Come si fa:

  1. Scarica LM Studio: lmstudio.ai
  2. Cerca “gemma-3n-e4b”
  3. Clicca “Use Model in LM Studio”
  4. Trascina file audio/immagini o inserisci prompt

Hugging Face (per setup avanzati o esperimenti in Colab)

Esegui su Colab o localmente con bitsandbytes, text-generation-webui, vLLM o Axolotl.

from transformers import AutoTokenizer, AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("google/gemma-3n-e2b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-3n-e2b")

Google AI Studio (per test rapidi senza installazioni)

Se preferisci testare Gemma 3n senza installazioni locali o requisiti hardware, puoi farlo direttamente in cloud grazie a Google AI Studio.
Non serve una GPU e l’accesso è immediato: ti basta un account Google.

👉 Clicca qui per provare Gemma 3n su Google AI Studio

In pochi secondi sarai operativo e potrai sperimentare con prompt testuali, immagini e altro ancora, sfruttando le potenzialità del modello in modalità serverless, gratuita e ufficiale.

Confronti e prestazioni

ModelloParametri effettiviRAM richiestaMultimodalitàFinestra contestoPrivacy
Gemma 3n E2B5B → 2B effettivi2 GB✅ Testo/Audio/Immagini32K token✅ Offline
LLaMA 3 8B8B6-8 GB❌ Solo testo8K-32K
Qwen 4B4B3-4 GBParziale32K
GPT-4o~1.8TCloud-only✅ ma online128K

Chi dovrebbe usare Gemma 3n

Questo modello è pensato per chi desidera il controllo completo, alte performance e flessibilità d’uso anche su dispositivi meno potenti:

  • Ideale per sviluppatori con PC modesti: grazie all’architettura MatFormer e alla memoria ottimizzata (PLE), gira anche su laptop senza GPU.
  • Perfetto per chi vuole privacy e AI offline: eseguibile localmente, senza invio dati a server esterni.
  • Utile per app mobile, embedded e Raspberry Pi: ottimizzato per funzionare su dispositivi con risorse ridotte e sistemi edge.

Documentazione tecnica ufficiale

Conclusione

Gemma 3n rappresenta un punto di svolta per l’intelligenza artificiale in locale, multimodale e responsabile. È pronto per girare su notebook, tablet, smartphone o Raspberry, e offre prestazioni inaspettatamente avanzate, anche senza connessione internet.

Se vuoi un modello per trascrivere audio, riassumere documenti, analizzare immagini e interagire in linguaggio naturale, Gemma 3n è il candidato perfetto da testare nel 2025.

Francesco Gruner
Francesco Gruner

Sono un consulente IT, divulgatore e imprenditore tech. Mi occupo di automazione, AI e gestione di sistemi e infrastrutture IT, cercando soluzioni semplici a problemi complessi. Qui condivido strumenti, esperimenti e idee utili.

Resta aggiornato su AI e Automazione

Un recap con novità sull’AI, casi reali e strumenti che uso ogni giorno.

Lascia una risposta

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *