Un modello quantizzato è una versione compressa di un modello AI che occupa meno memoria senza perdere troppa qualità. Combinato con architetture MoE, permette di far girare modelli potenti anche su PC con hardware normale — e la direzione è chiara: costo zero, privacy totale, sempre più accessibile.
I modelli AI richiedono hardware che la maggior parte delle persone non ha
Chiunque abbia provato a far girare un modello AI in locale si è trovato davanti allo stesso muro: i requisiti hardware sono proibitivi. Un modello da 7 miliardi di parametri nella sua versione originale richiede almeno 14 GB di VRAM dedicata. Uno da 30 miliardi ne vuole 60. Numeri che escludono la stragrande maggioranza dei PC consumer.
Non è un problema di architettura o di qualità del modello. È un problema di peso. I modelli vengono addestrati con parametri salvati in alta precisione — tipicamente a 16 o 32 bit per valore. Questo garantisce la massima qualità, ma rende i file enormi e le richieste hardware fuori portata per la maggior parte delle persone.
Il risultato pratico è che chiunque voglia usare AI in locale senza spendere migliaia di euro in hardware si trova con poche opzioni. O si accontenta di modelli molto piccoli, spesso troppo limitati per uso reale, o rinuncia all’idea e torna alle API cloud. Ma esiste una terza strada — ed è la quantizzazione.
Cos'è la quantizzazione e perché ti interessa
La quantizzazione è il processo che riduce la precisione numerica con cui vengono salvati i parametri di un modello. In pratica: invece di usare 16 bit per rappresentare ogni valore, si usano 8, 4 o anche 3 bit.
Il risultato è immediato: il modello pesa meno. Un modello da 30B parametri in 16 bit occupa circa 60 GB. Lo stesso modello quantizzato a 4 bit ne occupa circa 15. A 3 bit scende ancora, intorno agli 11-12 GB. Non si cambia il modello — si cambia solo la precisione con cui è scritto.
L’inevitabile domanda è: si perde qualità? La risposta onesta è sì, ma meno di quanto si pensi. A Q4 la differenza rispetto alla versione originale è quasi impercettibile per uso quotidiano — testi, domande, analisi. Scendendo a Q3 la perdita inizia a notarsi su ragionamenti complessi. Sotto Q3 il degrado diventa evidente. La via di mezzo consigliata per la maggior parte degli utenti è Q4 o Q3 — ottimo rapporto tra qualità e peso.
Se vuoi capire meglio come funzionano i modelli linguistici alla base, puoi leggere [ANCHOR: Cos’è un LLM (spiegato semplice)].
VRAM o RAM: cosa serve davvero e perché
Quando si parla di modelli in locale, il componente critico non è la RAM del computer ma la VRAM — la memoria integrata nella scheda grafica. La distinzione è importante perché i due tipi di memoria non sono intercambiabili in termini di prestazioni.
La VRAM è progettata per operazioni parallele massive e ha una banda passante enormemente superiore rispetto alla RAM standard. Un modello che gira interamente in VRAM risponde in pochi secondi. Lo stesso modello che finisce parzialmente in RAM rallenta in modo drastico — a volte di 10-20 volte.
La VRAM dedicata (quella di una GPU Nvidia o AMD separata) è sempre preferibile alla RAM condivisa, cioè quella usata dalle GPU integrate come quelle presenti nei chip Apple Silicon o negli Intel con grafica integrata. La RAM condivisa funziona, ma deve dividersi la banda con il resto del sistema, riducendo la velocità di inferenza.
In pratica: se hai 16 GB di VRAM dedicata puoi far girare bene modelli Q4 fino a 13B parametri senza problemi. Con RAM condivisa da 24 o 32 GB hai più spazio totale, ma le prestazioni saranno inferiori rispetto a una GPU dedicata equivalente.
MoE + quantizzazione: la combo che cambia tutto
La quantizzazione da sola è già utile. Ma combinata con un’architettura MoE (Mixture of Experts) diventa qualcosa di diverso — e molto più interessante per chi vuole fare AI in locale su hardware normale.
Un modello MoE ha un numero elevato di parametri totali, ma durante l’inferenza ne attiva solo una frazione. Il modello Qwen2.5 30B-A3B è l’esempio perfetto: 30 miliardi di parametri totali, ma solo 3 miliardi attivi per ogni risposta. La sigla A3B significa esattamente questo — Active 3 Billion.
Cosa significa in pratica? Che il modello nella sua versione originale — già MoE, quindi già più leggero di un denso equivalente — occupa circa 12-15 GB di VRAM. Un numero fattibile ma ancora fuori portata per molti. Applicando la quantizzazione sopra questa architettura, i numeri diventano molto più gestibili:
- Q4: circa 8-9 GB — entra su qualsiasi GPU con 12 GB di VRAM dedicata o PC con 16 GB di RAM condivisa
- Q3: circa 6-7 GB — Gira su 12 GB di RAM condivisa, ottimo su 16 GB+. Qualità alta con peso contenuto
- Q2: circa 4-5 GB — gira quasi ovunque ma il degrado qualitativo è percepibile
La logica è semplice: più RAM hai, più comodamente gira. Con 32 GB di RAM condivisa Qwen 30B-A3B a Q3 gira senza problemi. Con 24 GB è fattibile con qualche margine. Con 16 GB si può provare a Q3, ma il sistema operativo compete per la memoria e le prestazioni ne risentono.
Questo vale naturalmente solo per modelli open weight [tooltip: modelli AI i cui parametri interni sono pubblicamente disponibili e scaricabili da chiunque]. Modelli come Claude o GPT-5.4 [tooltip: modelli frontier: i modelli AI più avanzati disponibili, sviluppati da grandi aziende come Anthropic e OpenAI, accessibili solo via API o interfacce ufficiali] non possono girare in locale perché i loro pesi non vengono rilasciati pubblicamente. Per capire meglio questa distinzione puoi leggere Modelli proprietari vs open weight: cosa cambia davvero.
Come usarlo in pratica: Ollama e le alternative
Non tutti hanno hardware sufficiente per far girare modelli in locale. Se il tuo PC non riesce a gestire nemmeno i modelli più leggeri, o se vuoi accedere a modelli più potenti senza acquistare hardware, OpenRouter è l’alternativa più pratica.
OpenRouter aggrega decine di modelli AI (inclusi molti open weight) accessibili via API con un unico account. Molti sono disponibili gratuitamente, anche se con alcune limitazioni. Non è la soluzione definitiva per chi vuole privacy totale e costo zero, ma è un’ottima via di mezzo per chi vuole testare modelli potenti senza investimento hardware. Puoi approfondire qui: OpenRouter: come usare modelli AI potenti completamente gratis.
OpenRouter: se il tuo PC non ce la fa
Non tutti hanno hardware sufficiente per far girare modelli in locale. Se il tuo PC non riesce a gestire nemmeno i modelli più leggeri, o se vuoi accedere a modelli più potenti senza acquistare hardware, OpenRouter è l’alternativa più pratica.
OpenRouter aggrega decine di modelli AI (inclusi molti open weight) accessibili via API con un unico account. Molti sono disponibili gratuitamente, anche se con alcune limitazioni. Non è la soluzione definitiva per chi vuole privacy totale e costo zero, ma è un’ottima via di mezzo per chi vuole testare modelli potenti senza investimento hardware. Puoi approfondire qui: OpenRouter: come usare modelli AI potenti completamente gratis.
Cosa si perde davvero con la quantizzazione
La domanda che tutti si fanno prima di usare un modello quantizzato è legittima: quanto peggiora davvero? La risposta dipende da quanta quantizzazione si applica — e per la maggior parte degli usi quotidiani la perdita è trascurabile.
Q8 – la differenza rispetto all’originale è praticamente zero
Il modello pesa la metà ma si comporta in modo identico. Il problema è che Q8 su modelli grandi richiede ancora molta memoria — non risolve il problema hardware per chi parte da zero.
Q4 – si inizia a guadagnare davvero in termini di peso
La qualità rimane alta per la grande maggioranza degli usi: scrittura, analisi, domande e risposte, traduzione. Il degrado si nota solo su ragionamenti molto lunghi o matematica complessa.
Q3 – peso accessibile alla maggior parte dei computer moderni
il calo è leggermente più percepibile, ma rimane gestibile per uso quotidiano. È il livello consigliato per chi ha hardware limitato e vuole comunque un modello capace.
Q2 e inferiori – il degrado diventa evidente
le risposte perdono coerenza, la precisione cala, e su task complessi il modello fatica. Vale la pena scendere a Q2 solo se l’alternativa è non usare il modello affatto.
La posizione netta è questa: Q4 è il livello minimo consigliato per uso serio. Q3 è accettabile con hardware limitato. Sotto, si inizia a fare compromessi significativi.
Uno sguardo al futuro
La traiettoria è chiara. I modelli diventano più efficienti a ogni generazione, le architetture MoE si diffondono, e i tool per girare modelli in locale migliorano costantemente. Quello che oggi richiede 32 GB di RAM, tra un anno potrebbe girare su 16 GB. Quello che oggi gira su 16 GB, tra due anni potrebbe girare su 8 GB.
Il risultato pratico è che sempre più persone potranno avere la propria AI in locale — senza mandare dati a nessun server, senza abbonamenti, senza limiti di utilizzo. Un modello capace, quantizzato, che gira sul proprio PC è già oggi una realtà per chi ha hardware adeguato. Domani lo sarà per quasi tutti.
Questo apre una domanda concreta: i modelli che si possono far girare gratuitamente in locale sono davvero all’altezza dei modelli frontier? La risposta è più sfumata di quanto si pensi: I modelli AI gratuiti sono davvero inferiori a ChatGPT e Claude?.