Il problema che tutti notano ma pochi capiscono
Hai spiegato tutto nei primi messaggi: chi sei, cosa stai costruendo, il tono che vuoi usare, i dettagli che contano. Poi, trenta messaggi dopo, ChatGPT ti risponde come se non avesse letto niente. Consigli generici, contesto ignorato, dettagli già chiariti che scompaiono.
La sensazione è quella di parlare con qualcuno che ha dimenticato metà della conversazione. E non succede solo con ChatGPT: lo stesso problema si manifesta con Claude, Gemini e qualsiasi altro modello linguistico usato in sessioni lunghe.
Non è un difetto occasionale. È un limite strutturale del modo in cui questi strumenti funzionano. E capire come mai è il primo passo per lavorarci in modo più efficace.
Come funziona davvero la memoria di ChatGPT
I modelli AI non hanno una memoria persistente nel senso tradizionale del termine. Ogni volta che generano una risposta, leggono l’intera conversazione dall’inizio e producono il testo successivo basandosi su tutto ciò che è visibile in quel momento.
Lo spazio disponibile per questa lettura si chiama context window — la quantità massima di testo, misurata in token, che il modello può elaborare in una singola chiamata. Quando la conversazione supera questo limite, i messaggi più vecchi escono dalla finestra e l’AI non può più usarli.
Non è una scelta del modello: è semplicemente quello che non riesce più a vedere. Per una spiegazione pratica di come gestire questo problema nella quotidianità, puoi leggere Perché l’AI dimentica quello che scrivi.
Perché il problema non è ancora risolto
Se le context window crescono ogni anno, perché il problema persiste? La risposta sta in tre fattori che si sommano: il costo computazionale, un limite cognitivo del modello e il costo economico reale.
Il costo quadratico del contesto lungo
I modelli linguistici usano un meccanismo chiamato attention: ogni token nel contesto deve essere confrontato con tutti gli altri per determinare cosa è rilevante. Questo significa che raddoppiare la lunghezza del contesto non raddoppia il calcolo — lo moltiplica per quattro.
Elaborare 200.000 token richiede quindi un lavoro computazionale enormemente più pesante rispetto a 10.000 token. Questo ha conseguenze dirette su velocità, costo e praticabilità tecnica per chi gestisce i server.
Lost in the middle
C’è un secondo problema, meno noto ma altrettanto rilevante: anche quando un modello tecnicamente ‘vede’ un contesto lungo, tende a dare più peso alle informazioni all’inizio e alla fine della conversazione.
Le informazioni nel mezzo vengono trattate con meno attenzione. Questo fenomeno è conosciuto come lost in the middle: il modello ha il testo davanti agli occhi ma non lo usa in modo uniforme. Il risultato pratico è che anche con una context window ampia, le informazioni cruciali inserite a metà conversazione rischiano di essere ignorate.
Il lato economico
Ogni token elaborato ha un costo reale in termini di calcolo. Per chi usa le AI tramite API, il prezzo si calcola su input e output in token: più contesto significa più costo per ogni chiamata. Per i provider, mantenere context window enormi su milioni di utenti simultanei ha un impatto infrastrutturale che non è neutro.
Aumentare la context window non è quindi solo una sfida tecnica — è anche una scelta economica. E questo spiega perché la soluzione non sia semplicemente ‘aumentare lo spazio’.
Come rimediare davvero
Il modo più immediato per gestire la perdita di contesto è il riepilogo in chat: prima di aprire una nuova sessione, chiedi al modello di generare un prompt strutturato con tutto ciò che è stato costruito — decisioni prese, stile adottato, punti ancora aperti. Questo ‘foglio di viaggio’ diventa il primo messaggio della nuova chat.
Esistono però soluzioni più stabili, pensate per chi lavora con l’AI in modo continuativo.
I progetti su ChatGPT e Claude
Sia ChatGPT che Claude offrono una funzione chiamata Progetti: uno spazio separato in cui si possono inserire istruzioni fisse e contesto permanente. Ogni nuova chat aperta all’interno di un progetto eredita automaticamente queste informazioni.
ChatGPT permette di inserire delle istruzioni di contesto (il prompt di sistema che dà istruzioni fisse al modello all’avvio di ogni chat) ma non va oltre: non puoi aggiungere file o materiali di riferimento al progetto.
Claude compensa questa mancanza in modo significativo. Oltre al system prompt, permette di caricare documenti, immagini, screenshot, loghi e grafici direttamente nella pagina del progetto. Ogni nuova chat parte già con tutto quel materiale visibile e analizzabile. Per chi lavora su contenuti ricorrenti — articoli, campagne, documentazione — questa differenza si sente: il modello non parte mai davvero da zero.
Recentemente Claude ha inserito questa architettura passando da utilizzarla solo nei progetti, a tutte le chat. Si chiama RAG e in questo articolo puoi conoscere tutti i dettagli:
Cos’è il RAG e come Claude lo usa per ricordare tutto.
Le istruzioni personalizzate
I Progetti funzionano bene quando lavori su un contesto specifico. Ma ChatGPT offre anche qualcosa di diverso: le Custom Instructions, accessibili dal profilo, sono istruzioni permanenti che si applicano a tutte le conversazioni, anche quelle aperte fuori da un progetto. Puoi specificare chi sei, come lavori, che tono preferisci — e il modello le applica automaticamente ogni volta, senza doverle riscrivere.
Claude non ha un equivalente globale di questa funzione. Le sue istruzioni permanenti vivono dentro i singoli progetti, non a livello di profilo. Per chi usa Claude in modo strutturato con progetti dedicati non è un problema reale.
Per chi apre chat sparse senza una struttura fissa, è un limite da tenere a mente.
Il riepilogo strutturato prima di aprire una nuova chat
Quando una chat è ormai compromessa, il modo più efficace è chiedere direttamente al modello di generare un riepilogo da usare come primo messaggio in una nuova sessione. Un prompt come questo funziona bene:
“Fai un riepilogo di questa conversazione in formato prompt: includi il contesto del progetto, le decisioni prese, lo stile da usare e i punti ancora aperti. Lo userò per aprire una nuova chat.”
Copia la risposta a questo prompt e incollala come primo messaggio in una nuova chat: il risultato sarà una scrivania nuova e pulita, ma con tutto il necessario già visibile dall’inizio.
Quando questo problema diventerà storia
Le context window stanno crescendo rapidamente. Nei primi modelli si misuravano in poche migliaia di token. Oggi GPT-4o arriva a 128.000, Claude a 200.000, Gemini a un milione. La direzione è chiara.
Ma ci sono limiti strutturali che rallentano questa traiettoria. Il costo quadratico del calcolo rende ogni raddoppio della context window molto più costoso del precedente. Il fenomeno lost in the middle mostra che avere più spazio non significa usarlo meglio. E i costi infrastrutturali restano reali.
Le soluzioni più promettenti non puntano solo ad allargare la finestra, ma a cambiarla in modo qualitativo: architetture più efficienti, sistemi di memoria esterna, meccanismi di compressione del contesto che permettano di mantenere le informazioni rilevanti anche nelle sessioni più lunghe.
Una di queste soluzioni è la quantizzazione dei modelli, se vuoi scoprire come funziona puoi leggere:
Cos’è un modello quantizzato: come far girare AI potenti su PC normali gratis.
Per ora, il problema esiste e non è trascurabile. Conoscerlo è già metà della soluzione: una chat per argomento, contesto in apertura, riepilogo prima di ricominciare. Abitudini semplici che cambiano in modo concreto la qualità delle risposte.