Guide pratiche

Memoria Contestuale AI: Come Funziona Davvero

L'AI "ricorda" la conversazione precedente: pronomi, continuazioni, riferimenti. Ma come funziona tecnicamente? Vediamo i meccanismi sotto il cofano.

Team Ingenia 09 May 2026
Memoria Contestuale AI: Come Funziona Davvero

Chiedi all'AI: "top 10 clienti del 2026". Risposta. Poi chiedi: "e di gennaio?". L'AI capisce che intendi "top 10 clienti di gennaio 2026". Come fa? Vediamo i meccanismi sotto il cofano della memoria contestuale.

Il problema da risolvere

Senza memoria contestuale, ogni domanda è isolata:

  • Domanda 1: "fatturato 2026 per cliente" → query SQL completa.
  • Domanda 2: "e di gennaio?" → l'AI non sa di cosa parli.

L'utente dovrebbe ripetere "fatturato di gennaio 2026 per cliente" ogni volta. Conversazione innaturale.

Come funziona la memoria contestuale

Step 1: storico conversazione

Ogni domanda + risposta è salvata nel thread:

  • Domanda 1: "top 10 clienti 2026".
  • SQL generata 1.
  • Risultato 1.
  • Domanda 2: "e di gennaio?".

Step 2: prompt arricchito

Quando arriva domanda 2, il prompt all'AI include:

  • Schema database.
  • Glossario.
  • Storico conversazione precedente.
  • Domanda 2.

Step 3: AI interpreta nel contesto

L'AI ha tutto il contesto:

  • "e di gennaio?" → nel contesto della conversazione precedente.
  • L'AI capisce: "top 10 clienti di gennaio 2026".
  • Genera SQL appropriata.

I tipi di follow-up

Continuazioni temporali

  • "E di gennaio?"
  • "Anche nel 2025?"
  • "Per il trimestre?"

Drill-down

  • "Mostra il dettaglio."
  • "Più dettaglio per area."
  • "Espandi il primo cliente."

Pronomi e riferimenti

  • "Questo cliente" → cliente menzionato.
  • "Il suo fatturato" → fatturato di chi citato.
  • "Quella settimana" → settimana di cui si parlava.

Rephrase/clarification

  • "Ricalcola escludendo intercompany."
  • "Ma solo per area Nord."
  • "Senza i fornitori esteri."

Operazioni aggregative

  • "Somma per categoria."
  • "Media settimanale."
  • "Crescita percentuale."

Limiti tecnici della memoria

Context window

I LLM hanno limite di "memoria" per conversazione:

  • GPT-4o: 128k token.
  • Claude 3.5: 200k token.
  • Gemini 2.5: 1M+ token.

Conversazioni molto lunghe possono superare il limite. Quando succede: troncamento dei messaggi più vecchi.

Decadimento attenzione

Anche dentro context window, gli LLM "ricordano" meglio gli ultimi messaggi. Riferimenti a 50 domande indietro possono essere meno precisi.

Ambiguità

"Quella" può essere ambiguo se il contesto non è chiaro. L'AI fa la sua interpretazione, può essere sbagliata.

Best practice per usare bene la memoria

1. Domande progressive

Costruisci progressivamente:

  • Inizia con domanda chiara.
  • Aggiungi specificazioni.
  • Drill-down a step.

2. Riformula se ambiguo

Se l'AI fraintende:

  • Riformula con più contesto.
  • Es. "fatturato di gennaio 2026, per cliente" invece di "e gennaio?"

3. Reset thread quando cambi argomento

Cambio progetto → nuovo thread. Niente confusione.

4. Verifica risultati periodicamente

Per query critiche, verifica che la SQL generata sia quella attesa.

Memoria vs cronologia

AspettoMemoria contestualeCronologia
ScopoCapire follow-upRecuperare query passate
ScopeThread correnteTutte le query mai fatte
DurataLive (in conversazione)Persistente (90 gg+)
TecnologiaContext window LLMDatabase

I moduli ReportIA correlati

Scopri ReportIA con memoria contestuale.

Pronto a trasformare il tuo business?

Raccontaci il tuo progetto. Ti risponderemo entro 24 ore.