Chiedi all'AI: "top 10 clienti del 2026". Risposta. Poi chiedi: "e di gennaio?". L'AI capisce che intendi "top 10 clienti di gennaio 2026". Come fa? Vediamo i meccanismi sotto il cofano della memoria contestuale.
Il problema da risolvere
Senza memoria contestuale, ogni domanda è isolata:
- Domanda 1: "fatturato 2026 per cliente" → query SQL completa.
- Domanda 2: "e di gennaio?" → l'AI non sa di cosa parli.
L'utente dovrebbe ripetere "fatturato di gennaio 2026 per cliente" ogni volta. Conversazione innaturale.
Come funziona la memoria contestuale
Step 1: storico conversazione
Ogni domanda + risposta è salvata nel thread:
- Domanda 1: "top 10 clienti 2026".
- SQL generata 1.
- Risultato 1.
- Domanda 2: "e di gennaio?".
Step 2: prompt arricchito
Quando arriva domanda 2, il prompt all'AI include:
- Schema database.
- Glossario.
- Storico conversazione precedente.
- Domanda 2.
Step 3: AI interpreta nel contesto
L'AI ha tutto il contesto:
- "e di gennaio?" → nel contesto della conversazione precedente.
- L'AI capisce: "top 10 clienti di gennaio 2026".
- Genera SQL appropriata.
I tipi di follow-up
Continuazioni temporali
- "E di gennaio?"
- "Anche nel 2025?"
- "Per il trimestre?"
Drill-down
- "Mostra il dettaglio."
- "Più dettaglio per area."
- "Espandi il primo cliente."
Pronomi e riferimenti
- "Questo cliente" → cliente menzionato.
- "Il suo fatturato" → fatturato di chi citato.
- "Quella settimana" → settimana di cui si parlava.
Rephrase/clarification
- "Ricalcola escludendo intercompany."
- "Ma solo per area Nord."
- "Senza i fornitori esteri."
Operazioni aggregative
- "Somma per categoria."
- "Media settimanale."
- "Crescita percentuale."
Limiti tecnici della memoria
Context window
I LLM hanno limite di "memoria" per conversazione:
- GPT-4o: 128k token.
- Claude 3.5: 200k token.
- Gemini 2.5: 1M+ token.
Conversazioni molto lunghe possono superare il limite. Quando succede: troncamento dei messaggi più vecchi.
Decadimento attenzione
Anche dentro context window, gli LLM "ricordano" meglio gli ultimi messaggi. Riferimenti a 50 domande indietro possono essere meno precisi.
Ambiguità
"Quella" può essere ambiguo se il contesto non è chiaro. L'AI fa la sua interpretazione, può essere sbagliata.
Best practice per usare bene la memoria
1. Domande progressive
Costruisci progressivamente:
- Inizia con domanda chiara.
- Aggiungi specificazioni.
- Drill-down a step.
2. Riformula se ambiguo
Se l'AI fraintende:
- Riformula con più contesto.
- Es. "fatturato di gennaio 2026, per cliente" invece di "e gennaio?"
3. Reset thread quando cambi argomento
Cambio progetto → nuovo thread. Niente confusione.
4. Verifica risultati periodicamente
Per query critiche, verifica che la SQL generata sia quella attesa.
Memoria vs cronologia
| Aspetto | Memoria contestuale | Cronologia |
|---|---|---|
| Scopo | Capire follow-up | Recuperare query passate |
| Scope | Thread corrente | Tutte le query mai fatte |
| Durata | Live (in conversazione) | Persistente (90 gg+) |
| Tecnologia | Context window LLM | Database |
I moduli ReportIA correlati
Scopri ReportIA con memoria contestuale.