Cog-RAG: Cognitive Retrieval-Augmented Generation

Cog-RAG e' l'architettura proprietaria di Queria che trasforma la ricerca documentale da un processo meccanico a un processo cognitivo. Invece di limitarsi a trovare documenti simili a una domanda, il sistema comprende, pianifica, ragiona e verifica prima di rispondere.

Il problema del RAG tradizionale

Un sistema RAG classico segue tre passaggi:

Riceve la domanda dell'utente
Cerca i documenti piu' simili nel database vettoriale
Passa i documenti trovati al modello linguistico per generare la risposta

Questo approccio ha limiti evidenti. Non gestisce domande complesse che richiedono informazioni da fonti diverse. Non adatta la strategia di ricerca alla complessita' della domanda. Non verifica se i risultati trovati sono realmente pertinenti. Non e' in grado di ragionare su piu' documenti per produrre una sintesi.

Come funziona Cog-RAG

Cog-RAG introduce un ciclo cognitivo completo tra la domanda e la risposta:

Domanda
   |
   v
[1] Analisi e comprensione della query
   |
   v
[2] Pianificazione della strategia di ricerca
   |
   v
[3] Decomposizione in sotto-query (se necessario)
   |
   v
[4] Ricerca multi-sorgente adattiva
   |
   v
[5] Riordinamento semantico (reranking)
   |
   v
[6] Verifica qualita' e grounding
   |          |
   |     (insufficiente)
   |          |
   |          v
   |     Ritorno al passo [4]
   |     con parametri ampliati
   |
   v
[7] Sintesi con ragionamento profondo
   |
   v
Risposta con citazioni

Ogni passaggio e' gestito da componenti specializzati che collaborano in modo autonomo. Se la qualita' dei risultati non e' sufficiente, il sistema puo' tornare indietro, ampliare la ricerca e riprovare.

Il sistema a due cervelli

Al centro di Cog-RAG operano due modelli AI con ruoli complementari:

Planner: il cervello veloce

Il Planner e' un modello rapido e leggero, ottimizzato per decisioni immediate. Si occupa di:

Classificazione dell'intento: capisce cosa l'utente sta realmente chiedendo
Routing: decide quale pipeline attivare (ricerca semplice, decomposizione, confronto)
Decomposizione delle query: scompone domande complesse in sotto-domande gestibili
Valutazione della complessita': stima la difficolta' della domanda per calibrare i parametri di ricerca
Utility e supporto: gestisce operazioni ausiliarie come riformulazione e riassunti rapidi

Il Planner opera in millisecondi e non impegna risorse computazionali pesanti.

Writer: il cervello profondo

Il Writer e' un modello potente con capacita' di ragionamento avanzato. Si occupa di:

Sintesi multi-documento: combina informazioni da decine di fonti in una risposta coerente
Ragionamento complesso: affronta domande che richiedono inferenze, confronti, analisi
Generazione di alta qualita': produce testi professionali, strutturati e accurati
Pensiero esplicito: utilizza un processo di ragionamento interno (thinking) prima di formulare la risposta

Il Writer entra in gioco solo quando serve la sua potenza, preservando l'efficienza complessiva del sistema.

La collaborazione

Il Planner decide cosa fare e come farlo. Il Writer esegue con profondita'. Questa separazione permette di ottenere tempi di risposta rapidi per domande semplici (gestite quasi interamente dal Planner) e risposte di alta qualita' per domande complesse (dove il Writer investe tempo nel ragionamento).

Orchestrazione delle query

Non tutte le domande sono uguali. Cog-RAG classifica ogni query e sceglie la strategia di orchestrazione piu' adatta.

Query semplici

Per domande dirette con una risposta attesa chiara, il sistema esegue una ricerca diretta e genera la risposta. Nessuna decomposizione, nessun passaggio superfluo.

Esempio: "Qual e' la data di scadenza del contratto con il fornitore X?"

Decomposizione sequenziale

Quando le sotto-domande dipendono l'una dall'altra, vengono eseguite in sequenza. La risposta di una sotto-domanda alimenta la successiva.

Esempio: "Chi sono gli eredi designati nel testamento e quali quote spettano a ciascuno?" Prima si identificano gli eredi, poi si cercano le quote per ciascuno.

Decomposizione parallela

Quando le sotto-domande sono indipendenti, vengono eseguite in parallelo per massimizzare la velocita'.

Esempio: "Confronta le condizioni contrattuali del fornitore A con quelle del fornitore B." Le ricerche sui due fornitori avvengono simultaneamente.

Decomposizione gerarchica

Per domande esplorative, il sistema parte dal generale e approfondisce progressivamente.

Esempio: "Quali sono le principali problematiche emerse nei rapporti di audit dell'ultimo anno?" Prima una ricerca ampia, poi approfondimenti mirati sulle tematiche emerse.

Decomposizione comparativa

Per confronti strutturati, il sistema raccoglie informazioni da entrambe le parti e produce un'analisi side-by-side.

Esempio: "Quali differenze ci sono tra la polizza assicurativa attuale e quella proposta?"

Ricerca adattiva

I parametri di ricerca si calibrano automaticamente in base alla complessita' stimata della query:

Complessita'	Documenti cercati	Soglia minima	Reranking	Diversificazione
Semplice	Pochi, mirati	Alta	Si'	Bassa
Moderata	Media quantita'	Media	Si'	Media
Complessa	Ampia quantita'	Bassa	Si'	Alta
Aggregativa	Copertura massima	Molto bassa	No	Massima

Le query aggregative (statistiche, riassunti di grandi insiemi) richiedono un approccio diverso: massima copertura con diversificazione alta per evitare risultati ridondanti.

Ricerca ibrida

Ogni ricerca combina due approcci complementari:

Ricerca semantica: confronta il significato della domanda con il significato dei documenti attraverso vettori a 1024 dimensioni. Eccelle nel trovare documenti pertinenti anche quando le parole sono diverse.
Ricerca lessicale (BM25): confronta le parole chiave. Eccelle nel trovare documenti con termini specifici (codici, nomi propri, numeri di articolo).

I risultati delle due ricerche vengono combinati tramite Reciprocal Rank Fusion (RRF), un algoritmo che bilancia i punteggi di entrambi gli approcci per produrre un ranking finale ottimale.

Integrazione multi-sorgente

Cog-RAG non si limita ai documenti aziendali. Il sistema integra in modo trasparente:

Documenti aziendali: i file caricati dall'organizzazione
Knowledge Base: la base di conoscenza curata e permanente
Sorgenti esterne certificate: banche dati specializzate in ambito legale, alimentare, chimico e farmaceutico

Tutte le fonti partecipano allo stesso processo di ricerca e reranking. L'utente riceve una risposta unificata con citazioni che identificano chiaramente l'origine di ogni informazione attraverso badge colorati distinti per tipo di fonte.

Ragionamento trasparente

Una delle caratteristiche distintive di Cog-RAG e' la trasparenza del processo di ragionamento. Il Writer utilizza una modalita' di thinking esplicito: prima di formulare la risposta, genera un ragionamento interno in cui analizza le fonti, valuta la pertinenza, identifica eventuali contraddizioni e pianifica la struttura della risposta.

Questo ragionamento e' visibile all'utente attraverso il pannello dedicato nell'interfaccia. L'utente puo' verificare come il sistema e' arrivato a una determinata conclusione, quali fonti ha considerato rilevanti e perche', e dove ha trovato eventuali lacune informative.

La trasparenza del ragionamento e' fondamentale in contesti enterprise dove le decisioni basate sulle risposte del sistema devono essere verificabili e giustificabili.

Cog-RAG: Cognitive Retrieval-Augmented Generation ​

Il problema del RAG tradizionale ​

Come funziona Cog-RAG ​

Il sistema a due cervelli ​

Planner: il cervello veloce ​

Writer: il cervello profondo ​

La collaborazione ​

Orchestrazione delle query ​

Query semplici ​

Decomposizione sequenziale ​

Decomposizione parallela ​

Decomposizione gerarchica ​

Decomposizione comparativa ​

Ricerca adattiva ​

Ricerca ibrida ​

Integrazione multi-sorgente ​

Ragionamento trasparente ​