Motivazioni. La costruzione e gestione di sistemi informatici complessi richiede lo sviluppo di tecniche di natura logica (A) e algoritmica (B). Le prime trovano applicazione sia nella validazione delle specifiche e nella verifica del software, sia nell'analisi dei dati, ad esempio nel trattamento dell'informazione incerta. Le seconde includono l'estrazione di informazioni e la classificazione di dati non strutturati (si veda l'enorme volume di informazioni registrate nei query log dei motori di ricerca).
Presupposti. I proponenti hanno svolto attività di ricerca nei punti (A) e (B), in particolare:
A1) Area Metodi Formali:
- logiche intermedie costruttive per specificazione di sistemi modulari e OO, validazione di specifiche, generazione automatica di casi di test;
- metodi categoriali nella caratterizzazione di strutture semantiche per la logica e l'informatica, in particolare applicazioni alla teoria dei domini classica, costruttiva e sintetica.
A2) Trattamento dell'informazione incerta: teoria della rappresentazione tramite dualità spettrali; sviluppo di teorie delle probabilità per eventi non classici; risultati strutturali sulle algebre delle logiche polivalenti e fuzzy.
B) Algoritmi per l'analisi di dati WEB.
B1) Introduzione della nozione di "query-flow graph", una rappresentazione aggregata delle informazioni in query log di grandi dimensioni che tiene conto dell'ordine temporale delle query e della loro similarità.
B2) Costruzione di un modello per classificare le riformulazioni di query (generalizzazioni, specializzazioni, ecc.) che ha un'accuratezza del 92%.
Obiettivi.
Intendiamo approfondire le precedenti ricerche relative ai punti (A) e (B), indirizzandole verso l'obiettivo più generale di combinare tecniche logiche ed algoritmiche nell'analisi di dati WEB. In questo quadro, i temi di approfondimento specifici sono:
(A) Rafforzamento delle tecniche logiche nella:
- validazione di specifiche, con applicazioni alla Model Driven Architecture e alle DL (Description Logics, usate nella formulazione degli standard W3C per il WEB semantico);
- rappresentazione duale e nozioni di probabilità su eventi associati a logiche fuzzy e polivalenti, con applicazioni alle DL;
- studio di universi ricorrenti nelle applicazioni e formulazione di descrizioni unitarie per semantiche distinte, in particolare tramite la nozione di topos e completamenti di categorie.
(B) Studio delle applicazioni dei "query-flow graph" nella:
- classificazione automatica delle query basata su una tassonomia di argomenti;
- diversificazione dei risultati dei motori di ricerca, utilizzando aspetti diversi di una query per aiutare il motore di ricerca a includere pagine che coprono interessi distinti dell'utente;
- classificazione delle query in termini di generalità e rilevanza.