Oggetto della ricerca sarà la costruzione di indicatori complessi al fine di valutare e monitorare i servizi di pubblica utilità.
Il gruppo di ricerca si propone da un lato di evidenziare le problematiche connesse alla raccolta e all'analisi dei dati nel particolare contesto di interesse, dall'altro di proporre adeguate metodologie e tecniche statistiche per perseguire l'obiettivo specificato.
La prima parte della ricerca sarà dedicata al problema della pulitura del dato e della omogeneizzazione delle fonti, in considerazione del fatto che in questo contesto ci si trova spesso nella necessità di recuperare informazioni da data-set provenienti da differenti rilevazioni ufficiali effettuate con obiettivi diversi da quelle dell'analisi.
Successivamente si passerà ai problemi di analisi dei dati.
Si renderà necessario affiancare alle tecniche classiche di analisi, tecniche di data mining, computazionalmente più efficienti in situazioni di elevata numerosità e dimensionalità: i data set utilizzati in ambito pubblico sono infatti caratterizzati sia da elevata numerosità (numerose unità statistiche) sia da elevata dimensionalità (numero di caratteristiche osservate per ogni unità statistica), sebbene si tratti spesso di dati campionari.
In ambito pubblico inoltre l'interesse è spesso rivolto a un fenomeno di natura latente, l'obiettivo finale è la sua misurazione e la valutazione comparativa del fenomeno tra le varie unità o macro-unità analizzate. Data la struttura gerarchica, per esempio territoriale dei dati, si utilizzeranno tecniche che considerano l'effetto dei gruppi sui fenomeni osservati. In particolare, si farà prevalentemente riferimento ai modelli multilivello lineari e non lineari. Come spesso avviene, l'outcome di un modello multilivello può essere un indicatore precedentemente quantificato mediante le tecniche di optimal scaling o modelli a variabili latenti.
Particolare attenzione sarà rivolta a innovative tecniche di ordinamento multiplo e alla loro comparazione con tecniche più classiche di ordinamento che prevedono la costruzione di un unico indicatore sintetico.
Inoltre, l'ipotesi usuale di distribuzione normale sulle componenti residuali dei modelli che verranno utilizzati spesso non risulta adeguata. Pertanto, nell'applicazione dei modelli si introduranno anche metodi ad hoc per correggere la performance degli stimatori ove questa si riveli non adeguata.
Infine particolare attenzione sarà anche posta nel conciliare complessità metodologica, spesso richiesta dalla struttura dei data-set (variabili sia qualitative che quantitative, presenza di valori mancanti e di valori estremi, errori di misurazione, presenza di strutture di correlazione spaziale) e facilità di comprensione dei metodi e dei risultati da parte degli utilizzatori finali, che non sono necessariamente dei tecnici.