L'analisi dei pattern tramite tecniche statistiche e di apprendimento automatico è uno strumento chiave nella ricerca biomedica. In tale ambito i metodi Bayesiani e di classificazione strutturata si sono distinti per la loro efficacia e versatilità. Scopo di questo progetto è l'estensione e l'applicazione di questi metodi a tre settori fondamentali nella ricerca biomedica: l'analisi funzionale dei geni, l'annotazione di dati proteici e l'analisi di immagini mediche.
L'analisi funzionale dei geni è un complesso problema bioinformatico la cui soluzione richiede strumenti innovativi di apprendimento automatico. In questo progetto ci focalizzeremo su: (1) classificazione gerarchica multietichetta dei geni in base alla tassonomia del Functional Catalogue; (2) integrazione di differenti tipologie di dati biomolecolari (ogni tipologia cattura differenti caratteristiche funzionali dei geni utili a fini predittivi). Per (1) si svilupperanno metodi di ensemble gerarchici per la predizione delle classi dei geni sia a livello dell'intero genoma che delle classi FunCat. Per (2) verranno sviluppati metodi di apprendimento multiview che permettono di addestrare in modo coordinato i diversi classificatori su diverse tipologie di dati relative al medesimo insieme di geni. I metodi verranno poi integrati in un unico sistema di classificazione gerarchica multiview.
L'annotazione di dati proteici sarà eseguita confrontando immagini Gel2D (IGel2Ds) per l’identificazione delle proteine differenzialmente espresse in seguito a patologie. Ogni IGel2D rappresenta le proteine di un tessuto tramite un insieme di aree scure; il confronto di IGel2Ds di tessuti sani e patologici permette quindi di identificare i fattori coinvolti nell’insorgenza di una malattia oppure i corrispondenti biomarker diagnostici. Il metodo di confronto automatico che svilupperemo prevede: (1) allineamento delle immagini con una versione generalizzata del metodo di cross-correlazione; (2) segmentazione delle immagini con un algoritmo di watershed; (3) misurazione dei parametri che descrivono la proteina.
In ambito di elaborazione di immagini mediche si applicheranno tecniche Bayesiane per elaborare immagini radiografiche acquisite a diversi angoli al fine di creare immagini TAC prive di rumore. Ciò consente di tenere conto della natura principalmente poissoniana del rumore e di ottenere ricostruzioni ad elevato contrasto. Le tecniche Bayesiane da sperimentare sono basate sia sulla fisica statistica sia sulla teoria dell’informazione. Nel tentativo di unificare tali approcci saranno in particolare esplorati sia metodi di tipo Montecarlo sia metodi basati su approssimazione variazionale con fattorizzazioni a campo medio della distribuzione approssimante. L’algoritmo sviluppato verrà applicato a immagini TAC addominali al fine di migliorarne la segmentazione.