La ricerca si propone di studiare una serie di istantanee del dominio .uk raccolte con frequenza mensile nell'arco di un anno. Lo scopo è quello di ottenere un dataset che permetta di studiare l'evoluzione temporale del web.
Ci sono due problemi fondamentali che intendiamo affrontare:
- La convalida statistica dei risultati ottenuti: a causa delle variazioni continue di struttura della rete, non è possibile garantire che ogni istantanea contenga esattamente le stesse pagine, ed è quindi necessario studiare quali variazioni sono dovute a effettive variazioni strutturali del web, e quali a contingenze del processo di scansione.
- L'allineamento dei dati così ottenuti: a causa dei metodi diversi con cui i siti generano dinamicamente gli URL delle pagine dinamiche, è possibile che pagine che puntano allo stesso contenuto abbiano, nel tempo, URL sintatticamente diversi (ad esempio, per via di identificatori di sessione). Occorre quindi studiare una metodologia che permetta di allineare URL di diverse istantanee in modo affidabile.