Bayesian Nonparametric Modeling of Network Data

Durante, Daniele

Network data representing relationship structures among a set of nodes are available in many fields of applications covering social science, neuroscience, business intelligence and broader relational settings. Although early probability models for networks date back almost sixty years, this field of research is still an object of intense and dynamic interest. A primary reason for the recent growth of statistical methodologies in modeling of networks is that the routine collection of such data is a recent development. Online social networks, novel neuroimaging technologies, improved business intelligence analyses and sophisticated computer algorithms monitoring world news media, currently provide increasingly complex network data sets along with novel motivating applications and new methodological questions. A challenging issue in such settings is that data are available via multiple network observations and hence the rich literature in modeling of a single network falls far short of the goal of providing flexible inference in this scenario. Statistical modeling of replicated network data is still on its infancy and several questions remain about coherence of inference, flexibility, computational tractability and other key issues. Motivated by complex applications from different domains, this thesis aims to take a sizable step towards addressing these issues via Bayesian nonparametric modeling. The thesis is organized in two main frameworks, further divided in different topics. The first thread develops flexible and computationally tractable stochastic processes for modeling dynamic networks, which incorporate temporal dependence and exploit latent network structures. The second focuses on defining a provably flexible representation for the probabilistic generative mechanism underlying a network-valued random variable, which is able to provide valuable insights both on shared and subject -- or phenotype -- specific sources of variability in the network structure

I dati di rete misurano connessioni tra un insieme di nodi e ricorrono in molti campi di studio, tra cui le scienze sociali, le neuroscienze, il marketing ed altre discipline. Sebbene i primi modelli probabilistici per dati di rete risalgano a circa sessant'anni fa, questo campo di ricerca è tuttora oggetto di vivace ed intenso interesse. La principale motivazione per la recente crescita di metodologie statistiche per la modellazione di reti è legata alla sempre più massiccia accessibilità a dati di questo tipo. Le reti sociali online, i recenti sviluppi tecnologici nel monitoraggio di reti cerebrali e la disponibilità di algoritmi sofisticati per catalogare informazioni dai mezzi di comunicazione, forniscono dati di rete caratterizzati da una progressiva complessità e contribuiscono a nuovi interrogativi applicativi e metodologici. Un aspetto comune a queste nuove basi di dati è legato alla disponibilità di misure ripetute di reti, anziché di una sola rete. Di conseguenza, l'ampia letteratura nello studio di una singola rete richiede generalizzazioni sostanziali per fornire adeguati strumenti inferenziali in questi nuovi scenari. Le tecniche statistiche di modellazione per misure ripetute di reti sono ancora agli albori e diversi interrogativi rimangono ancora irrisolti in merito alla coerenza dei metodi inferenziali, alla maneggevolezza degli strumenti computazionali ed altre importanti questioni. Questa tesi è motivata da applicazioni complesse in diversi ambiti di studio e si pone l'obiettivo di compiere un passo considerevole nella risponda alle precedenti tematiche attraverso modelli Bayesiani non parametrici. Il lavoro è organizzato in due macro aree, a loro volta suddivise in diverse tematiche. La prima si pone l'obiettivo di sviluppare processi stocastici flessibili per la modellazione di reti dinamiche, capaci di incorporare sia la dipendenza temporale che quella di rete. La seconda macro area cerca invece di definire tecniche di rappresentazione flessibili per definire meccanismi probabilistici associati a variabili aleatorie di rete, con il fine di fornire informazioni chiave su strutture comuni di connessione e comprendere se e come queste si modifichino in funzione di altre variabili

Bayesian Nonparametric Modeling of Network Data / Durante, Daniele. - (2016 Jan 29).