The leitmotiv throughout this thesis is represented by IR evaluation. We discuss different issues related to effectiveness measures and novel solutions that we propose to address these challenges. We start by providing a formal definition of utility-oriented measurement of retrieval effectiveness, based on the representational theory of measurement. The proposed theoretical framework contributes to a better understanding of the problem complexities, separating those due to the inherent problems in comparing systems, from those due to the expected numerical properties of measures. We then propose AWARE, a probabilistic framework for dealing with the noise and inconsistencies introduced when relevance labels are gathered with multiple crowd assessors. By modeling relevance judgements and crowd assessors as sources of uncertainty, we directly combine the performance measures computed on the ground-truth generated by each crowd assessor, instead of adopting a classification technique to merge the labels at pool level. Finally, we investigate evaluation measures able to account for user signals. We propose a new user model based on Markov chains, that allows the user to scan the result list with many degrees of freedom. We exploit this Markovian model in order to inject user models into precision, defining a new family of evaluation measures, and we embed this model as objective function of an LtR algorithm to improve system performances.
La valutazione in Information Retrieval (IR) rappresenta il leitmotiv di questa tesi, in cui sono analizzati diversi problemi legati alle misure di efficacia in IR e le soluzioni proposte per risolvere tali problemi. Inizialmente viene proposta una definizione formale di misure di efficacia di IR orientate all’utilità dell’utente. Tale definizione è costruita a partire dalla teoria rappresentazionale della misura e la configurazione teorica presentata contribuisce alla migliore comprensione delle difficoltà relative al confronto dei sistemi, separandole da quelle relative alle proprietà numeriche delle misure. Successivamente è descritto AWARE, un approccio probabilistico per controllare il rumore e le inconsistenze introdotte quando i giudizi di rilevanza sono raccolti tramite piattaforme di crowd sourcing. Invece di adottare tecniche di classificazione per combinare i giudizi di rilevanza raccolti da diversi crowd worker a livello di pool, i giudizi di rilevanza e i crowd worker stessi sono considerati come sorgenti di probabilità, permettendo di combinare direttamente le misure di valutazione calcolate sulle diverse ground truth generate da ogni crowd worker. Per concludere, vengono illustrate misure di valutazioni capaci di tenere in considerazione le interazioni tra sistemi e utenti. Viene proposto un modello di utente basato su processi di tipo Markoviano che permette di descrivere il comportamento degli utenti con molti gradi di libertà. Tale modello è utilizzato per definire una nuova famiglia di misure di valutazione costruite a partire da precision, ed è incluso nella funzione obbiettivo di un algoritmo di Learning to Rank (LtR) per migliorare le prestazioni del sistema.
Exploiting user signals and stochastic models to improve information retrieval systems and evaluation / Maistro, Maria. - (2018 Jan 14).
Exploiting user signals and stochastic models to improve information retrieval systems and evaluation
Maistro, Maria
2018
Abstract
La valutazione in Information Retrieval (IR) rappresenta il leitmotiv di questa tesi, in cui sono analizzati diversi problemi legati alle misure di efficacia in IR e le soluzioni proposte per risolvere tali problemi. Inizialmente viene proposta una definizione formale di misure di efficacia di IR orientate all’utilità dell’utente. Tale definizione è costruita a partire dalla teoria rappresentazionale della misura e la configurazione teorica presentata contribuisce alla migliore comprensione delle difficoltà relative al confronto dei sistemi, separandole da quelle relative alle proprietà numeriche delle misure. Successivamente è descritto AWARE, un approccio probabilistico per controllare il rumore e le inconsistenze introdotte quando i giudizi di rilevanza sono raccolti tramite piattaforme di crowd sourcing. Invece di adottare tecniche di classificazione per combinare i giudizi di rilevanza raccolti da diversi crowd worker a livello di pool, i giudizi di rilevanza e i crowd worker stessi sono considerati come sorgenti di probabilità, permettendo di combinare direttamente le misure di valutazione calcolate sulle diverse ground truth generate da ogni crowd worker. Per concludere, vengono illustrate misure di valutazioni capaci di tenere in considerazione le interazioni tra sistemi e utenti. Viene proposto un modello di utente basato su processi di tipo Markoviano che permette di descrivere il comportamento degli utenti con molti gradi di libertà. Tale modello è utilizzato per definire una nuova famiglia di misure di valutazione costruite a partire da precision, ed è incluso nella funzione obbiettivo di un algoritmo di Learning to Rank (LtR) per migliorare le prestazioni del sistema.File | Dimensione | Formato | |
---|---|---|---|
maistro_maria_tesi.pdf
accesso aperto
Tipologia:
Tesi di dottorato
Licenza:
Accesso gratuito
Dimensione
10.21 MB
Formato
Adobe PDF
|
10.21 MB | Adobe PDF | Visualizza/Apri |
Pubblicazioni consigliate
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.