Correlation models for paired comparison data

Cattelan, Manuela

Binary paired comparison data are binary data that record which of two objects being compared is preferred. Applications arise in many contexts including biology, acoustics, genetics, consumer behaviour and sports tournaments. Most of traditional models, such as the Bradley-Terry model, are based on unrealistic independence assumptions. However, in many instances it is sensible to believe that the results of two paired comparisons involving a common object will be correlated. This thesis focuses on the potential presence of dependence among paired comparison data. Two novel models, either marginally or conditionally specified, are introduced in order to account for the dependence structure of the data. Although the proposed models appear to be more realistic than usual independence models, ordinary likelihood inference is made difficult by the need to approximate high dimensional integrals. Hence, in this thesis a composite likelihood inferential approach is proposed. Simulation studies are performed in order to assess the behaviour of the maximum composite likelihood estimators for the parameters of the correlation models for paired comparison data. The estimators, in case of single round robin tournaments, exhibit good properties. Moreover, even if not all matches of a round robin tournament are played, the estimates are not much affected at least until fifty per cent of the competitions takes place. The proposed methodology is illustrated by some applications to real data sets. A first application regards sports data, specifically the results of the Italian A1 league which is at the top of the Italian volleyball league system. In this case the interest lies in determining whether the geographical origin of the teams or their physical features influence the strength of the teams themselves. A further application is concerned with biological data. Biologists are interested in investigating the role of colours in sexual signalling and in determining whether specific colours are associated with stronger animals. For this purpose, they observed the results of contests between some lizards that belong to a particular species which displays three different patches of colours on their bodies. Finally, the problem of the evaluation and ranking of scientific journals is considered with an application to the main statistical journals.

I dati provenienti da confronti a coppie sono dati binari che individuano quale fra due oggetti confrontati è preferito. Questo tipo di dati si presenta frequentemente nelle applicazioni. La biologia, i tornei sportivi, l'acustica, la genetica e lo studio del comportamento dei consumatori, sono solo alcuni degli ambiti in cui si manifestano dati provenienti da confronti a coppie. Quasi tutti i modelli tradizionali sviluppati per analizzare questa particolare tipologia di dati si basano sull'assunzione irrealistica di indipendenza tra le osservazioni. In realtà in molte circostanze è ragionevole ritenere che siano correlati i risultati di due confronti tra coppie di oggetti che includono un medesimo oggetto. Questa tesi affronta la modellazione della possibile dipendenza tra i risultati dei confronti. Si propongono due nuovi modelli, il primo con specificazione marginale e il secondo con specificazione condizionata, che descrivono la struttura di dipendenza dei dati. I modelli proposti risultano essere più realistici di quelli tradizionali, ma l'inferenza basata sulla verosimiglianza ordinaria è resa difficile dalla necessità di approssimare integrali multipli in dimensioni elevate. Come soluzione si propone un approccio basato sulla verosimiglianza composita. Sono stati effettuati alcuni studi di simulazione per valutare il comportamento degli stimatori di massima verosimiglianza composita per i parametri dei modelli per dati correlati provenienti da confronti a coppie. Le simulazioni considerano tornei in cui i giocatori competono un'unica volta contro ciascun altro giocatore del torneo. In tale contesto, gli stimatori di massima verosimiglianza composita mostrano un buon comportamento, le stime sono ragionevolmente centrate vicino ai veri valori dei parametri e la loro precisione aumenta all'aumentare del numero di giocatori che prendono parte al torneo. Inoltre, se non si dispone dei risultati di tutte le partite, le stime non ne risentono in maniera rilevante, perlomeno finché si osservano i risultati di almeno metà delle competizioni. La metodologia proposta viene illustrata attraverso alcune applicazioni a dati reali. La prima applicazione considera dati sportivi, in particolare i risultati della serie A1 di pallavolo maschile. In questo caso si è interessati a determinare se l'origine geografica delle squadre o le loro caratteristiche fisiche influenzino la forza delle squadre stesse. Un'ulteriore applicazione riguarda dati biologici. In particolare, alcuni etologi sono interessati ad indagare quale sia il ruolo svolto dai vari colori presenti sul corpo di molti animali nella segnalazione sessuale e a determinare se alcuni colori siano associati ad animali più forti. A tale scopo sono stati osservati i risultati dei combattimenti tra animali appartenenti ad una particolare specie di lucertole che presentano tre chiazze di diverso colore sul corpo. Infine, si considera il problema della valutazione e classificazione di riviste scientifiche al fine di proporre un criterio di classificazione alternativo all'impact factor. Il metodo proposto viene illustrato con un'applicazione alle principali riviste internazionali di statistica.

Correlation models for paired comparison data / Cattelan, Manuela. - (2009).