Multi-level modeling and computational approaches to investigate long-term diabetes complications

Trifoglio, Emanuele

Diabetes mellitus is a lifelong, incapacitating disease affecting multiple organs. Worldwide prevalence figures estimate that there are 250 million diabetic patients today and that this number will increase by 50% by 2025. The disease is associated with devastating chronic complications including coronary heart disease, stroke and peripheral vascular disease (macrovascular disease) as well as microvascular disorders, leading to damage of kidneys (nephropathy) and eyes (retinopathy). These complications impose an immense burden on the quality of life of the patients and account for more than 10% of health care costs in Europe. Therefore, novel means to prevent the onset and the progression of these devastating diabetic complications are needed. The aim of the work presented in this thesis is to propose novel computational methods to study diabetes complications with a multi-level approach. Diabetes mellitus is a strongly multifactorial disease, and several risks factors (such as genetic, and environmental factors) are combined together in a complex trait, leading to the onset of the disease. Physiological mechanisms that underlie the disease and the onset and progression of the different complications are still mostly unknown. Given the complex nature of diabetes, the study of the complications can be faced with a multi-level modeling approach. In the general scheme for complex disease, such as diabetes, 3 key elements act together to determine the disease status (outcome) of a patient: i) the phenotype, i.e. the set of all metabolic, anthropometric and clinical variables characterizing the patient, ii) the genotype, i.e. the DNA sequence of the patient, iii) the set of interventions on the patient, i.e. therapies and treatments with drugs. All these 3 variables are connected each other through interactions and have a joint effect on the final outcome of the patient. The multi-level approach allows to disjoint the full problem into sub-problems, focusing only on a set of variables and interaction (reflecting a specific level of information) according to available data. In the present work, 3 main levels of study of diabetes complications are considered, and, for each approach, novel methodologies developed during my PhD are proposed. The 3 levels of study considered in the present work are: i) modeling the effect of genotype on the outcome, ii) modeling the effect of phenotype and treatment on the progression of the outcome, iii) modeling the effect of treatment on the phenotype. In the first level of study, diabetes complications are studied from a static point of view, i.e. without considering their progression over time, and the main objective is to identify the genetic biomarkers that allow to predict the disease state of the patients with the final goal to stratify patients according to the risk of developing the disease. Genome Wide Associations Studies (GWAs) are statistical studies aiming at identify those SNPs able to explain the differences observed for a certain outcome (the disease status) between cases (diseased subjects) and controls (healthy subjects) in a study population. Several methods performing univariate and/or multivariate selection have been used in literature for the identification of genetic markers from GWAs data. In this thesis, a novel algorithm for genetic biomarker selection and subjects classification from genome-wide SNP data has been developed. The algorithm is based on the Naïve Bayes classification framework, enriched by three main features: i) bootstrap aggregating of an ensemble of Naïve Bayes classifiers, ii) a novel strategy for ranking and selecting the attributes used by each classifier in the ensemble, iii) a permutation-based procedure for selecting significant biomarkers, based on their marginal utility in the classification process. The algorithm has been validated on the Wellcome Trust Case-Control Consortium on Type 1 Diabetes and its performance compared with the ones of both a standard Naïve Bayes algorithm and HyperLASSO, a penalized logistic regression algorithm from the state-of-the-art in simultaneous genome-wide data analysis. The second level of study is represented by the dynamic analysis of diabetes complications, where the variable “time” plays a major role. In particular, the objective is to model the onset and the progression of diabetes complications over time, using phenotypic and therapeutic information, with the final goal to estimate a probability for the diabetic patient to develop a certain complication, thus optimizing clinical trials and avoiding invasive and expensive tests. So far, several models of diabetes complications are present in literature, but none is able to flexibly integrate accumulating –omics knowledge (i.e. proteomics, metabolomics, genomics) into a clinical macro-level. The most interesting complication models, in fact, are based on Markov Models (also called state transition model) and use phenotypic information to describe the cohort of interest without the possibility to easily integrate additional information. A new in-silico model for simulating the progression of cardiovascular and kidney complications in diabetic patients is presented. The model proposes, as innovative feature, the use of Dynamic Bayesian Networks (DBNs) for modeling the interactions between variables. Compared to Markov Models, which require as many nodes as the number of combinations of variables’ values, DBNs are more advantageous in handling both the structure and possible additional information, since each variable is simply represented by a node in the network. The model was built relying on data from the Diabetes Control and Complications Trial, a multicenter randomized clinical trial designed to compare intensive with conventional therapy with regard to their effects on the development and progression of the early vascular and neurologic. The developed model is able to predict the progression of the main diabetes complications with an accuracy greater than 95% at a population level. The model is suitable to be used as a decision support tool to help clinicians in the therapy design through cost-effectiveness analysis: exploiting the simulations generated through the model, it is possible, for example, to choose the best strategy between two different therapies for treating a specific cohort of patients. To this aim, a user-interface based on the present model is currently under development. The flexible structure of the model will allow to easily add genotypic information in the next feature as a potential mean to improve predictions. The last level of study focuses on the action of a specific drug on a target phenotype, with the final aim to develop rational means to personalize drug therapy and to ensure maximum efficacy with minimal adverse effects. Focusing on cardiovascular diseases as a direct complication of diabetes, aspirin therapy is an important component of cardiovascular prevention for high risk patients. Aspirin performs its preventive action by inhibiting a key enzyme (the prostaglandin-endoperoxide synthase PTGS-1, also known as cyclooxygenase COX-1) in the cascade leading to the production of thromboxane B2 (TxB2), the major factor involved in the platelets aggregation with consequent formation of thrombi. It is known, from literature, that diabetic patients exhibit a different response to aspirin therapy in comparison to healthy subjects, showing a reduced effectiveness of the drug, which is often referred to as ‘aspirin resistance’. Given the lack of a mathematical characterization of these phenomena, the problem was faced using a pharmacodynamics modeling approach, with an explorative intent. Relaying on biological knowledge retrieved from literature, a partially lumped and partially distributed compartmental model was developed, able to describe: i) the kinetics of COX-1 enzyme, from its production within megakaryocytes in bone-marrow to circulating platelets in blood, ii) the pharmacokinetics and pharmacodynamics of aspirin, i.e. its distribution in the body tissues and its interaction with COX-1. The model was tested using data of serum thromboxane TxB2 recovery levels after aspirin withdrawal in healthy subjects. Possible mechanisms to explain the so-called ‘aspirin resistance’ have been finally discussed.

Il diabete mellito rappresenta una delle patologie più diffuse nel mondo e si stima che la sua incidenza aumenterà del 50 % nell’arco di 15 anni, passando da 250 milioni a quasi 400 milioni di malati nel 2025. La patologia comporta l’insorgenza di devastanti complicanze croniche, tra cui disturbi legati al danneggiamento dei vasi sanguigni sia a livello macro-vascolare – come coronopatia, infarto, insufficienza cardiaca, angina pectoris, ictus – che micro-vascolare, con conseguente danno a carico dei reni (nefropatia) e degli occhi (retinopatia). La patologia diabetica ha un’enorme impatto sia in termini di qualità di vita dei pazienti, sia a livello economico, in quanto si stima che più del 10 % dei costi dell’assistenza sanitaria di tutta l’Europa siano imputabili alla cura del diabete. Per questo motivo, nuovi mezzi che permettano di prevenire l’insorgere e il progredire della malattia e delle sue complicanze sono assolutamente necessari. L’obiettivo del seguente lavoro di tesi è quello di proporre nuovi metodi computazionali per lo studio delle complicanze del diabete in un ambito di modellistica multi-livello. Il diabete mellito è una malattia fortemente multifattoriale, nella quale molteplici fattori di rischio di diversa natura (genetica e ambientale) concorrono a provocarne l’insorgenza e lo sviluppo. I meccanismi fisiologici che sottendono allo scatenarsi e al progredire della patologia sono ancora per la maggior parte sconosciuti. Data la natura multifattoriale del diabete, lo studio delle complicanze si presta ad essere affrontato con un approccio multi-livello. Lo schema generale di una malattia multifattoriale, come il diabete, prevede l’azione combinata di 3 elementi chiave sullo stato patologico (l’outcome) del paziente: i) il fenotipo, ovvero l’insieme di tutte le variabili metaboliche, antropometriche e ambientali caratteristiche del paziente, ii) il genotipo, ovvero la sequenza DNA del paziente, iii) il trattamento, ovvero l’insieme di interventi esterni effettuati sul paziente, come terapie ed utilizzo di farmaci. Queste 3 variabili sono interconnesse tramite interazioni e concorrono tutte insieme a determinare l’outcome del paziente. L’approccio multi-livello consente di scomporre il problema completo in sottoproblemi, focalizzando l’attenzione di volta in volta solo su un sottoinsieme di variabili e di interazioni, a seconda del livello di informazione contenuto nei dati a disposizione. Nel seguente lavoro, vengono considerati 3 principali livelli di studio delle complicanze diabetiche, e, per ognuno dei 3 ambiti, vengono proposti nuovi metodi sviluppati durante il periodo di dottorato. I 3 livelli di studio trattati sono: i) modellizzazione dell’effetto del genotipo sull’outcome, ii) modellizzazione dell’effetto combinato di fenotipo e trattamento sulla progressione dell’outcome, iii) modellizzazione dell’azione del trattamento sul fenotipo. Il primo livello di studio si propone di studiare le complicanze diabetiche da un punto di vista statico, ovvero senza considerare l’evolversi e il progredire di tali complicanze nel tempo, ed ha come obiettivo quello di identificare i principali biomarcatori genetici che consentano di predire lo stato di malattia dei pazienti, e di stratificare i pazienti in base al rischio di sviluppare o meno la malattia. I Genome Wide Association Studies (GWAS), sono studi di associazione volti a identificare gli SNPs che, da soli o in combinazioni con altri SNPs, consentono di spiegare le differenze che si osservano in un determinato outcome (a presenza o meno di una patologia) tra casi (soggetti malati) e controlli (soggetti sani) in una popolazione di studio. Diversi metodi di selezione univariata e multivariata sono presenti in letteratura per l’identificazione di marcatori genetici da studi GWAS. In questo ambito, è stato sviluppato un nuovo metodo per la selezione multivariata di biomarcatori genetici e per la classificazione di soggetti a partire da dati di SNPs di studi GWAS, basato sui classificatori di Bayes e arricchito da 3 principali componenti: i) una predizione ottenuta da un insieme di classificatori di Bayes, utilizzando una strategia basata sul bootstrap, ii) un nuovo metodo per ordinare e selezionare gli attributi selezionati da ogni classificatore, iii) una procedura, bastata sulle permutazioni, per selezionare i biomarcatori significativi, sulla base della loro utilità marginale nel processo di classificazione. Il metodo è stato validato sui dati genome-wide del Wellcome Trust Case-Control Consortium, (WTCCC) relativi a diabetici di tipo 1 e le sue performance confrontate con gli algoritmi rappresentanti lo stato dell’arte in letteratura per studi di associazione genetica, in particolare un classificatore di Bayes e un algoritmo di regressione logistica penalizzata (HyperLASSO). Il secondo livello di studio riguarda l’analisi dinamica delle complicanze, nella quale interviene anche la variabile tempo come fattore chiave. In quest’ottica, si vuole modellizzare l’insorgere e la progressione temporale delle principali complicanze legate al diabete utilizzando l’informazione fenotipica e terapeutica, con l’obiettivo di stimare la probabilità che il paziente diabetico possa o meno sviluppare una certa complicanza, ottimizzando quindi i trial clinici ed evitando esami costosi e invasivi. In letteratura, sono presenti diversi modelli delle complicanze di diabete, ma nessuno è in grado di integrare in maniera flessibile le diverse conoscenze –omiche (proteomica, metabolomica, genomica) ad un livello clinico macroscopico. I principali modelli presenti in letteratura sono infatti basati sui modelli di Markov (detti anche modelli si transizione di stato) e utilizzano l’informazione fenotipica senza la possibilità di integrare facilmente informazioni aggiuntive. In questo ambito di studio, viene proposto un nuovo modello in-silico delle complicanze cardiovascolari e renali del diabete, che propone come aspetto innovativo l’utilizzo delle reti dinamiche bayesiane (Dynamic Bayesian Networks, DBNs) per modellizzare le interazioni tra le variabili. Rispetto ai modelli di Markov, che richiedono tanti nodi quante sono le possibili combinazioni degli stati delle variabili, le DBN hanno il vantaggio di rappresentare ogni variabile tramite un singolo nodo e permettono quindi una maggiore facilità nella gestione della struttura e nell’integrazione di eventuale informazione aggiuntiva. Il modello è stato costruito utilizzando i dati del Diabetes Control and Complications Trial (DCCT), un trial clinico randomizzato condotto con lo scopo di confrontare gli effetti della terapia intensiva rispetto a quelli della terapia convenzionale sullo sviluppo delle complicanze vascolari e neurologiche a lungo termine. Il modello sviluppato, è in grado di predire la progressione delle complicanze diabetiche trattate con un’accuratezza superiore al 95% a livello di popolazione. Il modello si presta quindi ad essere utilizzato come tool di supporto nel processo di decisione terapeutica da parte dei clinici e, in quest’ottica, sta portando alla realizzazione di un’interfaccia web. La struttura flessibile del modello inoltre consentirà di integrare facilmente l’informazione genotipica, con l’obiettivo futuro di migliorare le prestazioni a livello di predizione. Il terzo ed ultimo livello di studio considerato è lo studio dell’azione di uno specifico farmaco su un particolare fenotipo, con l’obiettivo finale di sviluppare metodologie che consentano di personalizzare i farmaci, adattandoli alla specifica risposta dell’individuo. Nell’ambito specifico delle complicanze cardiovascolari del diabete, una delle terapie più diffuse è quella del trattamento con aspirina per la prevenzione di eventi avversi nei pazienti ad alto rischio. L’aspirina deve la sua azione preventiva alla capacità di inibire un enzima chiave (la prostaglandina-endoperossido sintase PTGS-1, conosciuta anche come cicloossigenasi COX-1) nella cascata che porta alla formazione di trombossano B2 (TxB2), il principale responsabile dell’aggregazione piastrinica nel sangue e della conseguente formazioni di trombi. È noto, da letteratura, come i pazienti diabetici rispondano in maniera differente alla terapia con aspirina rispetto ai soggetti sani, evidenziando una risposta ridotta al farmaco, tanto da portare in ambito clinico alla coniazione del termine ‘aspirino-resistenza’. Data la mancanza di una trattazione matematica del fenomeno in letteratura, si è deciso di studiare il problema utilizzando un approccio modellistico di farmacodinamica, con un intento. Utilizzando informazioni biologiche ricavate da letteratura, si è sviluppato un modello, in parte compartimentale e in parte distribuito, che descrive: i) la cinetica dell’enzima COX-1 a partire dalla sua produzione all’interno dei megacariociti del midollo osseo fino a giungere nelle piastrine del sangue, ii) la farmacocinetica e la farmacodinamica dell’aspirina, ovvero la distribuzione del farmaco nel corpo e la sua interazione con l’enzima COX-1. Il modello è stato testato su dati sperimentali relativi al recupero di trombossano B2 sierico dopo la sospensione di aspirina in pazienti sani. Sono stati infine discussi meccanismi potenzialmente candidati a spiegare il fenomeno dell’aspirino-resistenza in pazienti diabetici.

Multi-level modeling and computational approaches to investigate long-term diabetes complications / Trifoglio, Emanuele. - (2014 Jan 30).