Over the last two decades the advancement in DNA sequencing technologies has enormously increased the amount of sequencing data available to researchers and geneticists. This has been accompanied by the development of tools for sequencing data analysis, including the human reference genome, that is undoubtedly an indispensable resource. It is known that the reference genome does not always represent the real consensus sequence of the human population, due to the inclusion of rare alleles and sequencing errors. Moreover, genomic duplications are often misassembled and, as a result, they may be found in the reference genome as a collapsed consensus, thus generating false variants. In this work I performed a thorough search for conflicting information between the human reference genome (GRCh37 and GRCh38) and some of the most popular human genetic resources such as the 1000 Genomes Project, to disclose minor alleles and to mine genetic inconsistencies. To search for unreported genomic duplications, I performed a genome wide screening for unbalanced heterozygosity. I found that inaccuracies and errors are much higher than expected. Minor alleles occurring with a frequency <10% are found on average every ~7,000 bases and include many rare variants that are never found elsewhere, producing high numbers of false positives as well as possible false negatives. The systematic screening for unbalanced heterozygosity revealed ~86,000 variants that are likely the result of unreported genomic duplications, involving functionally relevant genes such as MAP2K3 and KCNJ12. My findings may help the ongoing quest to obtain a highly accurate human genome reference sequence. Moreover, the results presented in this thesis will be useful to human geneticists in the process of filtering and selecting causative variants. The advancement in DNA sequencing technologies also accounts for the increasing usage of Whole Genome Sequencing approaches both in the research and clinical fields, thus revealing that the large majority of disease-associated SNPs are located in non-coding regions of the human genome. However, the functional interpretation of non-coding variants is still challenging. Part of my work also addressed this problem, aiming to develop a method for non-coding variant prioritization. The method, presented in the last chapter of this thesis, is based on a comparative genomics approach for the identification of functional constraints in primate orthologous genes. The first steps of my approach have proved to be powerful in identifying orthologous genes, but further work is necessary to optimize the multiple sequence alignment step and the identification of conserved domains.
Nel corso dell’ultimo ventennio l’avanzamento tecnologico nel campo del sequenziamento del DNA ha portato a un enorme aumento della quantità di dati di sequenziamento accessibili a ricercatori e genetisti. Questa crescita è stata accompagnata dallo sviluppo di strumenti necessari all’analisi dei dati; tra questi il genoma umano di riferimento è senza dubbio una risorsa indispensabile. È noto che il genoma di riferimento non sempre rappresenta la reale sequenza consenso della popolazione umana, poiché alleli rari ed errori di sequenziamento sono stati inclusi in essa. Inoltre, duplicazioni genomiche sono spesso mal assemblate e, di conseguenza, possono essere trovate nel genoma di riferimento come collassate, generando così false varianti. In questa tesi è descritta la ricerca approfondita di incongruenze tra il genoma umano di riferimento (GRCh37 e GRCh38) e alcune delle più popolari risorse di genetica umana, come il 1000 Genomes Project, per scovare alleli minori e inconsistenze genetiche. Per identificare duplicazioni genomiche non riportate nel genoma, è stata poi condotta un’ampia ricerca di eterozigosità sbilanciata. Questa analisi ha dimostrato che incongruenze ed errori sono molto più frequenti di quanto atteso. Infatti, alleli minori con una frequenza <10% sono stati trovati in media ogni ~7,000 basi e tra essi sono presenti molte varianti rare mai riportate nei database. Lo screening sistematico per l’eterozigosità sbilanciata ha mostrato inoltre che ~86,000 varianti possono derivare da duplicazioni genomiche non riportate nella sequenza di riferimento e che alcune di esse coinvolgono geni importanti come MAP2K3 e KCNJ12. I risultati descritti in questo lavoro possono contribuire alla definizione di una sequenza di riferimento del genoma umano altamente accurata. Inoltre, questi stessi risultati potranno essere utili ai genetisti umani nel processo di filtraggio e selezione delle varianti potenzialmente associate a malattie. L’avanzamento nel settore del sequenziamento del DNA ha condotto inoltre dell’utilizzo sempre maggiore degli approcci di sequenziamento dell’intero genoma, sia nel campo della ricerca sia nella diagnosi clinica, rivelando così che la gran parte degli SNP associati a malattia è localizzata nelle regioni non codificanti del genoma umano. Tuttavia, l’interpretazione funzionale delle varianti non codificanti è ancora una questione problematica. Parte del mio lavoro ha riguardato anche questo aspetto, con lo scopo di sviluppare un metodo per la prioritizzazione delle varianti non codificanti. Questo metodo, descritto nell’ultimo capitolo della tesi, si basa su un approccio di genomica comparata per l’identificazione di domini funzionali in geni ortologhi di organismi primati. I primi passaggi di questo approccio hanno dimostrato essere molto buoni per l’identificazione dei geni ortologhi, ma ulteriore lavoro è necessario per ottimizzare il processo di allineamento multiplo delle sequenze e l’identificazione dei domini conservati.
From exome to whole genome sequencing: mining for inconsistencies and functional elements in coding and non-coding regions / Ferrarini, Margherita. - (2018 Nov 30).
From exome to whole genome sequencing: mining for inconsistencies and functional elements in coding and non-coding regions
Ferrarini, Margherita
2018
Abstract
Nel corso dell’ultimo ventennio l’avanzamento tecnologico nel campo del sequenziamento del DNA ha portato a un enorme aumento della quantità di dati di sequenziamento accessibili a ricercatori e genetisti. Questa crescita è stata accompagnata dallo sviluppo di strumenti necessari all’analisi dei dati; tra questi il genoma umano di riferimento è senza dubbio una risorsa indispensabile. È noto che il genoma di riferimento non sempre rappresenta la reale sequenza consenso della popolazione umana, poiché alleli rari ed errori di sequenziamento sono stati inclusi in essa. Inoltre, duplicazioni genomiche sono spesso mal assemblate e, di conseguenza, possono essere trovate nel genoma di riferimento come collassate, generando così false varianti. In questa tesi è descritta la ricerca approfondita di incongruenze tra il genoma umano di riferimento (GRCh37 e GRCh38) e alcune delle più popolari risorse di genetica umana, come il 1000 Genomes Project, per scovare alleli minori e inconsistenze genetiche. Per identificare duplicazioni genomiche non riportate nel genoma, è stata poi condotta un’ampia ricerca di eterozigosità sbilanciata. Questa analisi ha dimostrato che incongruenze ed errori sono molto più frequenti di quanto atteso. Infatti, alleli minori con una frequenza <10% sono stati trovati in media ogni ~7,000 basi e tra essi sono presenti molte varianti rare mai riportate nei database. Lo screening sistematico per l’eterozigosità sbilanciata ha mostrato inoltre che ~86,000 varianti possono derivare da duplicazioni genomiche non riportate nella sequenza di riferimento e che alcune di esse coinvolgono geni importanti come MAP2K3 e KCNJ12. I risultati descritti in questo lavoro possono contribuire alla definizione di una sequenza di riferimento del genoma umano altamente accurata. Inoltre, questi stessi risultati potranno essere utili ai genetisti umani nel processo di filtraggio e selezione delle varianti potenzialmente associate a malattie. L’avanzamento nel settore del sequenziamento del DNA ha condotto inoltre dell’utilizzo sempre maggiore degli approcci di sequenziamento dell’intero genoma, sia nel campo della ricerca sia nella diagnosi clinica, rivelando così che la gran parte degli SNP associati a malattia è localizzata nelle regioni non codificanti del genoma umano. Tuttavia, l’interpretazione funzionale delle varianti non codificanti è ancora una questione problematica. Parte del mio lavoro ha riguardato anche questo aspetto, con lo scopo di sviluppare un metodo per la prioritizzazione delle varianti non codificanti. Questo metodo, descritto nell’ultimo capitolo della tesi, si basa su un approccio di genomica comparata per l’identificazione di domini funzionali in geni ortologhi di organismi primati. I primi passaggi di questo approccio hanno dimostrato essere molto buoni per l’identificazione dei geni ortologhi, ma ulteriore lavoro è necessario per ottimizzare il processo di allineamento multiplo delle sequenze e l’identificazione dei domini conservati.File | Dimensione | Formato | |
---|---|---|---|
ferrarini_margherita_thesis.pdf
accesso aperto
Tipologia:
Tesi di dottorato
Licenza:
Non specificato
Dimensione
9.55 MB
Formato
Adobe PDF
|
9.55 MB | Adobe PDF | Visualizza/Apri |
Pubblicazioni consigliate
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.