The DNA is a flexible and heterogeneous molecule that can adopt different local conformations alternative to the classical double-helix. These noncanonical structures are known as non-B DNAs. These conformers appear to play an important role in different physiological and pathological cellular conditions and influence many biochemical properties of the genome. The formation of these structures is dependent upon specific features of the DNA sequence and different patterns may lead to the formation of different non-B DNAs. Due to lack of updated and flexible computational methods, during these years I focused my work on the development of new tools for the detection of some of these patterns at a genome-wide scale. Particularly, I focused on the detection of patterns that are degenerate. For this task, I developed NeSSie and QPARSE. NeSSie efficiently and exhaustively detects sequences with symmetrical properties, such as mirrors and palindromes that are associated to the formation of hairpins, cruciforms, and triple-stranded DNA. QPARSE detects consecutive exact or degenerate runs of Gs (G-islands) that are involved in the formation of G-quadruplex (G4) and paired G-quadruplex structures, i.e. two quadruplex structures that are close to each other along the sequence and that can fold cooperatively interacting into a higher-order structure. Eventually, I started using these tools to perform analyses on Mycobacterium spp. and human genomes. In the genomes of Mycobacterium spp. that are capable of developing tuberculosis-like diseases, NeSSie revealed the enrichment of a pattern with perfect mirror properties. Experimental analyses confirmed that the pattern can fold into a previously unknown but very stable hairpin structure. In the human genome, I focused on the detection of paired G-quadruplex systems. A genome-wide analysis revealed a striking enrichment of sequences potentially involved in the formation of paired G4 systems in correspondence of the TSS (Transcription Starting Site) of thousands of human genes. Among the predicted systems, one has been detected in correspondence of BCL2 TSS and ongoing experimental validations suggest a cooperative folding of the two G-quadruplex structures. These results contribute to the idea that non-B DNAs can play important functional and potentially structural roles. They also suggest that the folding landscape of the DNA molecule is much more complex than previously assumed, and we have a huge lack of knowledge towards the alternative structures that can form in DNA. Following these evidences, the DNA sequence needs to be widely re-evaluated considering also its structural properties addressing efforts both at computational and experimental validation levels.

La doppia elica del DNA è una molecola molto flessibile ed eterogenea, che può adottare una vasta gamma di conformazioni locali alternative. Queste conformazioni vengono collettivamente chiamate non-B DNA. Questi conformeri sembrano svolgere un ruolo importante in diverse condizioni cellulari sia fisiologiche che patologiche, ed influenzano molte proprietà biochimiche del genoma. La formazione di queste strutture dipende da caratteristiche specifiche della sequenza del DNA, e diversi motivi di sequenza possono portare alla formazione di diverse strutture non-B DNA. Durante questi anni, ho concentrato il mio lavoro sullo sviluppo di nuovi strumenti computazionali per la rilevazione di alcuni di questi motivi su scala genomica. Questo investimento di tempo è stato necessario, poiché attualmente mancano strumenti sufficientemente flessibili in grado di eseguire tali analisi. In particolare, mi sono concentrato sul rilevamento di motivi degenerati. A tale scopo, ho sviluppato NeSSie e QPARSE. NeSSie è in grado di rilevare in modo efficiente ed esauriente sequenze con proprietà simmetriche, come motivi speculari e palindromici associati alla formazione di forcine, strutture cruciformi e regioni di DNA a triplo filamento. QPARSE può rilevare ripetizioni consecutive di isole di G esatte o degenerate, che sono coinvolte nella formazione di G-quadruplex (G4) e strutture G-quadruplex appaiate (cioè due strutture quadruplex che si trovano vicine lungo la sequenza e che possono interagire formando una struttura di ordine superiore ed influenzandosi reciprocamente nel ripiegamento). Ho quindi iniziato a utilizzare questi strumenti per eseguire analisi su genomi appartenenti a specie di micobatterio e sul genoma umano. Nei genomi delle specie di micobatteri che sono in grado di sviluppare malattie simili alla tubercolosi, NeSSie ha rivelato l'arricchimento di un motivo con una perfetta simmetria a specchio. Analisi sperimentali hanno quindi confermato che questo motivo può piegarsi in una struttura a forcina precedentemente sconosciuta ma molto stabile. Nel genoma umano, mi sono concentrato sul rilevamento di sistemi G-quadruplex accoppiati. Una analisi su tutto il genoma ha rivelato un sorprendente arricchimento di sequenze potenzialmente coinvolte nella formazione di questi sistemi in corrispondenza del TSS (Sito di inizio della trascrizione) di migliaia di geni umani. Tra i sistemi predetti, uno identificato in corrispondenza del TSS di BCL2 è in corso di validazione sperimentale e i risultati preliminari sono promettenti. Questi risultati contribuiscono all'idea che i non-B DNA possano svolgere importanti ruoli funzionali e potenzialmente strutturali. Suggeriscono anche che il panorama di strutture che possono formarsi nella molecola di DNA sia molto più complesso di quanto ipotizzato, e che abbiamo ancora un'enorme mancanza di conoscenza verso queste strutture alternative. Seguendo queste evidenze, la sequenza del DNA deve essere ampiamente rivalutata non solo dal punto di vista della codifica, ma considerando anche le sue proprietà strutturali e funzionali. È quindi necessario indirizzare gli sforzi verso nuovi campi di indagine, studiando e caratterizzando queste strutture a livello genomico.

Development and Application of Informatics Tools for the Detection and Analysis of Non-Canonical DNA Structures / Berselli, Michele. - (2018 Nov 26).

Development and Application of Informatics Tools for the Detection and Analysis of Non-Canonical DNA Structures

Berselli, Michele
2018

Abstract

La doppia elica del DNA è una molecola molto flessibile ed eterogenea, che può adottare una vasta gamma di conformazioni locali alternative. Queste conformazioni vengono collettivamente chiamate non-B DNA. Questi conformeri sembrano svolgere un ruolo importante in diverse condizioni cellulari sia fisiologiche che patologiche, ed influenzano molte proprietà biochimiche del genoma. La formazione di queste strutture dipende da caratteristiche specifiche della sequenza del DNA, e diversi motivi di sequenza possono portare alla formazione di diverse strutture non-B DNA. Durante questi anni, ho concentrato il mio lavoro sullo sviluppo di nuovi strumenti computazionali per la rilevazione di alcuni di questi motivi su scala genomica. Questo investimento di tempo è stato necessario, poiché attualmente mancano strumenti sufficientemente flessibili in grado di eseguire tali analisi. In particolare, mi sono concentrato sul rilevamento di motivi degenerati. A tale scopo, ho sviluppato NeSSie e QPARSE. NeSSie è in grado di rilevare in modo efficiente ed esauriente sequenze con proprietà simmetriche, come motivi speculari e palindromici associati alla formazione di forcine, strutture cruciformi e regioni di DNA a triplo filamento. QPARSE può rilevare ripetizioni consecutive di isole di G esatte o degenerate, che sono coinvolte nella formazione di G-quadruplex (G4) e strutture G-quadruplex appaiate (cioè due strutture quadruplex che si trovano vicine lungo la sequenza e che possono interagire formando una struttura di ordine superiore ed influenzandosi reciprocamente nel ripiegamento). Ho quindi iniziato a utilizzare questi strumenti per eseguire analisi su genomi appartenenti a specie di micobatterio e sul genoma umano. Nei genomi delle specie di micobatteri che sono in grado di sviluppare malattie simili alla tubercolosi, NeSSie ha rivelato l'arricchimento di un motivo con una perfetta simmetria a specchio. Analisi sperimentali hanno quindi confermato che questo motivo può piegarsi in una struttura a forcina precedentemente sconosciuta ma molto stabile. Nel genoma umano, mi sono concentrato sul rilevamento di sistemi G-quadruplex accoppiati. Una analisi su tutto il genoma ha rivelato un sorprendente arricchimento di sequenze potenzialmente coinvolte nella formazione di questi sistemi in corrispondenza del TSS (Sito di inizio della trascrizione) di migliaia di geni umani. Tra i sistemi predetti, uno identificato in corrispondenza del TSS di BCL2 è in corso di validazione sperimentale e i risultati preliminari sono promettenti. Questi risultati contribuiscono all'idea che i non-B DNA possano svolgere importanti ruoli funzionali e potenzialmente strutturali. Suggeriscono anche che il panorama di strutture che possono formarsi nella molecola di DNA sia molto più complesso di quanto ipotizzato, e che abbiamo ancora un'enorme mancanza di conoscenza verso queste strutture alternative. Seguendo queste evidenze, la sequenza del DNA deve essere ampiamente rivalutata non solo dal punto di vista della codifica, ma considerando anche le sue proprietà strutturali e funzionali. È quindi necessario indirizzare gli sforzi verso nuovi campi di indagine, studiando e caratterizzando queste strutture a livello genomico.
26-nov-2018
The DNA is a flexible and heterogeneous molecule that can adopt different local conformations alternative to the classical double-helix. These noncanonical structures are known as non-B DNAs. These conformers appear to play an important role in different physiological and pathological cellular conditions and influence many biochemical properties of the genome. The formation of these structures is dependent upon specific features of the DNA sequence and different patterns may lead to the formation of different non-B DNAs. Due to lack of updated and flexible computational methods, during these years I focused my work on the development of new tools for the detection of some of these patterns at a genome-wide scale. Particularly, I focused on the detection of patterns that are degenerate. For this task, I developed NeSSie and QPARSE. NeSSie efficiently and exhaustively detects sequences with symmetrical properties, such as mirrors and palindromes that are associated to the formation of hairpins, cruciforms, and triple-stranded DNA. QPARSE detects consecutive exact or degenerate runs of Gs (G-islands) that are involved in the formation of G-quadruplex (G4) and paired G-quadruplex structures, i.e. two quadruplex structures that are close to each other along the sequence and that can fold cooperatively interacting into a higher-order structure. Eventually, I started using these tools to perform analyses on Mycobacterium spp. and human genomes. In the genomes of Mycobacterium spp. that are capable of developing tuberculosis-like diseases, NeSSie revealed the enrichment of a pattern with perfect mirror properties. Experimental analyses confirmed that the pattern can fold into a previously unknown but very stable hairpin structure. In the human genome, I focused on the detection of paired G-quadruplex systems. A genome-wide analysis revealed a striking enrichment of sequences potentially involved in the formation of paired G4 systems in correspondence of the TSS (Transcription Starting Site) of thousands of human genes. Among the predicted systems, one has been detected in correspondence of BCL2 TSS and ongoing experimental validations suggest a cooperative folding of the two G-quadruplex structures. These results contribute to the idea that non-B DNAs can play important functional and potentially structural roles. They also suggest that the folding landscape of the DNA molecule is much more complex than previously assumed, and we have a huge lack of knowledge towards the alternative structures that can form in DNA. Following these evidences, the DNA sequence needs to be widely re-evaluated considering also its structural properties addressing efforts both at computational and experimental validation levels.
DNA, secondary structures, patterns, 3D-genome, non-B DNAs, mirror, G-quadruplex
Development and Application of Informatics Tools for the Detection and Analysis of Non-Canonical DNA Structures / Berselli, Michele. - (2018 Nov 26).
File in questo prodotto:
File Dimensione Formato  
Berselli_Michele_tesi.pdf

accesso aperto

Tipologia: Tesi di dottorato
Licenza: Accesso gratuito
Dimensione 11.48 MB
Formato Adobe PDF
11.48 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11577/3425749
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
  • OpenAlex ND
social impact