Cell states in haematopoiesis are controlled by complex circuits, involving master regulators transcription factors and a growing family of RNA species, shaping cell phenotype, its maintenance and plasticity. Amongst RNA species, circular RNAs (circRNAs) are rapidly gaining the status of particularly stable transcriptome members with distinctive qualities. Regarding molecular functions, circRNAs modulate host gene expression, compete for binding of microRNAs, RNA-binding proteins and translation initiation, and participate in regulatory circuits. RNA-seq studies identified thousands of circRNAs with developmental stage- and tissue-specific expression corroborating earlier suggestions that circular isoforms are a natural feature of the cell expression program. circRNAs are abundantly expressed and highly regulated also in the haematopoietic compartment, as described by recent and preliminary studies on circRNAs in blood cells. In my PhD project we focused on the development of a bioinformatics pipeline to detect, quantify and characterize circRNAs from RNA-seq data, by combining both publicly available tools and custom scripts. Aiming to increase the discovery power of the pipeline as well as results robustness, we combined four programs for circRNA detection in parallel. The pipeline was tested on a publicly available dataset of haematopoietic lineage cells such as Haematopoietic Stem Cells, Lymphoid progenitors, Myeloid Progenitors and Megakaryocyte–Erythroblast Progenitors. This pilot analysis allowed to retrieve a great number of circRNAs despite features of the data that were not optimal for circRNA detection. Major results from the pilot study were the identification of distinct sets of circRNAs specifically expressed in different cell types, and the feasibility and convenience of circRNA detection in published datasets to complement the original studies. In parallel, we studied circRNA and linear RNA expression in differentiated cells of the haematopoietic compartment, specifically B cells T cells and Monocytes. We produced RNA-seq data of 12 samples, obtained by cell sorting from peripheral blood of healthy donors and using ribosomal RNA depletion for the library construction. Out of the over 115000 detected backsplices supported by at least two reads, we selected putative circRNAs found by at least two methods, gaining also indirect support that most of them are truly circular forms thanks to independent evidence. This subset consists of 26211 circRNAs expressed by 7307 different genes, with 38.6% of genes expressing one circRNA each, and 40.7% of genes producing from 2 to 5 different circular isoforms and the remaining genes expressing a higher number of circRNAs. The large majority of circRNAs are exonic, 11.5% have backsplice ends falling into intronic regions and only a few (2.5%) probably derive from genomic regions annotated as intergenic. Comparison with the analysis of the linear transcriptome pointed out that the expression levels of linear and circular RNAs expressed from the same gene have only a very slight tendency toward positive correlation, with most of the pairs showing scarce or even negative correlations, suggesting specific regulatory mechanisms underlying the expression of circRNAs. The comparison between B cells T cells and Monocytes indicated groups of circRNAs expressed in all the cell types and specific of each cell type. Unsupervised analyses of expression profiles showed for the first time specificities of circRNA expression associated to different blood cells. B cells and T cells circRNAomes are similar from quantitative and qualitative points of view, whereas Monocytes express a lower number of circRNAs and have a more specific circRNAome. Indeed, differential expression tests outlined sets of circRNAs with significantly variable expression in B cells compared to Monocytes (2589), B cells compared to T cells (168) and Monocytes compared to T cells (977). Differentially expressed circRNAs are associated to genes enriched in protein products involved in key blood processes and pathways. Finally, we focused on 74 circRNAs upregulated in B cells compared to both Monocytes and T cells, 40 upregulated in T cells and 159 upregulated in Monocytes, for a total of 273 circRNAs with differential expression and cell specificity. Additional criteria for circRNA prioritization selected circRNAs associated to genes with key functions in haematopoiesis, or altered/deregulated in haematologic malignancies. Prioritized circRNAs will undergo experimental validations. The sequence analyses for in silico prediction of possible circRNAs functions, as presence of multiple miRNA binding sites, protein binding motifs, or open reading frames, will be the starting point for experimental studies to better elucidate the functions of more promising circRNAs. In conclusion we performed the first study of circRNAs in normal B cells T cells and Monocytes grounding on several biological replicates of each cell type being informative on circRNA differential expression. The integration of circular and linear RNA expression profiles with gene annotations and functions, in conjunction with differential expression data, produced new and original results. We showed that taking into account circRNA expression might add definition to the representation of transcriptome variations in normal haematopoiesis, posing the basis to better comprehend the role of circRNAs in the regulatory circuits of blood cells differentiation, which is a prerequisite for transferring this knowledge to research on haematological malignancies.
Il differenziamento cellulare durante l’ematopoiesi è controllato da circuiti complessi, che coinvolgono fattori di trascrizione e diverse specie di RNA che concorrono a stabilire il fenotipo delle cellule e a mantenerlo, e ne assicurano anche la plasticità. Negli ultimi anni sono emerse chiaramente la diversificazione e l’importanza di varie classi di RNA non codificanti. Tra questi, gli RNA circolari (circRNA), prodotti mediante backsplicing di trascritti primari, si stanno rapidamente affermando come membri del trascrittoma particolarmente stabili e con ruoli biologici rilevanti, prevalentemente regolativi. Per quanto riguarda le loro funzioni molecolari i circRNA sono in grado di modulare l’espressione del gene da cui derivano, possono competere per il legame di microRNA, regolando quindi l’espressione dei loro target, ma anche interagire con proteine che legano l’RNA modulandone le funzioni. Diversi circRNA la cui funzione è stata chiarita recentemente partecipano ad importanti assi o circuiti regolatori, intervenendo in processi chiave, di grande rilevanza anche in ambito oncologico, quali la regolazione del ciclo cellulare, il controllo dell’espressione di oncogeni e l’attivazione di specifiche vie di segnale. Studi di RNA-seq hanno identificato migliaia di circRNA con espressione specifica per lo stato di sviluppo o per il tipo di tessuto, corroborando precedenti indicazioni che le isoforme circolari siano una sfaccettatura del programma cellulare, tanto interessante quanto precedentemente sottovalutata. I circRNA sono molto espressi e fortemente regolati anche nel comparto ematopoietico, come mostrato da alcuni studi preliminari sulla loro presenza nelle cellule del sangue. L’identificazione dei circRNA mediante RNA-seq si basa sulla ricerca di backplice, ovvero di sequenze che non mappano linearmente sul genoma ma che sono formate dalla fusione di due sequenze in maniera non colineare, e ciò richiede specifici metodi computazionali. In questo progetto di dottorato è stata sviluppata una pipeline bioinformatica che consente di identificare, quantificare e caratterizzare i circRNA a partire da dati di RNA-seq, mediante quattro metodi computazionali già disponibili utilizzati in parallelo, e di combinare ed elaborare i risultati grazie a una serie di programmi scritti appositamente. La pipeline è stata testata su un dataset di cellule del lineage ematopoietico disponibile nei database pubblici, che contiene dati di sequenziamento di cellule staminali ematopoietiche, di progenitori linfoidi, di progenitori mieloidi e di progenitori di megacariociti ed eritroblasti. Questa analisi pilota ci ha consentito di identificare molti circRNA nonostante le caratteristiche dei dati non fossero ottimali per questo tipo di analisi. I principali risultati di questo studio pilota sono stati l’identificazione di sottogruppi distinti di circRNA specificamente espressi in diversi tipi cellulari, e l’indicazione di fattibilità e convenienza dell’applicazione di questo approccio anche su dati già pubblicati per ampliare e complementare gli studi originali che non avessero preso in considerazione i circRNA. Il progetto principale si è quindi focalizzato sull’analisi dell’espressione di circRNA e RNA lineari in cellule differenziate del comparto ematopoietico. Sono stati prodotti dati RNA-seq di linfociti B, linfociti T e monociti ottenuti tramite sorting da sangue periferico di donatori sani, per un totale di 12 campioni ad alta profondità di sequenziamento e processati mediante un protocollo di sottrazione dell’RNA ribosomale particolarmente adatto per lo studio dei circRNA. Degli oltre 115.000 backsplice identificati da almeno 2 reads di sequenziamento considerando l’insieme dei 12 campioni analizzati, sono stati selezionati 26.211 circRNA identificati da almeno due metodi computazionali. Considerato che studi precedenti basati sull’arricchimento di circRNA in seguito al trattamento con RNAsi R hanno chiarito che i backsplice identificati da almeno due metodi indipendenti sono più affidabili, questo insieme di 26.211 circRNA selezionati dovrebbe risultare robusto. Essi risultano espressi da 7.307 geni diversi, di cui il 38,6% esprime un solo circRNA per gene, il 40,7% produce da 2 a 5 isoforme circolari e i restanti geni ne esprimono 6 o più. La maggioranza dei circRNA identificati è esonica, l’11,5% ha gli estremi della giunzione che mappano su regioni annotate come introniche nel genoma, e solo il 2,5% probabilmente deriva da regioni genomiche annotate come intergeniche. I livelli di espressione dei circRNA e degli RNA lineari espressi dallo stesso gene hanno una leggere tendenza a correlare positivamente, mentre la gran parte delle coppie mostrano scarsa o negativa correlazione, suggerendo che ci siano dei meccanismi di regolazione specifici che sottendono all’espressione di circRNA. Questo dato è in linea con studi recentissimi che presentano lo splicing alternativo delle isoforme circolari come un ulteriore meccanismo che genera complessità nello splicing dei trascritti eucariotici. L’analisi non supervisionata dei profili d’espressione dei circRNAs in linfociti B, linfociti T e monociti ha mostrato per la prima volta la specificità dell’espressione di circRNA associata ai tipi cellulari considerati. I circRNAomi di linfociti B e T risultano simili sia dal punto di vista qualitativo che quantitativo, mentre invece i monociti esprimono un numero minore di circRNA e hanno un circRNAoma più specifico. Il confronto tra tipi cellulari ha indicato gruppi di circRNA espressi in tutti e tre i tipi cellulari, e altri specificamente espressi in un solo tipo. L’analisi statistica dell’espressione differenziale ha evidenziato dei gruppi di circRNA con espressione significativamente diversa nei linfociti B confrontati con monociti (2589), linfociti B confrontati con linfociti T (168) e monociti confrontati con linfociti T (977). CircRNA differenzialmente espressi sono associati a geni le cui proteine sono coinvolte in processi e pathway chiave nel comparto ematopoietico. Infine sono stati evidenziati circRNA differenzialmente espressi e specificamente up-regolati in un solo tipo cellulare: 74 circRNA risultano up-regolati nei linfociti B in confronto a monociti e linfociti T, 40 nei linfociti T e 159 nei monociti, per un totale di 273 circRNA con espressione differenziale e specificità cellulare. I circRNA differenzialmente espressi, altri con altissima espressione o derivati da geni particolarmente importanti nell’ematopoiesi normale o maligna, sono stati selezionati per ulteriori analisi in silico e alcuni verranno validati sperimentalmente. L’analisi della sequenza dei circRNA per la predizione in silico di siti di legame multipli per miRNA, motivi di legame per proteine oppure open reading frames, fornirà utili predizioni funzionali e sarà anche punto di partenza per studi sperimentali focalizzati su alcuni circRNA particolarmente promettenti. In conclusione, questa tesi costituisce il primo studio sui circRNA in linfociti B, linfociti T e monociti sani, fondato su replicati biologici di ogni tipo cellulare. L’integrazione dei profili d’espressione di circRNA e RNA lineari con l’annotazione dei geni e le funzione, congiuntamente all’espressione differenziale, ha prodotto risultati nuovi e originali. Lo studio è molto informativo sull’abbondanza e la diversificazione dei circRNA espressi e fornisce numerosi nuovi dati sui circRNA, nonché robuste indicazioni sull’espressione differenziale dei circRNA nelle cellule considerate. Abbiamo dimostrato che considerare l’espressione dei circRNA aggiunge definizione alla rappresentazione delle variazioni del trascrittoma nell’ematopoiesi normale, ponendo le basi per ampliare la comprensione del ruolo dei circRNA nei circuiti regolatori del differenziamento delle cellule del sangue, prerequisito per trasferire queste conoscenze alla ricerca nell’ambito delle patologie ematopoietiche.
CircRNAs: the transcriptional landscape of haematopoiesis at higher definition / Bonizzato, Annagiulia. - (2017 Jan 31).
CircRNAs: the transcriptional landscape of haematopoiesis at higher definition
Bonizzato, Annagiulia
2017
Abstract
Il differenziamento cellulare durante l’ematopoiesi è controllato da circuiti complessi, che coinvolgono fattori di trascrizione e diverse specie di RNA che concorrono a stabilire il fenotipo delle cellule e a mantenerlo, e ne assicurano anche la plasticità. Negli ultimi anni sono emerse chiaramente la diversificazione e l’importanza di varie classi di RNA non codificanti. Tra questi, gli RNA circolari (circRNA), prodotti mediante backsplicing di trascritti primari, si stanno rapidamente affermando come membri del trascrittoma particolarmente stabili e con ruoli biologici rilevanti, prevalentemente regolativi. Per quanto riguarda le loro funzioni molecolari i circRNA sono in grado di modulare l’espressione del gene da cui derivano, possono competere per il legame di microRNA, regolando quindi l’espressione dei loro target, ma anche interagire con proteine che legano l’RNA modulandone le funzioni. Diversi circRNA la cui funzione è stata chiarita recentemente partecipano ad importanti assi o circuiti regolatori, intervenendo in processi chiave, di grande rilevanza anche in ambito oncologico, quali la regolazione del ciclo cellulare, il controllo dell’espressione di oncogeni e l’attivazione di specifiche vie di segnale. Studi di RNA-seq hanno identificato migliaia di circRNA con espressione specifica per lo stato di sviluppo o per il tipo di tessuto, corroborando precedenti indicazioni che le isoforme circolari siano una sfaccettatura del programma cellulare, tanto interessante quanto precedentemente sottovalutata. I circRNA sono molto espressi e fortemente regolati anche nel comparto ematopoietico, come mostrato da alcuni studi preliminari sulla loro presenza nelle cellule del sangue. L’identificazione dei circRNA mediante RNA-seq si basa sulla ricerca di backplice, ovvero di sequenze che non mappano linearmente sul genoma ma che sono formate dalla fusione di due sequenze in maniera non colineare, e ciò richiede specifici metodi computazionali. In questo progetto di dottorato è stata sviluppata una pipeline bioinformatica che consente di identificare, quantificare e caratterizzare i circRNA a partire da dati di RNA-seq, mediante quattro metodi computazionali già disponibili utilizzati in parallelo, e di combinare ed elaborare i risultati grazie a una serie di programmi scritti appositamente. La pipeline è stata testata su un dataset di cellule del lineage ematopoietico disponibile nei database pubblici, che contiene dati di sequenziamento di cellule staminali ematopoietiche, di progenitori linfoidi, di progenitori mieloidi e di progenitori di megacariociti ed eritroblasti. Questa analisi pilota ci ha consentito di identificare molti circRNA nonostante le caratteristiche dei dati non fossero ottimali per questo tipo di analisi. I principali risultati di questo studio pilota sono stati l’identificazione di sottogruppi distinti di circRNA specificamente espressi in diversi tipi cellulari, e l’indicazione di fattibilità e convenienza dell’applicazione di questo approccio anche su dati già pubblicati per ampliare e complementare gli studi originali che non avessero preso in considerazione i circRNA. Il progetto principale si è quindi focalizzato sull’analisi dell’espressione di circRNA e RNA lineari in cellule differenziate del comparto ematopoietico. Sono stati prodotti dati RNA-seq di linfociti B, linfociti T e monociti ottenuti tramite sorting da sangue periferico di donatori sani, per un totale di 12 campioni ad alta profondità di sequenziamento e processati mediante un protocollo di sottrazione dell’RNA ribosomale particolarmente adatto per lo studio dei circRNA. Degli oltre 115.000 backsplice identificati da almeno 2 reads di sequenziamento considerando l’insieme dei 12 campioni analizzati, sono stati selezionati 26.211 circRNA identificati da almeno due metodi computazionali. Considerato che studi precedenti basati sull’arricchimento di circRNA in seguito al trattamento con RNAsi R hanno chiarito che i backsplice identificati da almeno due metodi indipendenti sono più affidabili, questo insieme di 26.211 circRNA selezionati dovrebbe risultare robusto. Essi risultano espressi da 7.307 geni diversi, di cui il 38,6% esprime un solo circRNA per gene, il 40,7% produce da 2 a 5 isoforme circolari e i restanti geni ne esprimono 6 o più. La maggioranza dei circRNA identificati è esonica, l’11,5% ha gli estremi della giunzione che mappano su regioni annotate come introniche nel genoma, e solo il 2,5% probabilmente deriva da regioni genomiche annotate come intergeniche. I livelli di espressione dei circRNA e degli RNA lineari espressi dallo stesso gene hanno una leggere tendenza a correlare positivamente, mentre la gran parte delle coppie mostrano scarsa o negativa correlazione, suggerendo che ci siano dei meccanismi di regolazione specifici che sottendono all’espressione di circRNA. Questo dato è in linea con studi recentissimi che presentano lo splicing alternativo delle isoforme circolari come un ulteriore meccanismo che genera complessità nello splicing dei trascritti eucariotici. L’analisi non supervisionata dei profili d’espressione dei circRNAs in linfociti B, linfociti T e monociti ha mostrato per la prima volta la specificità dell’espressione di circRNA associata ai tipi cellulari considerati. I circRNAomi di linfociti B e T risultano simili sia dal punto di vista qualitativo che quantitativo, mentre invece i monociti esprimono un numero minore di circRNA e hanno un circRNAoma più specifico. Il confronto tra tipi cellulari ha indicato gruppi di circRNA espressi in tutti e tre i tipi cellulari, e altri specificamente espressi in un solo tipo. L’analisi statistica dell’espressione differenziale ha evidenziato dei gruppi di circRNA con espressione significativamente diversa nei linfociti B confrontati con monociti (2589), linfociti B confrontati con linfociti T (168) e monociti confrontati con linfociti T (977). CircRNA differenzialmente espressi sono associati a geni le cui proteine sono coinvolte in processi e pathway chiave nel comparto ematopoietico. Infine sono stati evidenziati circRNA differenzialmente espressi e specificamente up-regolati in un solo tipo cellulare: 74 circRNA risultano up-regolati nei linfociti B in confronto a monociti e linfociti T, 40 nei linfociti T e 159 nei monociti, per un totale di 273 circRNA con espressione differenziale e specificità cellulare. I circRNA differenzialmente espressi, altri con altissima espressione o derivati da geni particolarmente importanti nell’ematopoiesi normale o maligna, sono stati selezionati per ulteriori analisi in silico e alcuni verranno validati sperimentalmente. L’analisi della sequenza dei circRNA per la predizione in silico di siti di legame multipli per miRNA, motivi di legame per proteine oppure open reading frames, fornirà utili predizioni funzionali e sarà anche punto di partenza per studi sperimentali focalizzati su alcuni circRNA particolarmente promettenti. In conclusione, questa tesi costituisce il primo studio sui circRNA in linfociti B, linfociti T e monociti sani, fondato su replicati biologici di ogni tipo cellulare. L’integrazione dei profili d’espressione di circRNA e RNA lineari con l’annotazione dei geni e le funzione, congiuntamente all’espressione differenziale, ha prodotto risultati nuovi e originali. Lo studio è molto informativo sull’abbondanza e la diversificazione dei circRNA espressi e fornisce numerosi nuovi dati sui circRNA, nonché robuste indicazioni sull’espressione differenziale dei circRNA nelle cellule considerate. Abbiamo dimostrato che considerare l’espressione dei circRNA aggiunge definizione alla rappresentazione delle variazioni del trascrittoma nell’ematopoiesi normale, ponendo le basi per ampliare la comprensione del ruolo dei circRNA nei circuiti regolatori del differenziamento delle cellule del sangue, prerequisito per trasferire queste conoscenze alla ricerca nell’ambito delle patologie ematopoietiche.File | Dimensione | Formato | |
---|---|---|---|
bonizzato_annagiulia_tesi.pdf
accesso aperto
Tipologia:
Tesi di dottorato
Licenza:
Accesso gratuito
Dimensione
11.73 MB
Formato
Adobe PDF
|
11.73 MB | Adobe PDF | Visualizza/Apri |
Pubblicazioni consigliate
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.