Bioinformatica

Bioinformatica

Polo GGB offre servizi di sequenziamento basati su tecnologia NGS e servizi di bioinformatica.

L’infrastruttura software per il servizio di analisi bioinformatica è una combinazione di software personalizzati e open-source per assicurare un’analisi dei dati completa e personalizzata. I servizi bio-informatici del Polo GGB coprono un’ampia gamma di applicazioni NGS.

i servizi di
Bioinformatica

Data analisi Genomica

Il progetto Genoma Umano ha portato alla luce l’importanza di saper analizzare e comprendere l’enorme mole di dati di sequenziamento. Ed è da questa capacità che dipende la ricerca in campo medico.

Data analisi Trascrittomica

La comprensione approfondita del trascrittoma è fondamentale per un’attenta interpretazione degli elementi funzionali del genoma e per la conoscenza di meccanismi che sottendono determinate patologie.

Data analisi Metagenomica

Gli studi metagenomici sono alla base dei significativi progressi nel campo dell’ecologia microbica. L’analisi metagenomica è una soluzione economica per l’identificazione e la quantificazione del materiale genetico nelle comunità microbiche non in coltura.

Data analisi Epigenomica

Un ruolo sempre più da protagonista sta rivestendo l’epigenomica che apre lo scenario a nuove opportunità legate allo sviluppo di terapie innovative, all’identificazione di potenziali target farmacologici e a una migliore comprensione delle basi patologiche delle malattie.

Il laboratorio di
Bioinformatica

Il Laboratorio di Bioinformatica del Polo GGB ha sede a Siena presso il bio-incubatore della Fondazione Toscana Life Science.

Questa struttura consente di accedere alle tecnologie per eseguire analisi di bioinformatica e di biostatistica per la ricerca biomedica. Particolare interesse è rivolto allo sviluppo di algoritmi e strumenti per la misura di parametri inerenti l’analisi genomica. Molti degli algoritmi applicati sono implementati sulla base di software liberamente disponibili ed accessibili via web (es. Genome Analysis Toolkit – GATK).

Specifiche competenze all’interno dello staff del Polo GGB permettono di fornire, oltre a servizi di tipo standard per la bioinformatica, anche elaborazioni personalizzate mediante progettazione di moduli software specifici dedicati alle analisi di genomica custom.

Sede:
c/o Toscana Life Sciences
Strada del Petriccio e Belriguardo 35, 53100 SIENA

Referente:
Chiara Leo ~ c.leo@pologgb.com

Telefono:
+39 0577 381310

Analisi Dati Genomica

Il progetto Genoma Umano ha portato alla luce l’importanza di saper analizzare e comprendere l’enorme mole di dati di sequenziamento. Ed è da questa capacità che dipende la ricerca in campo medico.

Sia i medici che i ricercatori saranno in grado di aumentare considerevolmente la quantità di dati genomici raccolti su ampie popolazioni di studio, di individuare un migliore processo diagnostico e strategie terapeutiche sempre più efficaci e personalizzate. Appare quindi concreta la possibilità che i trattamenti e le terapie possano essere adattati allo specifico patrimonio genetico di ogni paziente. In questo scenario risulta evidente quanto la bioinformatica e i nuovi approcci informatici siano fondamentali per l’analisi di grandi quantitativi di dati e per raggiungere una migliore comprensione delle basi genetiche delle malattie e della risposta ai farmaci.

Il PoloGGB fornisce un servizio di analisi dei dati genomici grazie all’esperienza accumulata nel risolvere una vasta gamma di problematiche di tipo bioinformatico. La nostra piattaforma di analisi comprende una combinazione di software personalizzati e open-source in grado di coprire diverse applicazioni ed esigenze di studio.

Le nostre soluzioni di Genomica

Assemblare un genoma completo de novo significa ricostruire un genoma in assenza di qualsiasi riferimento poiché non è disponibile una “mappa” a guidare l’assemblaggio.
Il software assemblatore inizia con la ricostruzione per sovrapposizione delle brevi sequenze ottenute dal sequenziamento per generare delle sequenze contigue più lunghe, a loro volta unite insieme per creare degli scaffold, ovvero sequenze sempre più lunghe che creano l’impalcatura del genoma de novo. Il processo di assemblamento de novo è un processo computazionalmente dispendioso e necessita della regolazione di alcuni parametri in base allo specifico organismo. Brevemente, i passaggi di pre-processamento e filtraggio vengono effettuati per rilevare e correggere le sequenze inaccurate prima dell’analisi. Le sequenze sono poi utilizzate per costruire un modello astratto (grafo) che viene progressivamente semplificato ricostruendo sequenze contigue sempre più lunghe. Un genoma assemblato può essere poi annotato con la descrizione delle regioni che possono essere denominate geni, inclusi gli ORF, e le funzioni biologiche putative dei prodotti genici. Alcuni database di annotazioni geniche sono ENCyclopedia Of DNA Elements (ENCODE), Entrez Gene, Ensembl, GENCODE, Gene Ontology Consortium, GeneRIF, RefSeq, Uniprot, Vertebrate and Genome Annotation Project (Vega). SEQUENZIAMENTO COMPLETO DEL GENOMA
Il sequenziamento dell’esoma consiste nel catturare gli esoni (EXpressed regiONS) dei geni, che rappresentano la regione codificante dell’intero genoma.
È una strategia rapida ed efficace per individuare i geni correlati alle malattie Mendeliane rare e per identificare tutte le varianti nelle malattie complesse quali il cancro, il diabete, la degenerazione maculare legata all’età. Sono stati sviluppati molti software e delle buone pratiche sono state sviluppate negli ultimi tempi per identificare le varianti dell’esoma, dato che le varianti a singolo nucleotide (SNV) e le brevi inserzioni e delezioni (indels) sono la più abbondante e significativa fonte di variabilità negli esoni. Lo sviluppo di nuovi approcci per diminuire la frequenza di Falsi Positivi e Falsi Negativi è una tra le sfide più importanti. L’analisi di sequenziamento dell’esoma può essere suddivisa in questi passaggi:
  1. Base calling e analisi delle immagini
  2. Allineamento dell’esoma al genoma di riferimento
  3. Ordinamento, indicizzazione e rimozione dei duplicati di PCR
  4. SNP e small INDEL calling
  5. Annotazione delle varianti
Le INDELs e le SNVs sono annotate con le conseguenze funzionali sui geni o sulle regioni regolatorie e la visualizzazione dei dati di output è possibile con IGV (Integrative Genomics Viewer). SEQUENZIAMENTO COMPLETO DELL’ESOMA
L’individuazione di polimorfismi a singolo nucleotide (SNP) e di brevi inserzioni/delezioni (INDEL) nella regione genomica di interesse è una delle analisi più comunemente impiegate sui dati di NGS. Le sequenze sono allineate ad un genoma di riferimento e i nucleotidi che differiscono dalla sequenza del genoma di riferimento sono evidenziati.
Poichè il sequenziamento NGS introduce degli errori, generalmente si fornisce un punteggio di confidenza della variante identificata. Questo implica che ogni nucleotide è sequenziato più e più volte per essere considerato valido. Molti software usano il Phred score per decidere se una variazione è realmente uno SNP / Indel o il rumore dello strumento che ha effettuato il sequenziamento. Di solito questo viene identificato riproducendo i diversi tipi di errore in condizioni di omozigosi, eterozigosi e omozigosi per la variante. Le probabilità di errore sono dedotte a partire dalla qualità delle sequenze grezze, dell’allineamento e dai modelli per la correzione dell’errore in corrispondenza di specifici siti. L’annotazione delle varianti fornisce dati supplementari da database pubblici per le varianti identificate, ovvero la definizione della variante, una misura della probabilità, il genotipo, la regione (e.g. gene, esone, regione codificante, …) e le conseguenze sugli aminoacidi codificati. SEQUENZIAMENTO DI SPECIFICHE REGIONI GENOMICHE
L’analisi di specifici segmenti di DNA o di RNA include l’amplificazione e il sequenziamento delle sole sequenze genomiche di interesse, tramite un metodo basato sulla cattura.
Le nostre attività per l’analisi di specifici segmenti genomici ri-sequenziati sono totalmente personalizzate ed includono i seguenti passaggi:
  1. Consulenza per il disegno sperimentale
  2. Controllo di qualità sui dati del sequenziamento
  3. Allineamento delle sequenze al genoma di riferimento
  4. Identificazione degli SNP e delle small INDEL
  5. Stima della frequenza di SNP e INDELs
  6. Annotazione delle varianti e predizione dell’effetto della mutazione sul gene
SEQUENZIAMENTO COMPLETO DEL GENOMA SEQUENZIAMENTO COMPLETO DELL’ESOMA SEQUENZIAMENTO DI SPECIFICHE REGIONI GENOMICHE
Il sequenziamento completo di singoli genomi batterici e fungini. Indispensabile per un’accurata identificazione microbica.
Il sequenziamento completo del genoma microbico permette una valutazione integrale di tutte le caratteristiche genetiche di un batterio o di un fungo isolato. È una metodica fondamentale per una precisa identificazione, per la creazione di genomi di riferimento e studi genomici comparativi, per l’identificazione di varianti a bassa frequenza e riarrangiamenti del genoma. Il sequenziamento shotgun de novo dell’intero genoma microbico ha una vastità di applicazioni tra cui la genomica comparativa, che confronta la sequenza con quella di un riferimento noto e rivela importanti differenze nella composizione e nell’organizzazione del genoma, facilitando l’individuazione di geni funzionali coinvolti in importanti processi biologici. SEQUENZIAMENTO DEL GENOMA MICROBICO

Analisi Dati Trascrittomica

La comprensione approfondita del trascrittoma è fondamentale per un’attenta interpretazione degli elementi funzionali del genoma e per la conoscenza di meccanismi che sottendono determinate patologie.

Il sequenziamento del trascrittoma è, in molti casi, il metodo di elezione per l’analisi di geni differenzialmente espressi, per l’investigazione di pattern e varianti di splicing, di isoforme di geni, di polimorfismi a singolo nucleotide, di modificazioni post-trascrizionali e, infine, è la metodica prevalente per il monitoraggio di una popolazione di trascritti che possono essere espressi in una data condizione e in uno specifico momento. Uno studio di tale importanza richiede una esperta capacità di elaborazione di grandi quantitativi di dati trascrittomici utilizzando programmi bioinformatici dedicati e conoscenze scientifiche.

Il PoloGGB fornisce un servizio di analisi dei dati trascrittomici grazie all’esperienza accumulata nel risolvere una vasta gamma di problematiche di tipo bioinformatico. La nostra piattaforma di analisi comprende una combinazione di software personalizzati e open-source in grado di coprire diverse applicazioni ed esigenze di studio.

Le nostre soluzioni di Trascrittomica

L’assemblaggio de novo di un intero trascrittoma, da dati di sequenziamento di RNA totale, consiste nell’assemblarne il trascrittoma senza l’ausilio di un genoma di riferimento, fintanto che sono disponibili sequenze in doppio filamento.

Le sequenze sono assemblate in trascritti utilizzando un assemblatore di sequenze corte e i trascritti sono assemblati a loro volta in sequenze contigue più lunghe unendo le zone di sovrapposizione.
L’assemblaggio de novo di un trascrittoma è il metodo comunemente scelto per lo studio di organismi che non fanno parte dei modelli classici di studio, dato che è un approccio molto meno costoso della costruzione di un “primo” genoma di riferimento/de novo.
Dopo aver effettuato l’allineamento al genoma di riferimento o aver assemblato un trascrittoma de novo, è possibile identificare e quantificare i trascritti di mRNA putativi e individuare le regioni codificanti, così come si può effettuare un’analisi di espressione differenziale.
Infine, l’annotazione del trascrittoma fornisce informazioni sulla funzione biologica dei trascritti e delle proteine per le quali codificano, utilizzando strumenti e database ben noti di funzioni molecolari, ontologia genica e vie metaboliche.

SEQUENZIAMENTO COMPLETO DEL TRASCRITTOMA

Passaggio essenziale prima che gli small RNA possano essere identificati e quantificati è l’allineamento della libreria di small RNA sequenziata (miRNA, lincRNA, snoRNA, snRNA, tRNA) sul suo genoma di riferimento e su database pubblici come miRBase.

Qundi, le sequenze possono poi essere annotate e classificate in categorie note di small RNA, rendendo possibile anche l’analisi di espressione differenziale.
In particolare, i micro RNA (miRNAs) sono una classe di small RNA non codificanti lunghi da 18 a 22 paia di basi. Recenti scoperte sulla funzione e il ruolo dei miRNA hanno stimolato lo studio di questo nuovo livello di regolazione genica, implicato nello sviluppo di alcuni processi patologici. Nuovi miRNA possono essere scoperti tramite allineamento di dati di RNA sequencing ad alta profondità di lettura sul genoma di riferimento e successiva predizione della struttura secondaria del precursore.

SEQUENZIAMENTO DI SmallRNA

I long noncoding RNA (lncRNA) costituiscono un’ampia e diversa classe di molecule di RNA più lunghe di 200bp che non codificano per delle proteine.

Si pensa che i lncRNA includano approssimativamente 30,000 diversi trascritti nell’umano, dunque i lncRNA sono la porzione più abbondante del trascrittoma non codificante. Nonostante diversi lncRNAs siano stati annotati funzionalmente, la maggior parte di essi resta ancora da caratterizzare.
La scoperta dei lncRNA è ancora in una fase iniziale e solo una minima frazione dei lncRNA è stata studiata. Se da una parte siamo in grado di iniziare a classificare diverse tipologie di funzioni dei lncRNA, non possiamo ancora predire la funzione di nuovi lncRNA. Il PoloGGB propone il profilo dell’espressione come un metodo per individuare la funzione dei lncRNA. Individuare i lncRNA differenzialmente espressi in specifiche condizioni sperimentali potrebbe gettare una luce sulle loro possibili funzioni.
La pipeline di nostra scelta prima allinea e assembla i dati di RNA-seq per costruire un trascrittoma completo per tutti i campioni. Poi, usando una serie di filtri basati sull’annotazione genica, la lunghezza delle sequenze, I livelli di espressione, il potenziale di codifica e altre caratteristiche, viene definite un elenco di candidati lncRNA contenente informazioni che includono la dimensione del trascritto, la collocazione genomica e opzionalmente l’espressione genica differenziale.

SEQUENZIAMENTO DI LncRNA
L’analisi di espressione differenziale comprende l’identificazione e la quantificazione di geni o trascritti la cui espressione cambia a seconda dei campioni e delle condizioni sperimentali.

I recenti approcci per lo studio dei dati di RNA-Seq comprendono la quantificazione dell’espressione all’interno dei margini di geni precedentemente pubblicati e di algoritmi disegnati per la ricostruzione di interi trascritti.
L’analisi di espressione differenziale consiste nell’esecuzione di test statistici sui dati normalizzati di espressione al fine di scoprire cambiamenti quantitativi nei livelli di espressione tra i gruppi sperimentali.

SEQUENZIAMENTO COMPLETO DEL TRASCRITTOMASEQUENZIAMENTO DI SmallRNASEQUENZIAMENTO DI LncRNA

Analisi Dati Epigenomica

Un ruolo sempre più da protagonista sta rivestendo l’epigenomica che apre lo scenario a nuove opportunità legate allo sviluppo di terapie innovative, all’identificazione di potenziali target farmacologici e a una migliore comprensione delle basi patologiche delle malattie.

I progressi nei saggi di profilazione epigenomica e le quantità crescenti di dati hanno aperto nuove prospettive utili per comprendere e studiare gli epigenomi normali e le loro modificazioni. Negli ultimi tempi sono stati sviluppati un numero sempre maggiore di strumenti computazionali e nuove metodologie per analizzare i complessi insiemi dei dati epigenomici.

Il PoloGGB fornisce un servizio di analisi dei dati epigenomici grazie all’esperienza accumulata nel risolvere una vasta gamma di problematiche di tipo bioinformatico. La nostra piattaforma di analisi comprende una combinazione di software personalizzati e open-source in grado di coprire diverse applicazioni ed esigenze di studio.

Le nostre soluzioni di Epigenomica

L’immunoprecipitazione della cromatina (ChIP) seguita dal sequenziamento è un ottimo metodo per identificare quei loci del DNA che sono legati da proteine di interesse specifiche (fattori di trascrizione, istoni, chaperones e altre proteine nucleari).

Questa analisi è utile per esaminare il ruolo delle interazioni proteina-DNA implicate nella regolazione dell’espressione genica e di altri processi cellulari essenziali allo scopo di comprendere a fondo i processi biologici e determinate malattie.
Le sequenze sono prima allineate al genoma di riferimento per poi predire le regioni del genoma dove la proteina si lega (peak calling) sulla base del numero di sequenze che mappano nella regione specificata.
Le differenze nel legame possono essere analizzate per determinare quali regioni del DNA sono legate in diversi campioni o in diverse condizioni sperimentali, mentre i picchi possono essere annotati se sono in corrispondenza di siti di inizio della trascrizione noti (TSS), di promotori o di regioni intergeniche.

SEQUENZIAMENTO DELLA CROMATINA IMMUNOPRECIPITATA
La metilazione delle citosine è un noto marker epigenetico che ha importanti conseguenze sulla regolazione di processi biologici e patologici.

L’analisi bioinformatica per lo studio dei dati di metilazione del DNA comprendono, in genere, i seguenti passaggi:

  1. Controllo di qualità del sequenziamento
  2. Identificazione dei picchi di metilazione
  3. Allineamento delle sequenze e visualizzazione dei picchi di metilazione
  4. Analisi statistica per identificare e interpretare le differenze campione specifiche

Il metodo di conversione con bisolfito delle citosine non metilate in uracili fornisce una mappatura dettagliata della posizione delle metil-citosine. Il processo include l’allineamento delle sequenze e la quantificazione assoluta della metilazione del DNA alla risoluzione di singole basi. Per analizzare la distribuzione globale della metilazione del DNA, le regioni selezionate possono essere visualizzate su un browser genomico comunemente utilizzato come IGV (Integrative Genomic Viewer). Lo studio delle zone metilate e la determinazione di regioni differentemente metilate (DMR) in gruppi di campioni possono essere eseguiti manualmente o utilizzando differenti processi automatizzati.

SEQUENZIAMENTO COMPLETO DEL METILOMASEQUENZIAMENTO DI SPECIFICHE REGIONI DEL METILOMA

Analisi Dati Metagenomica

Gli studi metagenomici sono alla base dei significativi progressi nel campo dell’ecologia microbica. L’analisi metagenomica è una soluzione economica per l’identificazione e la quantificazione del materiale genetico nelle comunità microbiche non in coltura. Essa è in grado di analizzare in modo più approfondito i dati filogenetici e tassonomici di microbiomi complessi e nicchie ambientali che sarebbero altrimenti difficili o impossibili da esaminare.

Man mano che vengono generati più set di dati metagenomici, la disponibilità di procedure standardizzate, archiviazione e analisi dei dati diventa sempre più considerevole. Con il crescere del numero dei dati, l’analisi del metagenoma richiede una suite di tecnologie genomiche e strumenti bioinformatici in grado di accedere in modo diretto al contenuto genetico di intere comunità di organismi.

Il PoloGGB fornisce un servizio di analisi dei dati metagenomici grazie all’esperienza accumulata nel risolvere una vasta gamma di problematiche di tipo bioinformatico. La nostra piattaforma di analisi comprende una combinazione di software personalizzati e open-source in grado di coprire svariate applicazioni ed esigenze di studio.

Le nostre soluzioni di Metagenomica

L’analisi metagenomica è una tecnica economica per l’identificazione e la quantificazione del materiale genetico di comunità microbiche non coltivabili, offrendo una potente lente di ingrandimento per lo studio filogenetico e tassonomico di campioni, inclusi microbiomi complessi o nicchie ambientali che sono difficili o impossibili da studiare.

Il sequenziamento NGS del rDNA 16S/18S/ITS è un metodo di sequenziamento basato su ampliconi, molto utilizzato, che permette la rilevazione della maggior parte dei batteri e/o dei funghi presenti in campioni che potrebbero non essere individuati utilizzando altri metodi e la determinazione della loro diversità biologica.
L’annotazione metagenomica consiste nell’organizzare le sequenze in unità tassonomiche note basandosi sull’omologia con le sequenze precedentemente depositate in database di riferimento per identificare l’appartenenza tassonomica delle sequenze.

SEQUENZIAMENTO DEGLI AMPLICONI 16S/18S/ITS

L’analisi metagenomica è una tecnica economica per l’identificazione e la quantificazione del materiale genetico di comunità microbiche non coltivabili, offrendo una potente lente di ingrandimento per lo studio filogenetico e tassonomico di campioni, inclusi microbiomi complessi o nicchie ambientali che sono difficili o impossibili da studiare.

L’analisi metagenomica sui dati di interi genomi “shotgun” include tre principali passaggi: assemblaggio, annotazione e analisi statistica. Se l’obiettivo è quello di analizzare il genoma di un tipo di microrganismo invece che di una comunità, le sequenze prodotte andranno assemblate in sequenze genomiche contigue più lunghe. Gli assemblatori per i campioni di metagenomica rientrano in due categorie: assemblaggio basato su un genoma di riferimento e l’assemblaggio de novo. L’annotazione metagenomica consiste nell’organizzare le sequenze in unità tassonomiche note basandosi sull’omologia con le sequenze precedentemente depositate in database di riferimento per identificare l’appartenenza tassonomica delle sequenze.

SEQUENZIAMENTO SHOTGUN
Contattaci
×

 

Ciao

Clicca sul contatto per iniziare una chat con noi.

×