Informazione

Qual è la differenza tra diversi mRNA RefSeq per un gene?

Qual è la differenza tra diversi mRNA RefSeq per un gene?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Sto cercando le sequenze RefSeq dell'mRNA per un determinato gene nel browser del genoma UCSC cercando il nome del gene "HLA-F" nell'uomo (scorri fino alla sezione sui geni Refseq). Esistono diversi mRNA RefSeq per il gene, qual è la differenza tra queste sequenze RefSeq e quale di esse è ciò che voglio?


Ti guiderò attraverso il processo di determinazione di questo:

  1. Si noti che sono presentati due nomi di geni: HLA-F e HLA-F-AS1. La parte "AS" significa "antisenso", quindi è sul filo opposto... quindi ignora tutti gli HLA-F-AS1.
  2. Nota i cromosomi associati. chr6 è un cromosoma normale, ma cose come chr6_cox_hap2 non lo sono. Invece, questi sono cerotti/cromosomi dell'aplotipo. Le regioni HLA sono altamente variabili, quindi avere una sola sequenza di riferimento finisce per essere problematico in molte analisi, come trovare varianti di sequenza. Per i tuoi scopi potresti o non potresti voler ignorarli, dipende da quale è il tuo obiettivo.
  3. Se ignori le patch dell'aplotipo, ti rimangono 3 elenchi su chr6. Queste sono le 3 isoforme di HLA-F. Alla fine dovrai utilizzare gli ID refseq per ciascuno di questi.

A proposito, Gencode/Ensembl elenca 4 isoforme per HLA-F, piuttosto che 3. Ogni volta che UCSC non è d'accordo con Gencode o Ensembl, vai con Gencode o Ensembl.


Differenza tra RNA e mRNA

Gli acidi nucleici sono una delle molecole più importanti che si trovano in abbondanza in tutti gli esseri viventi sulla terra. Sono responsabili della codifica, della trasmissione e dell'espressione delle informazioni genetiche nelle proteine. Nel 1869, il medico e biologo svizzero Friedrich Miescher identificò per la prima volta gli acidi nucleici durante i suoi esperimenti. Le informazioni sugli acidi nucleici hanno posto le basi per il genoma e la scienza forense, nonché per le industrie biotecnologiche e farmaceutiche. I tipi base di molecole di acido nucleico sono il DNA (acido desossiribonucleico) e l'RNA (acido ribonucleico). A seconda della funzione, esistono tre tipi universali di RNA, come RNA messaggero (mRNA), RNA di trasferimento (tRNA) e RNA ribosomiale (rRNA). Questo articolo evidenzia la differenza tra RNA e mRNA.

CONTENUTO


Qual è la differenza tra mRNA, DNA e qualsiasi altro *DNA*?

In parole povere, il DNA è il modello principale. Ce n'è solo uno, non può lasciare il nucleo. mRNA è come un costruttore che traccia la parte specifica del progetto di cui hanno bisogno. Questa copia viene quindi estratta dal nucleo e nel citoplasma, dove le istruzioni possono essere utilizzate per costruire i polipeptidi (che costituiscono i protiens) da cui la metafora dei costruttori. rRNA e tRNA sono diversi in quanto non portano il codice genetico e sono simili in quanto sono strumenti nella costruzione di polipeptidi. Questa roba può essere davvero travolgente per i principianti, quindi spero che questo aiuti :)

Molecolare, tutti gli analoghi del DNA sono costituiti da uno zucchero ribosio (come il glucosio ma invece di essere un cicloesano forma un ciclopentano) e un acido nucleico (un'altra molecola ciclica costituita da un cicloesano o entrambi un cicloesano e un ciclopentano).

La differenza è un singolo gruppo -OH (gruppo idrossi/alcol) che viene rimosso dal 2° carbonio di ribosio nel DNA. L'RNA utilizza anche l'acido nucleico uracile invece di timina.

tRNA: RNA che si avvolge su se stesso per formare un codone e un anti-codone che lega un amminoacido a un ribosoma utilizzando l'adenil T-RNA sintasi e l'energia immagazzinata in una molecola nota come ATP.

nuRNA: RNA che si trova nel nucleo e si lega alle subunità ribosomiali e RNA che si lega a proteine ​​specifiche per formare una struttura multiproteica nota come Splicisoma.

siRNA: RNA trovato nel citosol che forma un intermedio a forcina che viene scisso da un enzima per produrre una molecola di RNA che, insieme ad altre proteine, può legarsi all'mRNA e degradarlo. Importante nella regolazione dell'espressione proteica.

mRNA: RNA che codifica per le proteine. (Solo circa il 2% di tutto il DNA viene convertito in mRNA)

piRNA: RNA coinvolto nella metilazione dell'istamina (proteine ​​globulari che si legano al DNA) e che quindi regola l'espressione genica.

RNA virale: molecole di RNA molto piccole che utilizzano l'RNA trascrittasi inversa per il DNA virale che si fonde nel DNA ospite. Il DNA virale fuso è chiamato provirus.


Risultati e discussione

Il progetto Human Body Map 2.0 ha generato dati RNA-Seq per 16 diversi tessuti umani (adiposo, surrenale, cervello, seno, colon, cuore, reni, leucociti, fegato, polmone, linfonodo, ovaio, prostata, muscolo scheletrico, testicolo e tiroide). Abbiamo scelto di analizzare questo set di dati pubblico perché l'espressione genica è specifica del tessuto e l'analisi di quei 16 campioni di RNA-Seq di alta qualità nel loro insieme potrebbe portare a conclusioni meno distorte. Si noti che nessuna delle annotazioni del gene è completa al 100%. Di conseguenza, per quelle letture RNA-Seq non coperte da un'annotazione genica, l'utilizzo del modello del gene nella fase di mappatura non ha alcun impatto sulle loro mappature. Pertanto, per valutare equamente l'impatto di un modello genetico sulla mappatura delle letture RNA-Seq, sono state utilizzate solo le letture coperte da un modello genetico. In questo studio, abbiamo ideato un protocollo di mappatura in due fasi. Nella fase n. 1, tutte le letture non coperte da un modello genetico sono state filtrate. Nella Fase 2, tutte le letture rimanenti sono state mappate sul genoma di riferimento con e senza l'uso di un modello genetico. Il ruolo di un modello genico nella fase di mappatura è stato quindi quantificato e caratterizzato confrontando i risultati della mappatura nella fase n.

La copertura di diverse annotazioni geniche

I riepiloghi della mappatura della lettura di RNA-Seq per tutti i 16 campioni sono stati mostrati rispettivamente nel file aggiuntivo 1: tabella S1 (lunghezza di lettura = 75 bp) e nel file aggiuntivo 1: tabella S2 (lunghezza di lettura = 50 bp). Ci sono due diverse modalità di mappatura nel File aggiuntivo 1: Tabelle S1 e S2. Nella modalità di mappatura "solo trascrittoma", tutte le letture RNA-Seq sono state mappate solo su un trascrittoma di riferimento. Se una lettura non può essere mappata a una regione genetica nota, diventa non mappata, anche se potrebbe essere potenzialmente allineata a una regione genomica senza annotazioni. Nella modalità di mappatura "trascrittoma + genoma", le letture sono state prima mappate su un trascrittoma di riferimento, quindi quelle non mappate sono state mappate sul genoma di riferimento. L'impatto di un trascrittoma di riferimento sulla mappatura delle letture RNA-Seq è attenuato nella modalità di mappatura "trascrittoma + genoma" perché ogni lettura non mappata ha una seconda possibilità di essere mappata su un genoma. I riepiloghi di mappatura per i dati nel file aggiuntivo 1: le tabelle S1 e S2 sono stati mostrati rispettivamente nella figura 1 e nel file aggiuntivo 1: figura S1. Nella modalità di mappatura "solo trascrittoma", sono state mappate più letture in Ensembl rispetto a RefGene e/o UCSC. Per ogni tipo di tessuto, il tasso di mappatura era simile tra RefGene e UCSC. I tassi medi di mappatura di lettura erano dell'86%, 69% e 70% rispettivamente per le annotazioni Ensembl, RefGene e UCSC. La mappatura delle letture brevi è un passaggio fondamentale nelle analisi dei dati RNA-Seq e, in una certa misura, la percentuale di letture mappate su un dato trascrittoma può riflettere approssimativamente la completezza dei suoi geni e trascritti annotati. Pertanto, l'annotazione Ensembl ha una copertura genica molto più ampia rispetto a RefGene e UCSC.

Il riepilogo della mappatura di lettura per 16 campioni di tessuto nel “solo trascrittoma” e “trascrittoma + genoma” modalità di mappatura (nota: leggi la lunghezza = 75 bp). Nella modalità "solo trascrittoma", più letture vengono mappate in Ensembl rispetto a RefGene e UCSC (pannello di sinistra) e più letture vengono mappate in più in Ensembl rispetto a RefGene e UCSC (pannello di destra). Nota: il modello di gene "nessuno" significa che le letture RNA-Seq sono mappate direttamente sul genoma di riferimento senza l'uso di un modello di gene.

Al contrario, la Figura 1 mostra che anche la percentuale di mappatura della lettura dipende dal campione, e questo vale per ogni modello genetico. Ad esempio, solo il 52,5% delle letture di sequenza nel cuore è stato mappato sul modello RefGene mentre nei leucociti l'84,2% delle letture potrebbe essere mappato su RefGene. Questa differenza di mappatura tra cuore e leucociti deriva, almeno in parte, dall'incompletezza dell'annotazione RefGene. Man mano che più geni vengono annotati in un modello genetico, una percentuale maggiore di letture verrà mappata nella modalità di mappatura "Solo trascrittoma".

I modelli di dati nella modalità di mappatura "trascrittoma + genoma" erano diversi da quelli determinati dalla modalità "solo trascrittoma" (pannello di sinistra nella Figura 1). Nella modalità di mappatura "trascrittoma + genoma", i tassi di mappatura medi per Ensembl, RefGene e UCSC sono aumentati rispettivamente al 96,7%, 94,5% e 94,6% e la differenza nel tasso di mappatura tra i diversi modelli genetici è diminuita. Questa grande differenza nei tassi di mappatura tra le due modalità suggerisce l'incompletezza dei modelli genici: ci sono molte letture che sono state mappate alle regioni genomiche senza annotazioni.

Nella modalità di mappatura "solo trascrittoma", una media del 6,9%, 1,4% e 1,8% delle letture erano letture mappate multiple nei modelli genici Ensembl, RefGene e UCSC, rispettivamente (il pannello di destra nella Figura 1). La percentuale di letture a mappatura multipla in Ensembl è maggiore rispetto a RefGene o UCSC. Di solito, un'annotazione più completa annota generalmente più geni e isoforme e, quindi, aumenta la possibilità di mappature ambigue. Queste mappature ambigue si traducono direttamente in un aumento della percentuale di letture mappate in modo non univoco.

L'impatto di un modello genetico sulla mappatura della lettura RNA-seq

Nella fase n. 1, le letture non mappate dalla modalità di mappatura "solo trascrittoma" sono state filtrate. Nella Fase #2, abbiamo rimappato le letture rimanenti con e senza l'uso di modelli genetici. Quando i modelli genetici sono stati utilizzati nella fase n. 2, tutte le letture potevano essere mappate, in modo univoco o in più posizioni, e non c'erano letture non mappate. Quando quelle letture sono state rimappate al genoma senza l'uso di modelli genetici, alcune sono diventate non mappate. In base al numero di posizioni mappate (#ML), tutte le letture di sequenza sono state classificate in tre categorie, uniche (cioè, #ML = 1), multiple (cioè, #ML > =2) e non mappate (cioè, #ML = 0). I riepiloghi di rimappatura delle letture RNA-Seq nella Fase n. 2 per tutti i 16 campioni sono stati mostrati rispettivamente nella Figura 2 (lunghezza di lettura = 75 bp) e nel file aggiuntivo 1: Figura S2 (lunghezza di lettura = 50 bp). I dati numerici corrispondenti alla Figura 2 e al file aggiuntivo 1: figura S2 sono stati tabulati rispettivamente nel file aggiuntivo 1: tabelle S3 e S4. RefGene e UCSC avevano costantemente la più alta percentuale di letture mappate in modo univoco mentre la percentuale di letture mappate non univocamente era molto più alta in Ensembl (campioni colorati in blu nella Figura 2). Senza un modello genetico, la percentuale di letture non mappate era quasi costante al 6% (campioni colorati in rosa nella Figura 2). Come abbiamo dimostrato come segue, un modello genetico influenza principalmente l'allineamento delle letture di giunzione, ma ha un impatto minimo sulle letture non di giunzione. In media, il 23% delle letture nei nostri campioni erano letture di giunzione e di solito circa un terzo di esse non è stato mappato senza l'uso di un modello genetico. Pertanto, si prevede che

Il 6% (23% * 0,33) delle letture mappate diventa non mappato senza l'uso di un modello genetico.

L'effetto di un modello genetico sui riepiloghi di mappatura per 16 campioni di tessuto (leggi lunghezza = 75 bp). RefGene e UCSC hanno costantemente la più alta percentuale di letture mappate in modo univoco mentre la percentuale di letture mappate non univocamente è molto più alta in Ensembl. Senza un modello genetico (indicato in rosa) nella fase di mappatura, un 6% costante di letture non viene mappato.

Per valutare l'impatto di un modello genetico sulla mappatura di lettura, i riepiloghi di mappatura nella Figura 2 e nel file aggiuntivo 1: Figura S2 non erano sufficienti. Ad esempio, una lettura potrebbe essere allineata in modo diverso con e senza l'assistenza di un modello genetico nella mappatura e, in questo scenario, il riepilogo della mappatura non potrebbe identificare tale differenza. Pertanto, abbiamo confrontato i dettagli della mappatura per ogni lettura, comprese le posizioni di inizio e fine e i siti di giunzione. Per semplicità, nella Fase n. 2, ci siamo concentrati su letture mappate in modo univoco nella modalità di mappatura "solo trascrittoma". Una lettura mappata in modo univoco potrebbe essere classificata in quattro categorie in base alle informazioni di mappatura corrispondenti senza un modello genetico: (1) "Identico" - che rimane mappato sulla stessa regione genomica (2) "Alternativo" - ancora mappato in modo univoco ma in modo diverso (3) "Multiplo": mappato su più posizioni e (4) "Non mappato". I risultati dettagliati della valutazione sono riassunti nella Figura 3 (lunghezza di lettura = 75 bp) e File aggiuntivo 1: Figura S3 (lunghezza di lettura = 50 bp) e riportati nel File aggiuntivo 1: Tabelle S5 e S6.

L'impatto di un modello genetico sull'RNA- Seq read mapping (lettura lunghezza = 75 bp). (UN) composizione delle letture mappate: circa il 23% sono letture di giunzione e il resto 77% sono letture di non giunzione (B) effetto sulla mappatura delle letture senza giunzioni: in media, il 95% rimane mappato esattamente nella stessa posizione genomica, mentre il 3-9% delle letture diventa letture mappate multiple (C) effetto sulla mappatura delle letture delle giunzioni: una media del 53% delle letture rimane mappata sulle stesse regioni genomiche senza l'assistenza di un modello genetico. Circa il 30% delle letture di giunzione non viene mappato, mentre il 10-15% viene mappato in alternativa. (Nota: i 16 nomi dei campioni di tessuto sono indicati come segue: un: adiposo B: surrenale, C: cervello D: Seno e: due punti F: cuore G: rene h: leucociti io: fegato J: polmone K: linfonodo io: ovaio m: prostata n: muscolo scheletrico o: testicolo e P: tiroide).

Nella Figura 3A, abbiamo diviso le letture mappate in modo univoco in due classi, ovvero letture senza giunzione e letture con giunzione, e abbiamo studiato l'impatto di un modello genetico sulla loro mappatura. Secondo la Figura 3A, circa il 23% delle letture mappate erano letture di giunzione e il restante 77% erano letture senza giunzione. Per le letture senza giunzioni (vedi Figura 3B), il 95% è rimasto mappato esattamente nella stessa posizione genomica indipendentemente dall'uso di un modello genetico. Senza un modello genetico, dal 3% al 9% delle letture senza giunzioni diventavano letture mappate multiple. Pertanto, è raro che una lettura senza giunzioni diventi non mappata o mappata in alternativa. Tuttavia, la mappatura delle letture di giunzione è stata fortemente influenzata dai modelli genetici (vedi Figura 3C). Senza utilizzare un modello genetico, una media del 53% delle letture di giunzione è rimasta mappata alle stesse regioni genomiche, il 30% non è riuscito a mappare alcuna regione genomica e il 10-15% di esse è stata mappata in modo alternativo. Tali mappature alternative sono generalmente inferiori rispetto ai corrispondenti risultati di mappatura utilizzando un modello genetico [20]. Analogamente alle letture senza giunzioni, una media del 5% delle letture con giunzioni è stata mappata in più di una posizione senza utilizzare un modello genetico. Come mostrato nella Figura 3C, più letture di giunzione mappate in modo univoco sono diventate più letture mappate in RefGene e/o UCSC rispetto a Ensembl quando le letture di sequenza sono state allineate al genoma di riferimento senza l'uso di modelli genetici.

L'impatto della scelta del modello genetico sulla quantificazione del gene

Diversi identificatori di geni vengono utilizzati in diversi database di annotazioni, pertanto, abbiamo mappato quegli identificatori specifici del database nei simboli univoci del gene HGNC dal Comitato per la nomenclatura dei geni HUGO quando si confrontano i risultati della quantificazione dei geni tra i diversi modelli di geni provenienti da questi database. Considerando che le annotazioni sono più o meno incomplete in questi database, ci siamo concentrati solo sui geni comuni. Il diagramma di Venn nella Figura 4 ha mostrato la sovrapposizione e l'intersezione delle annotazioni RefGene, UCSC e Ensembl. Chiaramente RefGene ha il minor numero di geni unici, mentre più del 50% dei geni in Ensembl sono unici. In generale, le diverse annotazioni hanno sovrapposizioni molto elevate: 21.598 geni comuni sono condivisi da tutte e tre le annotazioni geniche.

La sovrapposizione e l'intersezione tra RefGene, UCSC, e annotazioni d'insieme. In generale, annotazioni diverse hanno sovrapposizioni molto elevate: ci sono 21.598 geni comuni condivisi da tutti e tre i modelli genici. RefGene ha il minor numero di geni unici, mentre più del 50% dei geni in Ensembl sono unici.

Per studiare l'impatto di diversi modelli genici sui risultati della quantificazione genica, ci siamo concentrati su questo set di 21.598 geni comuni. La correlazione complessiva tra RefGene ed Ensembl è stata mostrata nella Figura 5. Entrambi gli assi x e y rappresentavano log2(count + 1). Per tutti i geni, è stato aggiunto 1 ai conteggi per evitare un errore logaritmico per quei geni con conteggi zero. Idealmente, dovremmo ottenere un numero identico di letture mappate per tutti i geni comuni, indipendentemente dalla scelta di un modello di gene, tuttavia, questo non era chiaramente il caso. Sebbene la maggior parte dei geni avesse livelli di espressione altamente coerenti o quasi identici, c'era un numero significativo di geni i cui risultati di quantificazione erano drammaticamente influenzati dalla scelta di un modello genetico. Come mostrato nella Figura 5, c'erano molti geni per i quali il numero di letture mappate su di essi era 0 in un modello di gene, ma molti in altri.

La correlazione dei risultati della quantificazione genica tra RefGene e Ensembl. Entrambi gli assi x e y rappresentano Log2(count + 1). Sebbene la maggior parte dei geni abbia livelli di espressione altamente coerenti o quasi identici, ci sono molti geni i cui risultati di quantificazione sono drammaticamente influenzati dalla scelta di un modello genetico.

Per quantificare la concordanza tra le annotazioni RefGene ed Ensembl, abbiamo prima calcolato il rapporto di lettura mappata per ciascun gene. Per un dato gene, abbiamo definito i conteggi di lettura non elaborati nelle annotazioni RefGene e Ensembl come #C1 e #C2, rispettivamente. Per evitare la divisione per 0, è stato aggiunto 1 a tutti i conteggi delle letture non elaborate prima che i rapporti fossero calcolati. I conteggi corretti sono stati indicati rispettivamente come #C1' (=#C1 + 1) e #C2' (=#C2 + 1). Il rapporto è stato calcolato come Max(#C1',#C2')/Min(#C1',#C2'). Pertanto il rapporto calcolato era sempre uguale o maggiore di 1. La distribuzione dei rapporti è stata riassunta nella Tabella 1 (lettura lunghezza = 75 bp). Tra i 21.958 geni comuni, circa il 20% dei geni non aveva alcuna espressione in entrambe le annotazioni. Conteggi identici sono stati ottenuti solo per il 16,3% dei geni. Circa il 28,1% dei livelli di espressione genica differiva del 5% o più e, tra questi, il 9,3% dei geni (equivalente a 2038) differiva del 50% o più. Come mostrato nella Tabella 1 e nella Figura 5, la scelta di un modello di gene ha avuto un grande impatto sulla quantificazione del gene. La concordanza tra l'annotazione UCSC e RefGene è stata riportata nel file aggiuntivo 1: Tabella S7 (lettura lunghezza = 75 bp). Rispetto a Ensembl, UCSC ha avuto una concordanza molto migliore con RefGene, in termini di risultati di quantificazione genica. Il 38,3% dei geni aveva conteggi di lettura identici, molto più alti del 16,3% tra Ensembl e RefGene. La percentuale di geni con livelli di espressione differenti del 5% o più era solo dell'11,3%, che era molto inferiore al corrispondente 28% tra Ensembl e RefGene. Inoltre, solo il 3,24% dei risultati di quantificazione dei geni differiva del 50% o più, che era inferiore al 9,3% tra Ensembl e RefGene.

Perché la scelta di un modello genetico ha un effetto così drammatico sulla quantificazione del gene? Di seguito, abbiamo scelto alcuni casi estremi o rappresentativi per fornire possibili spiegazioni. Nel campione di fegato, i livelli di espressione per questi geni esemplari sia per Ensembl che per RefGene sono stati riassunti nella Tabella 2 (lettura lunghezza = 75 bp). PIK3CA (fosfatidilinositolo-4,5-bisfosfato 3-chinasi, subunità catalitica alfa) utilizza l'ATP per fosforilare PtdIns, PtdIns4P e PtdIns(4,5)P2. Nel campione di fegato, c'erano 1094 letture mappate su PIK3CA nell'annotazione Ensembl, mentre solo 492 letture sono state mappate in RefGene. La definizione del gene PIK3CA sia in Ensembl che in RefGene e il profilo di mappatura delle letture RNA-Seq sono stati mostrati nella Figura 6. Chiaramente, la differenza nella definizione del gene dà origine alla discrepanza osservata nella quantificazione. In Ensembl, ci sono tre isoforme per PIK3CA e l'isoforma più lunga è ENST00000263967. La lunghezza totale di questa trascrizione è 9653 bp, comprendente 21 esoni, con un esone #21 molto lungo (6000 bp, chr3: 178,951,882-178,957,881). In RefGene, PIK3CA ha solo una trascrizione denominata NM_006218. Questa trascrizione è lunga 3909 bp con un esone #21 molto corto (solo 616 bp, situato a chr 3:178,951,882-178,952,497). La definizione del gene PIK3CA in Ensembl sembra più accurata di quella in RefGene, basata sul profilo di mappatura delle letture della sequenza. Allo stesso modo, la differenza nei conteggi di lettura per il gene EGFR e SLC30A1 in Ensembl e RefGene deriva principalmente dalla differenza di definizione del gene (file aggiuntivo 1: figure S4 e S5).

Le diverse definizioni geniche per PIK3CA danno luogo a differenze nella quantificazione genica. PIK3CA nell'annotazione Ensembl è molto più lungo della sua definizione in RefGene, spiegando perché ci sono 1094 letture mappate su PIK3CA in Ensembl, mentre solo 492 letture sono mappate in RefGene. La definizione del gene PIK3CA in Ensembl sembra più accurata di quella in RefGene, basata sul profilo di mappatura delle letture di sequenza.

La Figura 7 mostra un altro esempio di un modello di gene notevolmente diverso definito in Ensembl rispetto a quello in RefGene. In RefGene, una trascrizione bi-cistronica codifica i prodotti di entrambi i geni MTPN (miotropina) e LUZP6 (proteina 6 della cerniera della leucina), che si trovano sul cromosoma 7. Tutte le letture mappate sono equamente distribuite a questi due geni. La trascrizione matura è 3884 bp in RefGene. Tuttavia, in Ensembl, LUZP6 è lungo solo 177 bp ed è completamente all'interno di MTPN. Di conseguenza, tutte le letture mappate alla regione sovrapposta vengono assegnate a MTPN solo perché LUZP6 non ha letture univoche mappate su di esso, il che spiega perché il conteggio delle letture per LUZP6 era 0 quando è stata scelta l'annotazione Ensembl. Allo stesso modo, la differenza nella definizione del gene (vedi File aggiuntivo 1: Figura S6) può spiegare i risultati della quantificazione per PIGY/PYURF nella Tabella 2. Il gene PIGY in Ensembl è lungo solo 217 bp e si sovrappone completamente a PYURF (PIGY Upstream Reading Frame) . Pertanto, tutte le letture mappate sulla regione di PIGY sono assegnate al gene PYURF, mentre nessuna lettura viene assegnata a PIGY. In RefGene, PIGY e PYURF codificano esattamente lo stesso mRNA, sebbene le sequenze proteiche tradotte siano diverse. Pertanto, tutte le letture mappate su PIGY/PYURF sono equamente distribuite a questi due geni. Il gene PECAM1 è un altro esempio interessante. Si trova sul cromosoma 17 nel modello RefGene. In Ensembl, tuttavia, questo gene si trova sul cromosoma HG183_PATCH: 62,399,863-62,491,136. HG183_PATCH non è affatto incluso nel genoma umano GRCH37.3, il che spiega perché zero letture sono state mappate sul gene PECAM1 utilizzando l'annotazione Ensembl.

Le diverse definizioni del gene per LUZP6. Nell'annotazione Ensembl, LUZP6 è lungo solo 177 bp ed è completamente all'interno di un altro gene, MTPN. Di conseguenza, tutte le letture di sequenza originate da LUZP6 vengono invece assegnate a MTPN. In RefGene, LUZP6 e MTPN derivano dalla stessa regione genomica ed entrambi codificano esattamente lo stesso mRNA, sebbene le sequenze di codifica delle proteine ​​siano diverse. Pertanto, tutte le letture mappate su questa regione sono equamente distribuite tra questi due geni.

L'effetto dei modelli genetici sull'analisi differenziale

In genere, l'analisi differenziale RNA-Seq richiede repliche biologiche. Tuttavia, abbiamo analizzato singoli campioni da 16 tessuti diversi. Per dimostrare l'effetto dei modelli genici sull'analisi differenziale, i cambiamenti di piega tra i campioni di cuore e fegato sono stati calcolati utilizzando le annotazioni RefGene e Ensembl. La correlazione del Log2Ratio calcolato (fegato/cuore) è stata illustrata nella Figura 8. Il grafico dovrebbe mostrare una linea diagonale perfetta se la scelta di un modello genetico non ha effetto sull'analisi differenziale. Sebbene la maggior parte dei geni abbia cambiamenti di espressione altamente coerenti o comparabili, ci sono un certo numero di geni i cui rapporti sono drammaticamente influenzati dalla scelta di un modello genetico. È interessante notare che alcuni geni hanno un cambiamento di piega molto alto in un modello di gene, ma nessun cambiamento in un altro modello di gene. Evidentemente, la scelta di un modello genico ha un effetto sull'analisi dell'espressione differenziale a valle, oltre che sulla quantificazione genica.

La correlazione del Log2Ratio calcolato (cuore/ fegato) tra RefGene e Ensembl. I punti verde, blu e rosso indicano la differenza assoluta corrispondente tra i due Log2Ratios che erano maggiori di 1, 2 o 5, rispettivamente. Sebbene la maggior parte dei geni abbia cambiamenti di espressione altamente coerenti, ci sono molti geni che sono notevolmente influenzati dalla scelta di diversi modelli genici.

L'effetto di un modello genetico sulla mappatura dipende dalla lunghezza della lettura

Tutti i risultati dell'analisi per il set di dati con una lunghezza di lettura di 50 bp sono stati riportati nelle tabelle e nelle figure supplementari. Intuitivamente, più breve è una lettura, più è probabile che venga mappata su più posizioni. Di conseguenza, la percentuale di letture mappate in modo univoco diminuisce e la percentuale di letture mappate multiple aumenta. Indipendentemente dal modello genetico utilizzato per la mappatura, questa osservazione è vera, ad esempio, se confrontiamo il file aggiuntivo 1: tabella S1 con il file aggiuntivo 1: tabella S2 e/o il file aggiuntivo 1: tabella S3 con il file aggiuntivo 1: tabella S4. Pertanto, la fedeltà di mappatura per una lettura di sequenza aumenta con la sua lunghezza, e questo è particolarmente vero per le letture di giunzione. Come dimostrato nella Figura 3C e nel file aggiuntivo 1: Tabella S5, quando la lunghezza di lettura era di 75 bp, una media del 53% delle letture di giunzione è rimasta mappata alle stesse regioni genomiche quando mappata senza annotazione genica. Tuttavia, questa percentuale è scesa al 42% quando la lunghezza della lettura era di 50 bp (File aggiuntivo 1: Figura S3C e File aggiuntivo 1: Tabella S6). Pertanto, l'effetto di un modello genetico sulla mappatura delle letture di giunzione è significativamente influenzato dalla lunghezza della lettura.

Nel frattempo, l'abbondanza relativa di letture di giunzione è fortemente determinata dalla lunghezza di lettura.

Secondo la Figura 3A e il file aggiuntivo 1: Tabella S5, in media, circa il 23% delle letture di sequenza erano letture di giunzione quando la lunghezza di lettura era di 75 bp. La percentuale di letture di giunzione è scesa al 16% quando la lunghezza della lettura era di 50 bp (vedere File aggiuntivo 1: Figura S3A e File aggiuntivo 1: Tabella S6). Ciò è spiegato dal fatto che più lunga è la lettura, più è probabile che si estenda su più di un esone. Con l'evolversi della tecnologia di sequenziamento, la lunghezza di lettura diventerà sempre più lunga. Di conseguenza, verranno generate più letture di giunzione dalle tecnologie di sequenziamento a pistola corta. Pertanto, la necessità di incorporare l'annotazione del genoma nel processo di mappatura della lettura aumenterà notevolmente.

Quale annotazione del genoma scegliere per la quantificazione del gene?

In pratica, non esiste una risposta semplice a questa domanda e dipende dallo scopo dell'analisi. In questo articolo, abbiamo dimostrato che la scelta di un modello genico ha un effetto sui risultati della quantificazione. In precedenza, abbiamo confrontato i risultati della quantificazione del gene quando sono state utilizzate le annotazioni RefGene ed Ensembl. Tra 25.958 geni comuni, le espressioni di 2038 geni (cioè 9,3%) differivano del 50% o più quando si sceglieva un'annotazione rispetto all'altra. Una differenza così grande spesso deriva dalle differenze di definizione del gene nelle annotazioni. I geni con lo stesso simbolo HUGO in modelli genetici diversi possono essere definiti come regioni genomiche completamente diverse. Quando si sceglie un database di annotazioni, i ricercatori dovrebbero tenere a mente che nessun database è perfetto e che alcune annotazioni genetiche potrebbero essere imprecise o del tutto sbagliate.

Wu et al. [27] ha suggerito che quando si conduce una ricerca che enfatizza stime riproducibili e robuste dell'espressione genica, potrebbe essere preferita un'annotazione del genoma meno complessa, come RefGene. Quando si conduce una ricerca più esplorativa, dovrebbe essere scelta un'annotazione del genoma più complessa, come Ensembl. Sulla base della nostra esperienza nell'analisi dei dati RNA-Seq, si consiglia di utilizzare l'annotazione RefGene se RNA-Seq viene utilizzato in sostituzione di un microarray nella profilazione del trascrittoma. Per i campioni umani, gli array Affymetrix GeneChip HT HG-U133+ PM sono una delle piattaforme di microarray più popolari per la profilazione del trascrittoma e i geni coperti da questo chip si sovrappongono molto bene con RefGene, secondo Zhao et al. [6] h. Nonostante Ensembl R74 contenga 63.677 voci geniche annotate, solo 22.810 voci (circa un terzo) corrispondono a geni codificanti proteine. Ci sono 17.057 voci che rappresentano vari tipi di RNA, inclusi rRNA (566), snoRNA (1549), snRNA (2067), miRNA (3361), misc_RNA (2174) e lincRNA (7340). Ci sono 15.583 pseudogeni in Ensembl R74. Per la maggior parte dei progetti di sequenziamento RNA-Seq, solo gli mRNA sono presumibilmente arricchiti e sequenziati e non ha senso mappare le letture della sequenza su RNA come miRNA o lincRNA. Ensembl R74 contiene 819 trascritti elaborati che sono stati generati dalla trascrizione inversa di un trascritto di mRNA con successiva reintegrazione del cDNA nel genoma e di solito non sono espressi attivamente. In questo scenario, una lettura realmente originata da un mRNA attivo può essere mappata alla trascrizione elaborata o mappata solo alla trascrizione elaborata, il che è particolarmente vero per le letture di giunzione. Di conseguenza, la vera espressione per l'mRNA corrispondente può essere sottovalutata. Un altro svantaggio dell'utilizzo di un database di annotazioni più grande è il calcolo dei valori p aggiustati, poiché l'adeguamento del valore p grezzo per consentire test multipli è determinato principalmente dal numero di geni nel modello. Se i geni di interesse sono definiti in modo incoerente tra diverse annotazioni, si consiglia di analizzare il set di dati RNA-Seq utilizzando diversi modelli di geni.


Qual è la differenza tra diversi mRNA RefSeq per un gene? - Biologia

Domande frequenti (FAQ) su TargetScan

  1. Quali sono le definizioni di "famiglie di miRNA conservati", "famiglie di miRNA non conservati", "siti di miRNA conservati" e "siti di miRNA non conservati"?
    • Per le famiglie di miRNA in TargetScan 6 (Human and Mouse), i cutoff di conservazione sono come se Friedman et al. (2009):
      • ampiamente conservato = conservato nella maggior parte dei vertebrati, di solito nel pesce zebra (Tabella supplementare 1 di Friedman et al.)
      • conservato = conservato nella maggior parte dei mammiferi, ma di solito non oltre i mammiferi placentati (Tabelle supplementari 2 e 3 di Friedman et al.)
      • mal conservato = tutti gli altri
    • Per i siti di miRNA in TargetScan 5 e 6 (uomo e topo), la conservazione del sito è definita dalla lunghezza del ramo conservata, con ogni tipo di sito che ha una soglia diversa per la conservazione:
      • 8mer >= 0.8
      • 7mer-m8 >= 1.3
      • 7mer-1A >= 1.6
    • Per TargetScanFly 5 e 6, le famiglie di miRNA conservate oltre il sottogenere Sophophora sono classificate come conservate e i siti con lunghezze dei rami di almeno 3,16 (60% della lunghezza totale dei rami) sono classificati come conservati.
    • Per TargetScanWorm 5 e 6, le famiglie di miRNA presenti in C. elegans e C. briggsae sono classificate come conservate e i siti presenti in tutte e tre le specie sono classificati come conservati.
    • Le versioni precedenti di TargetScan, come la versione 4, utilizzavano definizioni più semplici di famiglie e siti di miRNA come
      • altamente conservato = conservato tra uomo, topo, ratto, cane e pollo
      • conservato = conservato tra uomo, topo, ratto e cane

  2. Cosa intendi per "MiRNA rappresentativo", "Aggregato P CT" o qualche altro termine TargetScan?
    • Prova a cliccare sul termine, che in questi casi compare come intestazioni di tabelle nel sito web. Si collegano a finestre pop-up con descrizioni di termini come miRNA rappresentativo o aggregato P CT .

  3. Se un gene ha più trascrizioni, come posso sapere quale è stato utilizzato per la previsione del target?
    • For TargetScanHuman and Mouse 6, the annotated 3' UTR of each transcript of a gene was used for target prediction. The transcipt ID (NM_*) corresponding to the UTR annotation appears above the blue bar that represents the UTR in the top image on each gene-centric pages.
    • For TargetScan 5 and earlier, we selected the transcript with the longest 3' UTR, after removing any regions that overlap the coding region of another RefSeq transcript. The NM_* ID of the transcript (and its length) is shown in small text near the top of the gene page, just above the blue bar representing the gene.
    • For TargetScanWorm 5.2, we selected 3' UTRs, often more than one per gene, determined using the methods described in Jan et al., 2011.


Difference between siRNA vs miRNA:

1. The siRNA called small interfering or short interfering RNA while the miRNA is known as microRNA.

2. The siRNA is not conserved throughout the species while miRNA are highly conserved in the related organisms of species.

3. Structurally, the siRNA is a 21-23 nucleotide long RNA duplex having a dinucleotide 3’ overhang.

Whereas the miRNA is made up to 19-25 nucleotide RNA hairpin which forms duplex by binding with each other.

4. The siRNA is an exogeneous double-stranded RNA uptaken by the cell, generally, are viral RNAs, it is also encoded by heterochromatin regions and transposons.

Whereas the miRNA are endogenous single-stranded, non-coding RNA molecule, by forming a hairpin structure, it becomes duplex. The miRNAs are the non-coding RNA molecule which is encoded by some of the genes.

5. Though both are processed by the RISC, the siRNA only abort gene expression, if it finds the exact complementary sequence on mRNA.

On the other side, the miRNA binds imperfectly or at the 3’ untranslated region of the mRNA and hinder in the translation process.

6. For doing gene silencing, the siRNA required the Ago 2 protein- argonaute protein 2 whereas the miRNA required the Ago protein but not necessarily the Ago2. Any argonaute family protein can do miRNA mediated gene silencing.

Generally, in addition to ago2, several other proteins such as ago1, ago4, ago7 and ago6 are involved in the siRNA mediated gene silencing in different organisms. Contrary, a go1 and ago10 are majorly linked in the miRNA mediated gene regulation.


Difference between DNA and RNA

RNA and DNA have some similarities, but also their differences. Next we will see what the differences between DNA and RNA are.

DNA is the abbreviation for deoxyribonucleic acid . This is largely responsible for how people are viewed physically ( phenotype ) and how they act, as well as certain health conditions and traits that distinguish them. It is also responsible for storing genetic information about how and what work each cell should do.

It ‘s a molecule that encodes the genetic instructions that are used for the development and functioning of cells in living organisms and many viruses . E l DNA is one macromolecule essential for the existence of all living organisms .

The genetic information is encoded as a sequence of nucleotides : guanine , adenine , thymine , and cytosine . DNA tells to each cell what proteins have to do and also is responsible for storing long – term data .

The type of protein in a cell, is what determines the function of the same . The DNA is inherited from parents to children , so they share similar traits .

The DNA molecule has a form double helix , which resembles a staircase that is twisted into a spiral . Each rung of the ladder has a pair of nucleotides that stores the information . The DNA backbone consists of a sugar ( deoxyribose) and a phosphate group , from which the DNA gets its name .

The nucleotides are bound to the sugar in a special formation . The adenine (A ), thymine (T ), cytosine ( C) and guanine ( G) are nucleotides that always form pairs AT and GC although they can be found in any order in the DNA . The adenine and thymine pair to make two hydrogen bonds , while cytosine and guanine make three Hydrogen bonds. When the order is different it is as if the DNA write “codes” with “letters” that tell a cell ‘s duties to perform .

The ribonucleic acid ( RNA) molecule is a single chain which plays a vital role in encoding, decoding , regulation and expression of genes. S to DNA, is composed of the same nucleotides , but these are found in shorter chains .

The RNA is a molecule of single – stranded . Each nucleotide is composed of sugar ribose with carbons numbered 1 through 5. The carbon atoms are composed of four bases different : Adenine ( A), guanine (G ), cytosine ( C) and uracil (U ).

The RNA backbone is composed of ribose sugar bound with a phosphate group and bases . The bases are always formed as follows: GC and AU although they can be found in any order . Unlike DNA, the RNA is outside the nucleus of the cells and is not protected inside.

There are several types of RNA: transfer RNA ( tRNA ) , messenger RNA (mRNA ), ribosomal RNA ( rRNA ) … All of these performs different functions in the body . The RNA polymerase is responsible for decoding the genetic data of l DNA that the mRNA used then to direct how proteins act in the body . The tRNA is responsible for the delivery of amino acids to the ribosomes, where the rRNA binds the amino acids to create specific proteins . Therefore, the proteins are composed of a combination of different amino acids.

Thus RNA plays an important role in the decoding and transmission of the genetic composition found in DNA and then used to create the proteins needed by our body .


What Is Moderna Vaccine?

The Moderna COVID-19 vaccine, codenamed mRNA-1273 is one of the first few vaccine candidates to be approved for emergency use by the FDA to curb the ongoing pandemic. The preliminary results suggested an efficacy rate of 94.5% against the COVID-19 infection with no severe allergic reactions. Like the Pfizer vaccine, Moderna’s vaccine is also an mRNA-based vaccine meaning it uses messenger RNA to provide instructions for our cells to make that spike protein of the coronavirus which the body then mount an immune response against. The mRNA vaccine technology is a novel technology for vaccine development that offers several advantages over other vaccine technologies in terms of efficacy, stability and speed of development.

The company has synthesized part of the virus RNA and embedded this RNA in lipid nanoparticles. The mRNA takes messages from the virus genes to the infected host cell, instructing the cell to make specific proteins. It then tells the host cell to make the spike protein which exists in the spike the virus uses to enter a person’s cells. When injected, it instructs our cells to make antibodies against this spike protein, which in turn stops the virus from getting into our cells.


Struttura del DNA [torna in cima]

The three-dimensional structure of DNA was discovered in the 1950's by Watson and Crick. The main features of the structure are:

Function of DNA [torna in cima]

DNA is the genetic material, and geni are made of DNA. DNA therefore has two essential functions: replica e espressione.

Replication means that the DNA, with all its genes, must be copied every time a cell divides.

Expression means that the genes on DNA must control characteristics. A gene was traditionally defined as a factor that controls a particular characteristic (such as flower colour), but a much more precise definition is that a gene is a section of DNA that codes for a particular protein. Characteristics are controlled by genes through the proteins they code for, like this:

Expression can be split into two parts: trascrizione (making RNA) and traduzione (making proteins). These two functions are summarised in this diagram (called the central dogma of genetics).

No one knows exactly how many genes we humans have to control all our characteristics, the latest estimates are 60-80,000. The sum total of all the genes in an organism is called the genoma.

The table shows the estimated number of genes in different organisms:

Saccharomyces cerevisiae

* kbp = kilo base pairs, i.e. thousands of nucleotide monomers.

Amazingly, genes only seem to comprise about 2% of the DNA in a cell. The majority of the DNA does not form genes and doesn t seem to do anything. The purpose of this junk DNA remains a mystery!


What is difference between several mRNA RefSeq for one gene? - Biologia

The problem of the "missing messenger" was solved with a combination of experiment and collective insight about the role of ribonucleic acid (RNA). The close chemical kin to DNA—the principal difference is that uracil, rather than thymine, is one of the bases—RNA was known to play at least one role in protein synthesis. RNA-containing molecules, known as ribosomes, were found in the cytoplasm of cells, and protein synthesis could not proceed without them. But it remained unclear how ribosomal RNA received specific information from DNA.


Fran ois Jacob
In this regard, experiments with E. coli bacteria, conducted at the Institut Pasteur, became the focus of intense interest in 1959. The "PaJaMo" experiments—performed by Arthur Pardee, Fran ois Jacob, and Jacques Monod—built upon research into the system of bacterial enzyme production pioneered by Jacques Monod. They involved observations of carefully controlled gene transfer during conjugation—mating between "male" and "female" bacteria.

In previous experiments, Monod had learned how to genetically manipulate the compounds that control sugar metabolism in E. coli—collectively known as the B-galactosidase system. He had first bred mutated "female" bacteria in which this system ceased to function. When normal "male" bacteria then penetrated and inserted genes into such bacteria, however, the system was immediately—within minutes—restored to normal and the bacteria could digest sugar. How such information transfer could take place so quickly suggested the existence of a specific, relatively simple molecule that was complementary to DNA.


Jacques Monod
Courtesy the Archives, California Institute of Technology
Discussions among Monod, Jacob, Crick, and Brenner led to a solution. They recalled research from the early 1950s with bacteriophages—viral parasites that invade bacteria. Experiments had shown that soon after bacteriophages insert their DNA into bacterial cells, traces of RNA rapidly appear. In addition, the composition of such RNA closely resembled the DNA of the invading bacteriophage.

With this as context, the PaJaMo experiments suggested that another type of RNA was rapidly synthesized from DNA. Comparatively short-lived, its crucial presence had been initially overlooked. But in 1960, Fran ois Jacob and Jacques Monod named this hypothetical molecule "messenger RNA" (mRNA). Its presence was subsequently confirmed by experiment.

As it was finally understood, several types of RNA represent a basic division of labor in protein synthesis. Messenger RNA (mRNA) presents information contained in DNA sequences to the ribosomes, which are structured by ribosomal RNA (rRNA). Other molecules, known as transfer RNA (tRNA), attach to specific amino acids and conduct them to the ribosomes for protein synthesis.