Informazione

Distribuzione genomica dei tRNA negli eucarioti

Distribuzione genomica dei tRNA negli eucarioti



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Il titolo dice tutto. Sto facendo una ricerca bibliografica cercando di vedere cosa è ampiamente conosciuto e/o ben consolidato. Ho trovato un paio di menzioni secondo cui i tRNA sono dispersi nell'intero genoma nucleare. Questo significa che sono isolati l'uno dall'altro? O si verificano in cluster? È vero per gli eucarioti? O qualcosa di tutto questo è anche ben studiato?


In Drosophila, almeno, alcuni sono raggruppati (ad esempio questi), ma ci sono molti geni tRNA negli eucarioti, quindi nel complesso sono dispersi. Potresti trovare utile il database Genomic tRNA e il documento che lo descrive.


Organizzazione genomica dei tRNA eucariotici

Sorprendentemente poco si sa circa l'organizzazione e la distribuzione dei geni del tRNA e delle sequenze correlate al tRNA su scala genomica. Mentre i complementi del gene del tRNA sono solitamente riportati di sfuggita come parte degli sforzi di annotazione del genoma e caratteristiche peculiari come le disposizioni in tandem del gene del tRNA in Entamoeba histolytica sono stati descritti in dettaglio, gli studi comparativi sistematici sono rari e per lo più limitati ai batteri. Abbiamo quindi deciso di esaminare la disposizione genomica dei geni e degli pseudogeni del tRNA in un'ampia gamma di eucarioti per identificare modelli comuni e peculiarità specifiche del taxon.

Risultati

In linea con i rapporti precedenti, troviamo che i complementi di tRNA evolvono rapidamente e le posizioni del gene del tRNA e dello pseudogene sono soggette a un rapido turnover. A livello di phylum, le distribuzioni del numero di geni tRNA e numero di pseudogeni sono molto ampie, con deviazioni standard nell'ordine della media. Anche tra specie strettamente imparentate osserviamo cambiamenti drammatici nell'organizzazione locale. Ad esempio, il 65% e l'87% dei geni e degli pseudogeni del tRNA si trovano in cluster genomici in zebrafish e spinarello, rispettivamente, mentre tali accordi sono relativamente rari negli altri tre genomi di pesci teleostei sequenziati. Tra i metazoi basali, Trichoplax adhaerens non ha quasi nessun gene tRNA duplicato, mentre l'anemone di mare Nematostella vectensis vanta più di 17000 geni tRNA e pseudogeni. Si osservano variazioni drammatiche anche all'interno dei mammiferi euteri. I primati superiori, ad esempio, hanno 616 ± 120 geni e pseudogeni tRNA di cui dal 17% al 36% disposti in cluster, mentre il genoma del bushbaby Otolemur garnetti ha 45225 geni tRNA e pseudogeni di cui solo il 5,6% appare in cluster. Al contrario, la distribuzione è sorprendentemente uniforme tra i genomi delle piante. Coerentemente con questa variabilità, anche la conservazione sintenica dei geni del tRNA e degli pseudogeni è generalmente scarsa, con tassi di turn-over paragonabili a quelli degli elementi di sequenza non vincolati. Nonostante questa grande variazione in abbondanza in Eukarya osserviamo una correlazione significativa tra il numero di geni tRNA, pseudogeni tRNA e dimensione del genoma.

Conclusioni

L'organizzazione genomica dei geni e degli pseudogeni del tRNA mostra modelli complessi specifici del lignaggio caratterizzati da un'ampia variabilità che è in netto contrasto con i livelli estremi di conservazione della sequenza dei tRNA stessi. L'analisi completa dell'organizzazione genomica dei geni e degli pseudogeni del tRNA in Eukarya fornisce una base per ulteriori studi sull'interazione tra le disposizioni dei geni del tRNA e l'organizzazione del genoma in generale.


La diversità dei piccoli RNA non codificanti nella diatomea Phaeodactylum tricornutum

Sfondo: Le diatomee marine costituiscono un componente importante del fitoplancton eucariotico e si trovano al crocevia di diversi lignaggi evolutivi. Queste microalghe possiedono caratteristiche genomiche peculiari e nuove combinazioni di geni acquisiti da antenati batterici, animali e vegetali. Inoltre, mostrano sia la metilazione del DNA che le attività di silenziamento genico. Tuttavia, la biogenesi e la funzione di regolazione dei piccoli RNA (sRNA) rimangono mal definite nelle diatomee.

Risultati: Qui riportiamo la prima caratterizzazione completa del paesaggio sRNA e la sua correlazione con le informazioni genomiche ed epigenomiche in Phaeodactylum tricornutum. La maggior parte degli sRNA è lunga da 25 a 30 nt e mappa su elementi trasponibili ripetitivi e silenziati contrassegnati dalla metilazione del DNA. Un sottoinsieme di questa popolazione prende di mira anche i geni codificanti proteine ​​metilate del DNA, suggerendo che la metilazione del corpo genico potrebbe essere guidata dall'sRNA nelle diatomee. Sorprendentemente, gli sRNA di 25-30 nt mostrano una distribuzione periodica di 180 nt ben definita e senza precedenti in diverse regioni altamente metilate che attende la caratterizzazione. Mentre i miRNA canonici non sono rilevabili, altri sRNA di 21-25 nt di origine sconosciuta sono altamente espressi. Inoltre, gli RNA non codificanti con una funzione ben descritta, vale a dire tRNA e snRNA U2, costituiscono una fonte importante di sRNA da 21-25 nt e probabilmente svolgono ruoli importanti in condizioni ambientali stressanti.

Conclusioni: P. tricornutum ha evoluto percorsi di sRNA diversificati, probabilmente implicati nella regolazione di processi genetici ed epigenetici in gran parte ancora non caratterizzati. Questi risultati rivelano una complessità inaspettata della popolazione di sRNA di diatomee e caratteristiche precedentemente non apprezzate, fornendo nuove informazioni sulla diversificazione dei processi basati sull'sRNA negli eucarioti.


RISULTATI

Geni del tRNA.

Un sondaggio sul T. brucei Sequence Project ha portato all'identificazione di 50 geni tRNA tripanosomiali che rappresentano 40 diverse specie di isoaccettori (è stato anche rilevato un tRNA con specificità indeterminata [2] ma non verrà ulteriormente discusso qui) (Tabella ​ (Tabella2). 2 ). Molti di questi geni sono stati caratterizzati in precedenza da diversi gruppi di ricerca (6, 7, 15, 25, 29-31, 45). È chiaro che il genoma tripanosomiale non è ancora completamente rappresentato nel database delle sequenze e quindi alcuni geni del tRNA potrebbero essere sfuggiti al rilevamento. Tuttavia, si prevede che la frazione di geni tRNA non rilevati sia piccola per i seguenti motivi. Se un A nella prima posizione dell'anticodone viene modificato in inosina, che è noto per decodificare U, C e A (23), i 40 isoaccettori sono sufficienti per decodificare il 94% di tutti i 61 codoni di rilevamento (Tabella ​ ( Tabella 2).2). I quattro codoni che non possono essere letti sono UGG (Trp), AUU e AUC (Ile) e UAA (Leu). Sulla base di questa osservazione, si prevede che i 50 geni del tRNA rappresentino circa il 94% del complemento genico del tRNA genomico totale. È stata ottenuta una stima indipendente della dimensione del complemento genico del tRNA tripanosomiale sulla base dell'informazione che ciascun gene del tRNA è stato rilevato in media 2,46 volte. Quindici geni sono stati trovati una volta e i restanti 35 sono stati trovati da due a sei volte ciascuno. Da un'analisi statistica dell'istogramma ottenuto, stimiamo che da 3 a 13 geni aggiuntivi (da 8 a 33%, P = 0.05) potrebbe essere presente nella parte ancora mancante del genoma. Questa analisi presuppone che l'intero genoma sia stato sequenziato in modo casuale e che quindi le frequenze con cui è stato trovato ciascun gene debbano seguire una distribuzione di Poisson. Il sequenziamento, tuttavia, ha incluso anche una strategia cromosoma per cromosoma. Pertanto, la copertura della sequenza è maggiore per alcuni cromosomi rispetto a quanto previsto per un approccio idealmente casuale. Dopo aver preso in considerazione queste considerazioni, concludiamo che più dell'80% di tutti i geni del tRNA tripanosomiale sono stati rilevati nel presente lavoro. Il numero totale stimato di geni del tRNA tripanosomiale è quindi di ca. 62 (che rappresenta almeno 43 diversi isoaccettori). Mentre il numero di isoaccettori è nell'intervallo previsto per un genoma con un contenuto di GC compreso tra il 45 e il 50% (20), il numero di geni tRNA è di gran lunga inferiore a quello di qualsiasi altro genoma eucariotico caratterizzato finora ad eccezione del parassita microsporidiano Encephalitozoon cuniculi, che ha 44 geni tRNA (22). Analisi preliminare del Leishmania genoma (dati non mostrati) indica che in questo organismo anche il numero di geni tRNA è molto basso, suggerendo che questa potrebbe essere una caratteristica generale dei tripanosomatidi o forse anche dei parassiti in generale.

L'ottanta percento dei geni tRNA rilevati si trovano in gruppi da due a cinque geni separati da regioni intergeniche molto corte di 79 nt in media (Fig. ​ (Fig.1).1). All'interno di questi cluster, i geni del tRNA sembrano essere disposti in modo casuale: le disposizioni testa-testa e coda-coda si verificano con la stessa frequenza delle ripetizioni in tandem. Il restante 20% si trova disperso in tutto il genoma. Osservando le regioni codificanti i tRNA previste, sembra che i tRNA tripanosomiali si pieghino in strutture secondarie che sono essenzialmente simili ai tRNA eucariotici in buona fede. Il tRNA Tyr è l'unico che contiene un introne (43). Sono stati trovati due distinti tRNA Met, uno dei quali ha una coppia di basi AU all'estremità dello stelo accettore e quindi corrisponde al tRNA eucariotico Met-i (32) l'altro mostra tutte le caratteristiche di un tRNA Met-e . Le loro strutture secondarie previste sono mostrate in Fig. ​ Fig.2 2 .

Organizzazione genomica di T. brucei geni del tRNA. I 12 cluster che sono stati identificati nel genoma di T. brucei e che contengono in totale 40 geni tRNA sono mostrati e disegnati in scala (alcuni di questi cluster sono stati analizzati in precedenza [6, 7, 15, 25, 29-31, 45]). Le direzioni della trascrizione sono indicate da frecce e gli anticodoni previsti sono mostrati tra parentesi. Il punto interrogativo indica un tRNA di identità sconosciuta. I numeri indicano le lunghezze delle note sequenze 5′- e 3′-fiancheggianti e intergeniche. Le doppie barre indicano le estremità di ogni contig. Le linee spezzate rappresentano grandi regioni intergeniche. Sono mostrati anche i geni per RNA strutturali (U2, U5, U6, 7SL) o mRNA che si trovano adiacenti ai geni del tRNA. I geni tRNA che si trovano dispersi altrove nel genoma non sono mostrati. I geni tRNA i cui prodotti genici sono stati analizzati in questo studio sono mostrati in grassetto.

Espressione di tRNA.

Al fine di ottenere una panoramica del livello di espressione dei tRNA allo stato stazionario, abbiamo selezionato 15 diverse specie di tRNA specifiche per 12 amminoacidi (le strutture secondarie previste sono mostrate in Fig. ​ Fig.2) 2) e determinato il loro valore assoluto abbondanza mediante analisi quantitativa del Nord. Diverse quantità di trascritti in vitro sono state utilizzate come standard e analizzate insieme a quantità note di RNA cellulare totale mediante ibridazione oligonucleotidica specifica. I segnali di ibridazione sono stati quantificati su un phosphorimager e ci hanno permesso di calcolare il numero di molecole per cellula (vedi Materiali e Metodi). Un potenziale svantaggio dell'analisi quantitativa del Nord è la possibile presenza di modificazioni nucleotidiche in regioni del tRNA che sono complementari alle sonde oligonucleotidiche. Le modificazioni saranno assenti dai tRNA sintetizzati in vitro. È quindi possibile che in tali casi l'ibridazione al tRNA cellulare sia meno efficiente rispetto ai tRNA marcatori prodotti in vitro, il che comporterebbe una sottostima dell'abbondanza di tRNA.

Tre Northern blot rappresentativi con le corrispondenti quantificazioni sono mostrati sui pannelli di sinistra della Fig. ​ Fig.3. 3 . Un riepilogo dei risultati sull'abbondanza di tRNA per cellula è presentato nella tabella ​ Table3 3 (prima colonna). Mostra che in media 64.000 molecole di ciascuna delle specie di tRNA selezionate, che vanno da 1.850 molecole per il tRNA Met-i a 220.000 per i tRNA Leu (CAA), si trovano in una cellula.

Analisi quantitativa del Nord. L'ibridazione oligonucleotidica specifica è stata utilizzata per rilevare tRNA Met-e (CAU) (A), tRNA Lys (CUU, UUU) (B) e tRNA Met-i (CAU) (C). (pannelli a sinistra) L'abbondanza di tRNA nell'RNA cellulare totale (TOT) è stata determinata mediante confronto con quantità note del corrispondente tRNA trascritto in vitro (trans. in vitro). I grafici mostrano la quantificazione delle macchie mostrate a destra utilizzando un phosphorimager. Le intensità del segnale sono indicate in unità arbitrarie (a.u.). (pannelli a destra) La localizzazione mitocondriale è stata determinata dall'ibridazione dei corrispondenti oligonucleotidi specifici a quantità note di RNA totali e mitocondriali (MIT). I pannelli inferiori mostrano le ibridazioni che utilizzano una sonda specifica per l'rRNA codificato dai mitocondri (rRNA 12S).

Importazione mitocondriale.

Gli stessi 15 tRNA di cui sono state determinate le quantità intracellulari sono stati analizzati per l'importazione mitocondriale. I Northern blot contenenti quantità note di RNA mitocondriali totali cellulari e isolati sono stati ibridati con sonde specifiche dei mitocondri (dirette contro un RNA guida e un rRNA 12S). I dati (non mostrati) indicavano che ca. Il 2% dell'RNA totale è mitocondriale. La contaminazione citosolica dell'RNA mitocondriale è risultata essere di ca. Da 0,33 a 0,40% come determinato mediante ibridazione a 7SL RNA (non mostrato). Questo RNA è un componente della particella di riconoscimento del segnale e dovrebbe essere esclusivamente citosolico, sebbene studi precedenti abbiano stabilito che questo marcatore sovrastimi l'entità della contaminazione citosolica (18, 37). Si prevede che la determinazione della distribuzione intracellulare dei tRNA sia meno soggetta a errori rispetto alla misurazione dell'abbondanza totale di tRNA, poiché i nucleotidi modificati nella regione riconosciuta dalla sonda interferiranno con l'interpretazione dei risultati solo se sono specifici del compartimento. Sono note solo pochissime modifiche nucleotidiche specifiche dei mitocondri T. brucei, e sembrano trovarsi nelle stesse posizioni relative nella maggior parte delle molecole di tRNA (42).

I pannelli di destra della Fig. ​ Fig.3 3 mostrano Northern blot che rappresentano la distribuzione intracellulare di tre tRNA, che mostrano livelli elevati (tRNA Met-e) e intermedi (tRNA Lys) di localizzazione mitocondriale, nonché l'unico tRNA con un localizzazione citosolica esclusiva (tRNA Met-i). Il numero di molecole importate per cellula per ciascuno dei tRNA selezionati è riassunto nella Tabella ​ Tabella 3 3 (seconda colonna) e varia da 370 a 7.700. L'abbondanza e la distribuzione intracellulare di tutti i 15 tRNA sono riassunte nel grafico in Fig. ​ Fig.4, 4, in cui viene tracciata la percentuale di ciascun tRNA recuperato nei mitocondri rispetto al numero totale delle molecole per cellula. Da questo grafico si possono trarre le seguenti conclusioni.

Abbondanza di tRNA nella cellula totale e nei mitocondri. Questa è una rappresentazione grafica dei risultati mostrati nella tabella ​ Table3. 3 . Il numero di molecole di tRNA per cellula è stato tracciato rispetto alla percentuale di quelle trovate nei mitocondri. Sono indicate le identità dei tRNA e dei loro anticodoni. Non è stata osservata alcuna correlazione tra il livello di espressione e l'estensione della localizzazione mitocondriale (R = 𢄠.29, P = 0,310).

(i) Solo lo 0,2% del tRNA Met-i si trova nei mitocondri, una proporzione che è inferiore a quella dei marcatori citosolici e quindi è molto probabilmente il risultato della contaminazione citosolica. Il tRNA Met-i rappresenta quindi il primo tRNA citosol-specifico ad essere caratterizzato per T. brucei. L'esistenza di tRNA citosolici Met in entrambi T. brucei e Leishmania tarentolae è stato mostrato prima, ma le loro identità non sono state determinate (14, 44). La localizzazione citosolica del tRNA Met-i è in accordo con la sua funzione di iniziatore eucariotico, poiché questo tRNA non dovrebbe essere funzionale nel sistema di traduzione di tipo batterico dei mitocondri (32). Al contrario, il tRNA Met-e, che è omologo al tRNA Met-i (Fig. ​ (Fig.2), 2), viene importato in modo efficiente nei mitocondri.

(ii) Se assumiamo che i 15 tRNA selezionati siano rappresentativi dell'intera popolazione, i complementi dei tRNA mitocondriali e citosolici potrebbero essere identici. Ad eccezione del tRNA Met-i, tutti i tRNA sono in una certa misura importati nei mitocondri. Tuttavia, non è stato rilevato alcun tRNA che mostri una localizzazione mitocondriale esclusiva. Questo ricorda tutti gli altri organismi in cui è stata studiata l'importazione di tRNA e suggerisce che non esistono tRNA codificati dal nucleo che sono specificamente localizzati nei mitocondri (41).

(iii) L'estensione della localizzazione mitocondriale è distinta per i diversi isoaccettori e varia dall'1 al 7,5%. Non esiste una correlazione apparente tra la concentrazione complessiva di un dato tRNA e l'estensione della sua localizzazione mitocondriale (R = 𢄠.29, P = 0,310).

L'analisi settentrionale misura solo i livelli di tRNA allo stato stazionario nei diversi compartimenti in esame. Poiché non c'è sintesi di tRNA nei mitocondri di T. brucei, l'abbondanza di tRNA dovrebbe essere determinata esclusivamente dall'efficienza di importazione e dal tasso di degradazione del tRNA all'interno dei mitocondri. Al fine di escludere che la degradazione differenziale di specie distinte di tRNA interferisca significativamente con i nostri tentativi di determinare i livelli di importazione da quantità di tRNA allo stato stazionario, abbiamo misurato la degradazione di tRNA selezionati mediante incubazione di mitocondri isolati a 27ଌ. Gli esperimenti nel corso del tempo mostrano una perdita di circa il 50% di tRNA a lunghezza intera in un periodo di incubazione di 4 ore (Fig. ​ (Fig.5). 5). La perdita osservata può essere attribuita a due processi: (i) i saggi di protezione della RNasi (18) che utilizzano rRNA 12S codificato mitocondriale come marcatore (non mostrato) indicano che il 33% (± 4,6% [deviazione standard]) dei mitocondri lisa durante l'incubazione, con conseguente degradazione completa di tutto l'RNA rilasciato (ii) il restante ca. Il 17% riflette la degradazione del tRNA intramitocondriale. La cosa più importante nel contesto di questo lavoro, tuttavia, è il fatto che non sono state osservate differenze significative nella cinetica della degradazione delle diverse specie di tRNA. Si conclude quindi che i livelli di stato stazionario dei tRNA importati sono effettivamente correlati con le loro efficienze di importazione.

Degradazione intramitocondriale dei tRNA. I mitocondri isolati sono stati incubati a 27ଌ e la degradazione dei tRNA indicati è stata determinata mediante analisi Northern utilizzando gli stessi oligonucleotidi utilizzati per determinare l'abbondanza di tRNA. Sono mostrati i valori medi di due esperimenti indipendenti. Per i punti temporali in cui erano disponibili tre o più valori indipendenti, viene indicata la deviazione standard.

Substrato di importazione in vivo.

Tutti i risultati discussi finora sono stati ottenuti da cellule wild-type. Tuttavia, l'analisi quantitativa del Nord può essere utilizzata anche nelle cellule transgeniche, in cui i geni del tRNA e i loro contesti genomici possono essere manipolati. Abbiamo utilizzato questa possibilità per affrontare la questione se i tRNA maturi o 5′ estesi siano i substrati di importazione in vivo in T. brucei. Il substrato di importazione meglio studiato è il tRNA Leu (CAA) codificato sul cluster tRNA Ser (CGA)/tRNA Leu (CAA) (Fig. ​ (Fig.1).1). È stato precedentemente dimostrato che questa regione è trascritta come precursore dicistronico (25). Inoltre, esperimenti in vitro hanno stabilito che solo il precursore del tRNA Leu (CAA) ma non il suo derivato maturo è stato importato nei mitocondri (48). Per confermare questi risultati, abbiamo eseguito i corrispondenti esperimenti in vivo utilizzando lo stesso substrato di tRNA.Un tag corrispondente a tre sostituzioni nucleotidiche nell'ansa variabile è stato introdotto nel gene tRNA Leu (CAA) (Fig. ​ (Fig.2).2). Il gene marcato contenente 216, 59, 10 o 0 nucleotidi della sua sequenza fiancheggiante 5′ originale è stato clonato in un plasmide di espressione e stabilmente integrato in un locus di DNA ribosomiale di T. brucei (3) (Fig. ​ (Fig.6A). 6A ). Infine, utilizzando gli stessi metodi delle cellule wild-type (Fig. ​ (Fig.4), 4), l'espressione del tRNA Leu (CAA) è stata quantificata in tutte e quattro le linee cellulari. Per analizzare l'importazione, i mitocondri delle linee cellulari transgeniche sono stati isolati mediante estrazioni di digitonina seguite da digestioni con RNasi (vedi Materiali e metodi). Questa procedura ha il vantaggio di richiedere solo piccole quantità di cellule. Produce preparazioni mitocondriali grezze che sono essenzialmente prive di RNA citosolici. Le frazioni mitocondriali ottenute mediante estrazioni di digitonina possono essere direttamente paragonate a quelle isolate mediante la procedura di isolamento ipotonico, come evidenziato dal fatto che sono state ottenute efficienze di importazione molto simili per tRNA Met-i, tRNA Met-e e tRNA Leu (CAA) indipendentemente da quale delle due procedure è stata utilizzata (Tabella ​ (Tabella3). 3 ). La figura ​ La figura 6B 6B mostra che in tutte e quattro le linee cellulari transgeniche il tRNA Leu (CAA) marcato viene importato nei mitocondri con un'efficienza dal 2,9 al 3,0%, che è essenzialmente identica al 3,2-3,5% osservato per il wild-type tRNA Leu (CAA). Il tRNA Met-i specifico del citosol, come previsto, si trova solo nella frazione citosolica. Pertanto, questi risultati mostrano che, a differenza di quanto può essere previsto dagli esperimenti in vitro, l'importazione del tRNA Leu (CAA) è indipendente dalla sua regione endogena 5′ che lo fiancheggia. Anche la rimozione completa di tutta la sequenza naturale 5′-fiancheggiante si traduce in un'efficienza di importazione identica a quella della molecola wild-type. In tutti e quattro i costrutti il ​​tRNA marcato è espresso a un livello inferiore a quello del tRNA wild-type. tRNA Leu (CAA) (Fig. ​ (Fig.6C 6C e Tabella ​ Table3). 3 ). Uno dei motivi è probabilmente la presenza del tag nel ciclo variabile. Inoltre, l'espressione è fortemente influenzata dal contesto 5′ del gene tRNA marcato in quanto regioni più lunghe che fiancheggiano 5′ determinano una maggiore espressione del gene corrispondente. Anche se l'espressione del tRNA Leu (CAA) marcato nelle diverse linee cellulari varia più di 10 volte, si osserva la stessa entità di importazione. Questi risultati ci consentono quindi di estendere la conclusione che non esiste alcuna correlazione apparente tra la concentrazione complessiva di un dato tRNA e l'estensione della sua localizzazione mitocondriale (Fig. ​ (Fig.4) 4) a una singola specie di tRNA.


Riferimenti

Piñeyro D, Torres AG, Ribas de Pouplana L. Biogenesi ed evoluzione dei tRNA funzionali. In: Sesma A, von der Haar T, editors. Biologia dell'RNA fungino. Cham: Springer International Publishing 2014. p. 233-67.

Phizicky EM, Hopper AK. la biologia del tRNA si carica in avanti. Geni Dev. 201024: 1832–60. doi:10.1101/gad.1956510.

Torres AG, Batlle E, Ribas de Pouplana L. Ruolo delle modifiche del tRNA nelle malattie umane. Tendenze Mol Med. 201420:306-14. doi:10.1016/j.molmed.2014.01.008.

Shaheen R, Abdel-Salam GMH, Guy MP, Alomar R, Abdel-Hamid MS, Phizicky EM, et al. La mutazione in WDR4 altera la metilazione del tRNA m7G46 e provoca una forma distinta di nanismo primordiale microcefalico. Genoma biologico. 201516:210.

Michaud J, Kudoh J, Berry A, Bonne-Tamir B, Lalioti MD, Rossier C, et al. Isolamento e caratterizzazione di un gene del cromosoma umano 21q22.3 (WDR4) e del suo omologo di topo che codifica per una proteina WD-repeat. Genomica. 200068:71-9. doi:10.1006/geno.2000.6258.

Sahun I, Marechal D, Pereira PL, Nalesso V, Gruart A, Garcia JMD, et al. La cognizione e la plasticità dell'ippocampo nel topo sono alterate dalla monosomia di una regione genomica implicata nella sindrome di down. Genetica. 2014197: 899–912. doi:10.1534/genetica.114.165241.

Alexandrov A, Grayhack EJ, Phizicky EM. tRNA m7G metiltransferasi Trm8p/Trm82p: prove che collegano l'attività a un fenotipo di crescita e implicano Trm82p nel mantenimento dei livelli di Trm8p attivo. RNA. 200511: 821-30. doi:10.1261/rna.2030705.

Torres AG, Piñeyro D, Filonava L, Stracker TH, Batlle E, Ribas-de-Pouplana L. Editing A-to-I sui tRNA: implicazioni biochimiche, biologiche ed evolutive. FEBS Lett. 2014588:4279–86. doi:10.1016/j.febslet.2014.09.025.

Torres AG, Piñeyro D, Rodríguez-Escribà M, Camacho N, Reina O, Saint-Léger A, et al. Le modificazioni dell'inosina nei tRNA umani sono incorporate a livello di tRNA precursore. Acidi nucleici Res. 201543:5145–57. doi:10.1093/nar/gkv277.

Alazami AM, Hijazi H, Al-Dosari MS, Shaheen R, Hashem A, Aldahmesh MA, et al. La mutazione in ADAT3, che codifica per l'adenosina deaminasi che agisce sull'RNA di trasferimento, provoca disabilità intellettiva e strabismo. J Med Genet. 201350:425–30. doi:10.1136/jmedgenet-2012-101378.


Metodi

Dati Hi-C

Le mappe di contatto disponibili per i cinque organismi sono il risultato di vari protocolli sperimentali ad alto rendimento strettamente correlati. Tutti i protocolli sono stati derivati ​​e adattati da 3C rif. 10, e sono considerati in questo lavoro, per semplicità, come metodi Hi-C. La tabella supplementare 1 riassume il set di dati scelto per ciascun organismo.

Si può notare che alcuni parametri variano tra i set di dati. Ancora più importante, la risoluzione data per ogni set di dati è diversa con una variabilità fino a 2 ordini di grandezza (confronta SP e HS). Mentre tutti gli esperimenti sono stati condotti utilizzando enzimi di restrizione HindIII per produrre segmenti di DNA che costituiscono l'unità di base delle mappe di contatto grezze, quattro su cinque set di dati hanno utilizzato contenitori di dimensioni costanti per raccogliere le misurazioni per migliorare il rapporto segnale/rumore 11,13, 16,17. La dimensione dei bin determina la risoluzione del set di dati in questi casi. Inoltre, tre dei cinque set di dati sono stati corretti per ridurre al minimo i bias sperimentali 13,16,17. Il set di dati per SC è stato ulteriormente filtrato per includere una porzione selezionata della mappa dei contatti che ha superato l'1%-FDR (rif. 12).

Tutti i set di dati sono stati sottoposti a un'ulteriore post-elaborazione, come indicato nella tabella supplementare 1. Abbiamo completato l'elaborazione dei dati forniti scegliendo un post-processo che riduce al minimo le distorsioni nei dati e ne massimizza l'importanza. Abbiamo impiegato un processo di correzione iterativo basato su ref. 52, simile a quello utilizzato per il set di dati del mouse (per i dettagli, vedere i Metodi Supplementari). Cis le mappe sono state quindi normalizzate utilizzando l'Hi-C atteso letto dalla distanza genomica. Inoltre, abbiamo mantenuto solo la percentuale più alta di misurazioni significative di Hi-C dopo la correzione (vedere la tabella supplementare 1). Cis mappe (intracromosomiche) e trans le mappe (intercromosomiche) sono state filtrate separatamente per assicurare che entrambi i tipi di interazioni siano rappresentati correttamente. La soglia del filtro è stata scelta in base alla dimensione del genoma e alla densità della mappa Hi-C. Il trattamento di cui sopra mira a ridurre le differenze tra i set di dati, prima di procedere a un protocollo di analisi generale e non specifico.

Sebbene tutti i risultati di questo lavoro siano in generale accordo tra organismi, parte della diversità tra organismi (ad esempio, diversi livelli di correlazione) può essere attribuita alle differenze nei protocolli, alla loro esecuzione e ai pregiudizi intrinseci, nonché alla preparazione di i dati. Ad esempio, la mappa HS è stata misurata su cellule in ciclo, mentre il set di dati per MM è stato misurato su cellule nella stessa fase del ciclo cellulare (cellule G1-arrestate) 16 .

Sequenza del genoma

Le sequenze del genoma fungino e vegetale sono state ottenute da NCBI (fila SC S288c e filamento SP 972h, AT TAIR10), che includono 5.123 geni SP codificanti proteine ​​(http://www.pombase.org/status/statistics, mRNA-protein_coding), 5.888 geni SC ( http://www.ncbi.nlm.nih.gov/bioproject/PRJNA128, Protein Sequences) e 27.191 geni AT ( ftp://ftp.arabidopsis.org/home/tair/Genes/TAIR10_genome_release/README_TAIR10. txt, vedere anche la tabella supplementare 2). Abbiamo localizzato tutti i siti di restrizione HindIII in SC e aggiornato le coordinate della mappa SC Hi-C. Abbiamo usato le tabelle delle proteine ​​NCBI per le sequenze ORF. Poiché le mappe di contatto Hi-C per i mammiferi si basavano sulle versioni mm9/hg18 dei genomi, abbiamo utilizzato lo strumento 53 del browser delle tabelle UCSC per generare tabelle genetiche per i genomi HS hg18/hg19 e MM mm9/mm10. Nelle nostre analisi, ad esempio, in HS, abbiamo utilizzato l'insieme di geni condiviso dalle due tabelle: hg18 e hg19. Ciò ci ha consentito di utilizzare sequenze geniche aggiornate per la maggior parte dei geni codificanti proteine ​​noti (vedere la tabella supplementare 2). Le sequenze del genoma per hg19/mm10 sono state ottenute dall'NCBI.

Distanza genomica 3D

Abbiamo utilizzato le mappe di contatto Hi-C per costruire rappresentazioni grafico/rete dell'organizzazione spaziale del genoma. L'alta risoluzione delle mappe di contatto scelte ci ha permesso di investigare la struttura 3D nella risoluzione di singoli geni codificanti proteine ​​rappresentando ogni gene come un nodo. Nel caso dei mammiferi, ogni nodo rappresenta tutti i possibili prodotti di splicing alternativo di questo gene. Le interazioni cromosomiche associate dalle mappe di contatto sono state trasformate in interazioni gene-gene. Abbiamo mappato ogni gene al suo bin Hi-C più vicino in base alla distanza tra le loro coordinate centrali. I contatti di ogni contenitore con tutti gli altri sono stati assegnati ai suoi geni mappati.

Abbiamo provato diversi criteri per mappare i dati dai bin Hi-C ai geni per scegliere quello meno distorto, tra cui: tutti i bin sovrapposti per gene massima sovrapposizione di bin per gene (come in rif. 20) massima sovrapposizione di gene per bin e mappatura ponderata che è proporzionale alla sovrapposizione tra bin e gene. Siamo stati in grado di riprodurre i nostri risultati principali con tutti i metodi sopra menzionati.

Poiché le mappe Hi-C erano già state filtrate per includere solo le interazioni più significative (vedere le sezioni precedenti), abbiamo utilizzato i bordi del grafico binario (1/0) per rappresentare le interazioni tra i geni. I bordi della spina dorsale dei cromosomi tra geni adiacenti sullo stesso cromosoma sono stati aggiunti a questo grafico, in modo che tutti i geni vicini siano a distanza 1 l'uno dall'altro. Le distanze del grafico tra tutte le coppie di geni sono state calcolate secondo il percorso più breve tra di esse e sono state misurate in luppoli. Questa impostazione ci ha permesso di lavorare con la risoluzione di un singolo gene, calcolare la distanza tra una data coppia di geni e incorporare misurazioni sia intercromosomiche che intracromosomiche (alcuni degli studi precedenti utilizzavano solo uno dei due tipi).

Somiglianza della frequenza di utilizzo del codone

I vettori della frequenza di utilizzo dei codoni sono stati calcolati contando tutte le presenze nio di un codone io nell'ORF e dividendo per il conteggio totale dei codoni.

Si può vedere che questo vettore combina sia il CUB che il bias di utilizzo degli amminoacidi, poiché la frequenza di ciascun codone è normalizzata rispetto a tutti gli altri codoni, non solo ai codoni sinonimi per lo stesso amminoacido. Abbiamo utilizzato il vettore di frequenza media per i geni con un numero di trascrizioni splicing alternativo.

I vettori di frequenza di synCUFS sono stati calcolati come segue:

Dove il numero di codoni osservati nio è normalizzato dalla somma di tutti i codoni sinonimi che codificano per lo stesso amminoacido o codone di stop piuttosto che per tutti gli altri codoni.

I vettori AAF sono stati calcolati come segue:

In cui si nio è il numero di occorrenze contate dell'amminoacido io nell'ORF.

Il CUFS tra i geni è stato calcolato utilizzando la metrica Endres-Schindelin 23 per le distribuzioni di probabilità. Dati i vettori di frequenza di una coppia di geni P e Q, la distanza/somiglianza CUF tra loro è data da:

dove dKL è la divergenza di Kullback-Leibler, una misura popolare di guadagno di informazioni, che è non simmetrica e non soddisfa le proprietà metriche 54 . Il suo utilizzo in questo contesto, tuttavia, soddisfa tutte le proprietà richieste per una metrica. Ha anche una somiglianza con la divergenza Jensen-Shannon. AAFS e synCUFS sono stati calcolati utilizzando la stessa metrica.

Indici CUB

Abbiamo calcolato il CAI 42 , tAI 29 , bcENC 43 - che è una variante migliorata del numero effettivo di codoni 55 , CDC 44 e l'indice RCB 45 secondo i documenti citati. Il set di riferimento per CAI è stato selezionato in base ai dati di abbondanza proteica disponibili 56 (vedi anche i Metodi Supplementari), prendendo i primi 100 geni espressi. La composizione nucleotidica di fondo per CDC è stata stimata dall'intera sequenza codificante del genoma, mentre per bcENC e RCB è stata stimata dall'ORF di ciascun gene separatamente.

Grafico PPI

Abbiamo utilizzato un numero di database PPI 57,58,59,60,61,62 per costruire una rete PPI non orientata per i cinque organismi e abbiamo utilizzato il percorso più breve sul grafico per definire la distanza del grafico PPI tra ciascuna coppia di geni. Alle coppie disconnesse è stato assegnato uno scalare finito (255) per includerle nel calcolo della distanza media del grafico, in modo che il valore della distanza PPI per un set di coppie di geni varia da 1 (set di vicini adiacenti) a 255 (set completamente disconnesso). (Vedi anche i Metodi Supplementari).

GO termine distanza

Abbiamo utilizzato le annotazioni complete GO 63 fornite per i cinque organismi 64,65,66,67,68 e le abbiamo mappate sulle definizioni generiche di ontologia sottile fornite da GOC, tranne nel caso di AT in cui sono state utilizzate le definizioni di ontologia sottile di piante. La distanza tra una coppia di termini GO è stata definita come la somma delle distanze dei due termini sul grafico GO dal loro antenato meno comune. La distanza per una coppia di geni è stata calcolata facendo la media della distanza del termine GO tra tutti i loro termini nell'ontologia del processo biologico.

Altre somiglianze

La distanza per altre misure, come il contenuto di GC e la lunghezza del gene, che sono dati come scalari per ciascun gene, è stata calcolata come distanza normalizzata:

Gli scalari forniti per diverse alternative di giunzione (come GC e lunghezza) sono stati mediati per gene prima di calcolare la distanza.

Correlazione

La correlazione è stata calcolata utilizzando un numero definito di bin n secondo il test di interesse. Il binning è stato condotto come segue. La misura in questione, ad esempio CUFS, è stata calcolata per tutte le coppie di geni, quindi n sono stati impostati bin di uguale dimensione dei valori CUFS, dividendo tutte le coppie. La media CUFS e la distanza media 3D sono state calcolate per ciascun bin, infine, il rho di Spearman è stato calcolato tra tutti i bin di distanza CUFS/3D. La Figura 5 supplementare presenta la correlazione risultante con la distanza CUFS/3D di diverse caratteristiche per varie dimensioni del contenitore. Il numero scelto di contenitori per AT (n=64 × 10 3 ) e mammiferi (n=32 × 10 3 ) era maggiore di quella dei funghi (n=2 × 10 3 ) per spiegare il loro genoma più grande (misurato in numero di geni codificanti proteine, o nodi sul grafico genomico).

Abbiamo preferito raggruppare la coppia di variabili testate per la correlazione in base alla variabile con l'intervallo di valori più ampio (più vicino all'essere continuo) per migliorare l'accuratezza statistica. Quando abbiamo raggruppato i valori interi, in particolare il 3DGD, abbiamo scoperto che la distribuzione delle distanze 3D ha portato a numerosi bin contenenti lo stesso valore di distanza. Per questo motivo, la variabile testata rispetto alla distanza 3D è stata quella che definisce i bin in tutti i casi durante il test di una variabile rispetto a CUFS, i bin sono stati definiti da CUFS, che è una misura di distanza continua. In due casi, tuttavia, abbiamo raggruppato le variabili in base alla distanza 3D (vedi i metodi supplementari).

Calcolo del valore P

La significatività statistica dei risultati è stata verificata rispetto a un modello nullo empirico: spostamento ciclico del cromosoma (Fig. 3a). Attingiamo da questo modello spostando casualmente la posizione di tutti i geni sui loro cromosomi rispettati. L'ipotesi nulla sottostante è che la co-localizzazione di specifici set di geni di interesse non sia guidata dalla conformazione spaziale del cromosoma. In pratica, il disegno dal modello avviene spostando le etichette di tutti i nodi lasciando inalterati i bordi. P i valori sono stati calcolati prelevando 1.000 campioni (configurazioni casuali del genoma) dal modello e stimando la distribuzione dei coefficienti di correlazione (Fig. 3b,c), secondo:

In cui si 1<> è la funzione dell'indicatore, Rio è il coefficiente di correlazione casuale ottenuto e Resp il coefficiente di correlazione osservato nell'esperimento. Il modello di spostamento ciclico del cromosoma che abbiamo usato, oltre alla sua logica intrinseca, è il più conservativo di quelli che abbiamo testato, tra cui: a due code T-test per il ricablaggio dei grafici che preserva il grado di correlazione di Spearman campionamento casuale di set di geni/coppie di geni e spostamento ciclico del genoma, che è uno spostamento ciclico dell'intero genoma, che consente ai geni di ruotare e spostarsi liberamente tra i cromosomi.

Evoluzione e conservazione

Per i risultati dell'evoluzione fungina, abbiamo utilizzato il database di ortologhi a cura manuale su PomBase 69, contenente 3.367 famiglie di ortologhi. Per l'evoluzione dei mammiferi, abbiamo utilizzato il rapporto MGI delle classi di omologia umana e di topo ordinate per HomoloGene ID 67 (file: HOM_MouseHuman Sequence.rpt) contenente 15.832 famiglie di ortologhi. Abbiamo utilizzato le famiglie di ortologhi per trasformare le matrici di distanza CUFS/3D, in modo che il Co-CUFS trasformato per una coppia di geni sia il CUFS medio tra i loro corrispondenti ortologhi nel co-organismo. Quindi, data una matrice di distanza D B nell'organismo B, la matrice trasformata in ortologa nell'organismo A è data da:

dove ohJ è l'insieme dei geni ortologhi nell'organismo B corrispondente al gene J nell'organismo A.

Abbiamo quindi seguito la procedura di correlazione, ma abbiamo considerato solo i geni con ortologhi identificati in entrambe le specie. Il test regolare consisteva nel calcolare la correlazione di, ad esempio, CUFS per insiemi ortologhi di geni nell'organismo X con il 3DGD in X. La correlazione ottenuta era diversa da quella calcolata per tutti i possibili geni a seguito dell'uso di solo un sottoinsieme di questi. Il test ibrido consisteva nel calcolare la correlazione, ad esempio, della matrice Co-CUFS trasformata per l'organismo Y con il 3DGD nell'organismo X. La conservazione degli insiemi ibridi di CUFS rispetto a CUFS e 3DGD rispetto a 3DGD è stata calcolata nello stesso modo.

Proprietà del segmento HindIII

A scopo di controllo, abbiamo localizzato tutti i possibili segmenti HindIII (sito di taglio AAGCTT) nei genomi e ne abbiamo calcolato la lunghezza e il contenuto GC del segmento (in una finestra di 200 nt a monte del sito di taglio, come nel riferimento 6). Abbiamo scartato i segmenti HindIII più grandi di 100.000 nt. Il contenuto/lunghezza media del segmento GC è stato calcolato per ciascun bin Hi-C. I nodi (geni) sul grafico sono stati quindi assegnati con la lunghezza del segmento/contenuto GC in base al bin Hi-C che sono stati assegnati durante la costruzione del grafico genomico 3D. Durante il test per coppie di nodi identiche, abbiamo incluso il 5% delle coppie con il valore della proprietà più vicino (ad esempio, il contenuto del segmento GC) e le abbiamo raggruppate in base a CUFS utilizzando il 5% del numero di bin per tenere conto della riduzione della quantità di dati.

Correlazioni parziali

Abbiamo dimostrato che CUFS è fortemente correlato con molte altre variabili (Supplementare Fig. 1). Nel test delle correlazioni parziali, abbiamo calcolato la correlazione parziale per nove caratteristiche dei nodi del grafico, ciascuna correlazione data le altre otto.A tal fine, tutte le variabili sono state raggruppate in base alle distanze 3D in modo che possano essere confrontate (utilizzando il binning della varianza minima, vedere Metodi supplementari). Abbiamo usato la correlazione di Spearman.


Risultati e discussione

Espressione, maturazione e localizzazione subcellulare dei nev-tRNA

Abbiamo precedentemente identificato nuovi geni tRNA specifici per nematodi, designati nev-tRNA, ad esempio nev-tRNA Gly (CCC) e nev-tRNA Ile (UAU), che contengono strutture V-arm di 15�-nt e sono esclusivamente caricati con Leu invece di Gly o Ile in vitro [8, 16]. Per ottenere ulteriori prove della funzionalità dei nev-tRNA nelle cellule, sono state analizzate le seguenti due caratteristiche: (1) la loro maturazione, con l'aggiunta di 3′ CCA e (2) la loro localizzazione subcellulare. In questi esperimenti, tRNA Gly (UCC) e tRNA Ile (UAU), che sono i tRNA affini di nev-tRNA Gly (CCC) e nev-tRNA Ile (UAU), sono stati utilizzati come controlli positivi per testare GGG e AUA ambiguità del codone nelle cellule nematodi.

L'aggiunta di CCA all'estremità 3′ della molecola di tRNA è una delle sue più importanti modificazioni post-trascrizionali ed è essenziale per varie funzionalità del tRNA, inclusi altri processi, amminoacilazione e interazioni tRNA– ribosoma [20]. Per determinare le sequenze finali 3′ dei nev-tRNA con PCR a trascrizione inversa (RT–PCR), è stato isolato un set di tRNA modello da stadi misti di C. elegans (uova, stadi larvali 1𠄴 e adulti) e legati con una sequenza di adattatori di 23 nt alle estremità 3′. L'amplificazione RT–PCR è stata condotta con primer forward che si sono appaiati a una regione specifica su ciascun tRNA (posizioni 22� e 23� per tRNA Gly e tRNA Ile comuni, rispettivamente posizioni 40� e 41� per nev-tRNA Gly e nev-tRNA Ile, rispettivamente) e primer inversi che si sono appaiati alla regione dell'adattatore 3′ (Fig. 1A). Le regioni mirate delle lunghezze previste sono state amplificate con successo, eccetto per nev-tRNA Gly (Fig. 1B). L'efficienza di amplificazione per nev-tRNA Gly era notevolmente inferiore a quella per gli altri stampi, ma il prodotto amplificato è stato chiaramente rilevato con una seconda analisi PCR. Anche l'efficienza di amplificazione per nev-tRNA Ile era leggermente inferiore a quella per i normali tRNA. Presi insieme ai nostri studi precedenti [16], questi dati suggeriscono che l'abbondanza dei nev-tRNA maturi nelle cellule era bassa. I prodotti amplificati delle dimensioni previste sono stati quindi subclonati e sono state determinate le sequenze nucleotidiche alle loro estremità 3′. La Fig. 1C mostra che non solo il tRNA Gly (UCC) e il tRNA Ile (UAU) comuni, ma anche il nev-tRNA Gly (CCC) e il nev-tRNA Ile (UAU) sono maturati normalmente, con l'aggiunta di CCA al loro 3′ finisce. Questi risultati mostrano che i nev-tRNA vengono elaborati nella forma funzionale per la traduzione, proprio come i loro tRNA affini, sebbene le proprietà strutturali e biochimiche dei nev-tRNA differiscano da quelle dei normali tRNA.

(A) Schema PCR per la rilevazione delle estremità 3′ dei tRNA maturi: nev-tRNA Gly (CCC) e nev-tRNA Ile (UAU) e loro affini, tRNA Gly (UCC) e tRNA Ile (UAU), rispettivamente . I numeri indicano le posizioni dei nucleotidi relative all'estremità 5′ di ciascun tRNA. (B) Amplificazione RT–PCR dell'estremità 3′ di ciascun tRNA. I prodotti PCR delle dimensioni previste sono mostrati come punti rossi. (C) Cromatogrammi di sequenza nucleotidica della regione terminale 3′ di ciascun tRNA.

Successivamente abbiamo analizzato la localizzazione subcellulare dei nev-tRNA per determinare se vengono esportati dal nucleo dopo la modifica post-trascrizionale. Il tutto C. elegans il verme è stato sottoposto a frazionamento subcellulare con centrifugazione differenziale (vedi Materiali e Metodi). La Fig. 2 (pannello superiore) mostra la localizzazione subcellulare degli RNA di controllo: U6 small nuclear RNA (snU6) e U3 small nucleolar RNA (snoU3) sono stati arricchiti nel nucleo (

2,9 volte) rispetto ai loro livelli nel citoplasma, mentre il tRNA iMet è stato arricchito nel citoplasma (

2,8 volte) rispetto al suo livello nel nucleo, come precedentemente riportato [21, 22]. Nelle stesse condizioni, nev-tRNA Gly (CCC) e nev-tRNA Ile (UAU) sono stati rilevati a livelli più elevati (

2,0 volte) nel citoplasma che nel nucleo (Fig. 2, pannello inferiore), suggerendo che i nev-tRNA sono esportati dal nucleo e potrebbero quindi essere utilizzati nella traduzione. Questo esperimento ha anche confermato che il normale tRNA Gly (UCC) e tRNA Ile (UAU) vengono esportati dal nucleo. Inoltre, abbiamo determinato le sequenze dell'anticodone di circa 30 cloni di ciascun nev-tRNA, sia nel nucleo che nel citoplasma, e abbiamo scoperto che nessun anticodone è stato modificato in un codone di leucina da un evento di modifica dell'RNA. Questi risultati supportano la possibilità che i nev-tRNA competano con i loro tRNA affini durante la traduzione. Va notato che non è ancora chiaro se gli anticodoni del nev-tRNA siano modificati da specifiche modifiche chimiche in modo che possano leggere i codoni della leucina.

L'RNA è stato isolato da ciascuna frazione di C. elegans: cellula intera (W), nucleare (N) o citoplasmatica (C). L'analisi RT–PCR è stata utilizzata per rilevare gli RNA snU6 e snoU3 (marcatori nucleari), il tRNA iMet (marcatore citoplasmatico) e quattro tRNA (nev-tRNA Gly e nev-tRNA Ile e i loro tRNA affini). L'espressione dell'rRNA 5S è mostrata come controllo di caricamento. Le densità delle bande sono state valutate semiquantitativamente con la densitometria.

Analisi della misincorporazione di aminoacidi nel proteoma di cellule intere di C. elegans

I nostri studi precedenti hanno dimostrato che il nev-tRNA Gly (CCC) può essere incorporato nei ribosomi e utilizzato per la sintesi proteica in un sistema di espressione proteica privo di cellule di insetto [16]. Questa scoperta è la prova che almeno i nev-tRNA causano ambiguità del codice genetico in vitro. Poiché i nev-tRNA vengono esportati dal nucleo e potrebbero competere con i loro tRNA affini in C. elegans, abbiamo ipotizzato che i nev-tRNA siano coinvolti nella sintesi proteica in vivo, creando ambiguità nel codice genetico. Per affrontare questa ipotesi, abbiamo eseguito un'analisi proteomica del fucile da caccia di C. elegans utilizzando la cromatografia liquida x02013tandem MS (LC&x02013MS/MS) ed ha esaminato i tipi di molecole proteiche all'interno del proteoma delle cellule intere che contenevano amminoacidi mal incorporati. La SM ad alta risoluzione può monitorare direttamente livelli molto bassi di isoforme proteiche minori su larga scala [23, 24]. In questo esperimento, ci siamo concentrati principalmente sulle misincorporazioni Gly-to-Leu (in cui Gly al codone GGG viene sostituito con Leu) e Gly-to-Ser (in cui Gly al codone GGG viene sostituito con Ser). Le misincorporazioni Gly-to-Ser sono state utilizzate come controllo negativo perché il nev-tRNA Gly (CCC) non può essere completamente caricato con Ser in vitro [16], suggerendo che non causi misincorporazione Gly-to-Ser. Non abbiamo cercato la misincorporazione Ile-Leu (in cui Ile al codone AUA è sostituito con Leu) perché il residuo Leu è indistinguibile dal residuo Ile su MS, perché sono isomeri strutturali con pesi molecolari identici.

Per l'analisi proteomica dell'intera cellula, una miscela proteica è stata estratta da una fase mista C. elegans e frammentato in piccoli peptidi mediante digestione con enzimi sito-specifici. Dopo l'analisi LC–MS/MS dei peptidi risultanti, i dati sono stati esaminati con Mascot v2.4 (Matrix Science, London) per identificare le misincorporazioni di aminoacidi, utilizzando due approcci diversi: (a) una ricerca tollerante agli errori e ( b) una ricerca nel database interno (Fig. 3A). La ricerca tollerante agli errori è una delle modalità opzionali della ricerca nel database delle proteine ​​Mascot [25], in cui i dati grezzi vengono inizialmente cercati rispetto a un database di proteine ​​di riferimento, dopodiché i dati MS/MS che non corrispondono all'amminoacido atteso le sequenze di proteine ​​note vengono verificate rispetto a un database contenente tutte le possibili incorporazioni errate di aminoacidi e modifiche post-traduzionali. Con la ricerca tollerante agli errori, sono stati identificati 295.216 peptidi non ridondanti (unici). La ricerca nel database interno è stata sviluppata e ottimizzata in questo studio per confrontare i dati grezzi con i database di proteine ​​modificati contenenti solo possibili misincorporation Gly-to-Leu o Gly-to-Ser, senza ricerca iniziale contro un database di proteine ​​di riferimento. Questa ricerca ha identificato rispettivamente 12.719 e 12.502 peptidi unici (Fig. 3A, Passaggio 1).

(A) Riepilogo dell'analisi del proteoma a cellule intere dello stadio misto C. elegans. I valori sono i conteggi di peptidi unici ad ogni passaggio. I valori tra parentesi sono il conteggio dei peptidi candidati contenenti Ser non incorporati nel codone Gly (GGG) (controllo negativo). (B) Boxplot dei punteggi di confidenza per i peptidi candidati nel passaggio 2. Differenze significative sono state determinate con i due lati di Student T test. (C) Esempio di validazione della proteomica mirata. Sono mostrati i cromatogrammi ionici estratti del peptide candidato e del peptide sintetico SPASLDDDIK (uno standard interno). Lo ione peptide candidato è stato separato > 1,0 min prima dello standard interno, indicando che la sequenza amminoacidica del peptide candidato era incoerente con la sequenza SPASLDDDIK.

Dopo aver scartato i peptidi di bassa qualità, sono stati estratti 75 (= 14 + 30 + 31) peptidi mutanti candidati Gly-to-Leu e 53 (= 6 + 33 + 14) peptidi mutanti candidati Gly-to-Ser (Fig. 3A, Passo 2). Il punteggio medio di confidenza della mascotte per i candidati Gly-to-Leu era 20,3 ± 6,3, che non differiva significativamente da quello dei candidati Gly-to-Ser (P > 0,01) (Fig. 3B). Le misincorporazioni candidate sono state quindi ulteriormente vagliate mediante la cura manuale dei loro spettri MS/MS e dei rapporti isotopici, e sono stati infine ottenuti 17 (= 1 + 10 + 6) e sette (= 0 + 3 + 4) peptidi mutanti, rispettivamente ( Fig. 3A, passaggio 3 e riassunto nella tabella S1). Per confermare che questi peptidi avevano sequenze di amminoacidi identiche a quelle previste con Mascot, è stata eseguita un'analisi mirata del proteoma utilizzando uno standard interno (IS) (Fig. 3A, Passaggio 4). L'IS era un peptide sintetizzato costituito dalla stessa sequenza amminoacidica di quella identificata con Mascot, in cui un amminoacido all'N- o C-terminale era marcato con un isotopo stabile (riassunto nella tabella S2). Se gli ioni di entrambi i peptidi mirati e dell'IS sono stati rilevati a tempi di eluizione abbastanza simili con LC, indicando le loro proprietà chimiche quasi equivalenti, l'identificazione del peptide è stata ritenuta affidabile. Tuttavia, se i loro tempi di eluizione differivano di > 1,0 min, l'identificazione del peptide è stata ritenuta inaffidabile. La convalida con questi criteri ha rivelato che tutte le misincorporation candidate erano identificazioni di mascotte false positive. Un esempio è mostrato in Fig. 3C. Questo risultato significa che nessun peptide mutante Gly-to-Leu era rilevabile, il che era vero anche per il controllo negativo Gly-to-Ser, suggerendo che il nev-tRNA Gly (CCC) non causa l'ambiguità del codone GGG nel proteoma delle cellule intere di C. elegans. Ciò è stato anche supportato dalla scoperta che nessun candidato Gly-to-Leu ha avuto un punteggio Mascotte significativamente più alto rispetto ai candidati Gly-to-Ser (Fig. 3B).

Per ottenere maggiori informazioni sulle frequenze e le variazioni delle incorporazioni errate di amminoacidi per ciascun codone, abbiamo stimato gli interi 64 × 19 possibili errori da codone ad amminoacidi utilizzando i dati ottenuti con la ricerca tollerante agli errori. Si noti che solo una parte delle identificazioni, con punteggi di confidenza della mascotte elevati (> 30), è stata selezionata per questa analisi perché le misincorporazioni false positive di Gly-to-Leu avevano punteggi di confidenza della mascotte bassi (< 30), come descritto sopra. Quando la relazione tra gli amminoacidi utilizzati nell'intero proteoma e il numero di misincorporazioni previste per ciascun codone è stata studiata con il coefficiente di correlazione di Pearson, una forte correlazione significativa (R = 0,917) è stato osservato (Fig. 4A). Ad esempio, il numero di incorporazioni errate previste ai codoni frequenti, come i codoni Glu (GAA) e Asp (GAU), era fino a 478, mentre era previsto un minor numero di incorporazioni errate ai codoni Gly (GGG) e Ile (AUA) (circa 4%). Inoltre, i residui di Gly al codone GGG hanno mostrato poca tendenza ad essere sostituiti, non solo con Leu (descritto come ‘Xle’ nella figura) ma anche con altri amminoacidi (Fig. 4B). Allo stesso modo, non vi era alcuna variazione specifica nelle misincorporazioni previste nel codone AUA. Queste osservazioni mostrano che i nev-tRNA non sembrano essere coinvolti nella traduzione errata dei codoni corrispondenti nelle cellule intere di C. elegans. Tuttavia, in una singola analisi di regressione, un punto corrispondente al codone Glu (GAG) è stato localizzato al di fuori dell'intervallo di confidenza del 95% (Fig. 4A). Come mostrato in Fig. 4B, i residui di Glu al codone GAG ​​tendono ad essere sostituiti con residui di Met ad alti livelli (

7.3 × 10 𠄴 ). Nelle cellule batteriche, di lievito e di mammifero, è stato riportato che Met è misacilato a specifiche famiglie di tRNA non metionilici, come tRNA Glu e tRNA Lys, e che questi tRNA Met-misacilati sono usati per la sintesi proteica durante alcune risposte cellulari [26's x0201329]. Sebbene i nev-tRNA non possano decodificare il codone GAG ​​perché almeno una coppia di basi non corrisponde, il comune tRNA Glu (CUC) è codificato nel C. elegans genoma può decodificarlo. Pertanto, l'alto tasso di errore Glu-to-Met in C. elegans suggerisce il coinvolgimento della misacilazione del tRNA Glu (CUC) in questo fenomeno, come nelle cellule batteriche, di lievito e di mammifero.

(A) Grafico a dispersione delle frequenze degli amminoacidi contenuti in tutti i peptidi non ridondanti identificati con una normale ricerca nel database (asse x) rispetto al numero totale di misincorporazioni di amminoacidi previste (asse y) per ciascun codone. La linea nera al centro indica la linea di regressione lineare. Le linee esterne azzurre indicano l'intervallo di confidenza del 95% per un singolo valore previsto. I punti rossi e verdi corrispondono rispettivamente ai codoni GGG e AUA. I punti che si trovano al di fuori dell'intervallo di confidenza del 95% sono mostrati in grigio. (B) Mappa termica che indica il grado di misincorporazione prevista di amminoacidi (tasso di errore) per ciascun codone. Il tasso di errore è stato previsto calcolando l'abbondanza di amminoacidi mal incorporati rispetto al numero totale di amminoacidi contenuti nell'intero proteoma. I grafici della matrice nella riga Gly (GGG) e Ile (AUA) e nella colonna ‘Xle’ (ovvero Ile o Leu) sono riquadri. Il numero totale di incorporazioni errate previste per ciascun codone è indicato come un grafico a barre.

Possibili spiegazioni della mancanza di ambiguità del codice genetico in C. elegans

Abbiamo considerato due possibili ragioni per cui in questo studio non sono stati rilevati peptidi mutanti Gly-to-Leu, anche se i nev-tRNA sono maturati normalmente e sono stati esportati dal nucleo. Innanzitutto, è possibile che i nev-tRNA siano esclusi dal processo di sintesi proteica da un meccanismo di controllo della qualità della traduzione. Nei batteri, uno dei fattori di allungamento, EF-Tu, si lega selettivamente agli amminoacil-tRNA corretti e li trasporta nel sito A del ribosoma [3, 30, 31]. Nelle cellule neurali umane, se il processo di traduzione viene interrotto perché un tRNA è mutato, uno dei fattori di rilascio del ribosoma, GTPBP2, interagisce con la proteina di ribosoma Pelota e rilascia il ribosoma in stallo [32]. Sebbene non sia chiaro se gli omologhi di EF-Tu e GTPBP2 agiscano in C. elegans, come è stato riportato in altre specie, questi risultati consentono la possibilità che gli errori di traduzione indotti da nev-tRNA mal caricati possano essere vietati da tali sistemi di controllo della qualità.

In secondo luogo, è anche possibile che i nev-tRNA vengano utilizzati per la sintesi proteica nella cellula, ma che la frequenza delle misincorporazioni di aminoacidi sia inferiore al livello di rilevamento della SM. Il metodo basato su MS può misurare direttamente un gran numero di misincorporazioni di aminoacidi, fino a un livello dello 0,01% (10 𠄴 ) [23, 24]. Tuttavia, poiché l'abbondanza di nev-tRNA maturi nella cellula è molto bassa e competono con tRNA affini altamente espressi (Fig. 2), l'incorporazione di nev-tRNA nei ribosomi potrebbe essere un evento raro e limitato rispetto all'incorporazione di loro tRNA affini. Oltre alla bassa abbondanza di nev-tRNA, abbiamo notato il basso utilizzo dei codoni con cui i nev-tRNA sono associati. Ad esempio, il codone GGG a cui corrisponde nev-tRNA Gly (CCC) è il secondo codone più raro (0,44%) in C. elegans [16]. Pertanto, assumiamo che anche se i nev-tRNA partecipano alla traduzione, l'identificazione di misincorporazioni di aminoacidi nel codone GGG è statisticamente più difficile rispetto ad altri codoni più frequenti. Questa ipotesi è supportata dall'osservazione di più abbondanti misincorporazioni ai codoni più frequenti (Fig. 4A). Collettivamente, i nostri dati dimostrano che non esiste alcuna proteina mutante contenente Leu non incorporata a frequenza “high” nel proteoma a cellule intere, mentre non è ancora noto se tali residui di Leu siano incorporati in modo errato in proteine ​​​​a bassa abbondanza e/o in alcuni siti specifici nelle proteine ​​a bassa frequenza.

Per determinare se le traduzioni errate indotte da nev-tRNA possono verificarsi a basse frequenze, è stata analizzata una singola proteina ricombinante sovraespressa con proteomica mirata. In questo esperimento, abbiamo sovraespresso una proteina fluorescente verde (GFP)–LacZ e la abbiamo purificata per migliorare il livello rilevabile di misincorporazione Gly-to-Leu, perché (i) i 1284 codoni totali del GFP–LacZ L'mRNA contiene 12 codoni GGG (circa l'1% dei codoni) e (ii) i campioni purificati per MS includono un piccolo numero di proteine, principalmente GFP–LacZ, con conseguente basso rumore di fondo. Per questa analisi, abbiamo costruito un ceppo transgenico che esprime mio-3p::GFP-LacZ ed estratto la miscela proteica. Dopo l'immunoprecipitazione con un anticorpo anti-GFP, la proteina GFP–LacZ purificata è stata frammentata in piccoli peptidi mediante digestione con enzimi sito-specifici. L'analisi LC–MS/MS è stata eseguita utilizzando due tipi di IS per la calibrazione, un peptide sintetico costituito dalla stessa sequenza di amminoacidi presente nel database e un peptide sintetico contenente il residuo Leu sostituito dal residuo Gly al codone GGG (riassunto nella tabella S3). Come mostrato nella tabella S4, i peptidi wild-type contenenti il ​​residuo Gly nel codone GGG sono stati rilevati a tempi di eluizione quasi identici a quelli degli IS. Al contrario, non è stato rilevato alcun peptide aberrante contenente un residuo di Leu mal incorporato nel codone GGG. Il modello di frammentazione nello spettro di massa del peptide identificato era coerente con quello del peptide wild-type piuttosto che con il peptide aberrante. Un esempio è mostrato in S1 Fig. Questo risultato significa che i peptidi mutanti Gly-to-Leu non erano rappresentati, anche nello schermo MS mirato ad alta risoluzione, suggerendo che il nev-tRNA Gly (CCC) non è incorporato nei ribosomi a un livello rilevabile.

Implicazioni evolutive dei nev-tRNA per il codice genetico dei nematodi

In questo lavoro, abbiamo dimostrato che i nev-tRNA sono debolmente espressi, maturano normalmente con l'aggiunta del 3′ CCA e vengono esportati dal nucleo in C. elegans. Tuttavia, non è stata rilevata alcuna misincorporazione di amminoacidi indotta da nev-tRNA nel proteoma dell'intera cellula. Le possibili ragioni includono: (1) i nev-tRNA non sono coinvolti nella traduzione o (2) i nev-tRNA partecipano alla traduzione ma a una frequenza molto bassa. Di conseguenza, il codice genetico del nematode non sembra essere ambiguo, sebbene il suo genoma contenga questi tRNA devianti, che decodificano un codice alternativo. Poiché la riassegnazione del codone di senso è strettamente limitata durante l'evoluzione [6𠄸], le cellule nematodi potrebbero regolare attivamente gli errori nella sintesi proteica con specifici meccanismi di controllo della qualità traslazionale. Le nostre osservazioni forniscono un esempio della robustezza del codice genetico durante la traduzione, garantendo l'omeostasi cellulare.

Al contrario, i geni pseudo-tRNA hanno tipicamente diversi accoppiamenti di basi non corrispondenti a causa dell'alto tasso evolutivo [14, 33], ma i geni nev-tRNA non contengono tali mutazioni e formano una struttura secondaria a quadrifoglio perfetta. Il numero di copie dei geni nev-tRNA e delle loro varianti anticodone è aumentato durante l'evoluzione del taxon dei nematodi [16]. Da questa caratteristica della loro conservazione evolutiva, assumiamo anche che svolgano ruoli importanti, anche se inaspettati, soprattutto in certi processi biologici. Uno di questi possibili ruoli è nella risposta protettiva allo stress. Nelle cellule batteriche, di lievito e di mammifero, il livello di Met-misacilazione aumenta durante la risposta immunitaria, come descritto sopra. Poiché i residui di Met proteggono le proteine ​​dal danno mediato dalle specie reattive dell'ossigeno (ROS) [34], un numero maggiore di residui di Met nelle proteine ​​costituisce un meccanismo di risposta, proteggendo le cellule dallo stress ossidativo [29]. Oltre a questo percorso, studi recenti hanno riportato altri presunti benefici della traduzione errata in condizioni di stress. In Saccharomyces cerevisiae cellule, gli errori di traduzione dipendenti dalla misacilazione del tRNA aumentano l'ubiquitilazione e l'aggregazione delle proteine ​​e migliorano l'espressione delle proteine ​​da shock termico e di altre proteine ​​dello stress. Di conseguenza, le cellule possono sopravvivere anche a condizioni ambientali letali [6, 7, 35]. Sebbene i nev-tRNA siano espressi debolmente in condizioni di crescita normali, la loro espressione può essere migliorata in alcune condizioni di stress, causando la sintesi di proteine ​​tradotte in modo errato e la sovraregolazione della risposta allo stress per far fronte meglio allo stress.

Un altro possibile ruolo dei nev-tRNA è nell'acquisizione di nuove funzioni proteiche attraverso la produzione di proteine ​​mutanti. Sebbene la maggior parte delle proteine ​​tradotte erroneamente sarà probabilmente deleteria o neutra in funzione, una minoranza di queste proteine ​​acquisirà funzioni nuove o alterate derivanti dai loro cambiamenti chimici e/o strutturali, tra cui nuova localizzazione subcellulare [36], resistenza agli antibiotici [37] o fenotipi diversificazione [38]. Sebbene i nostri dati suggeriscano che intere cellule nematodi non sintetizzano proteine ​​mutanti usando nev-tRNA, è ancora possibile che alcune cellule o tessuti sintetizzino tali nuove proteine ​​funzionali mal tradotte. Ad esempio, ci sono differenze fisiologiche specifiche delle cellule nel tasso di errore traslazionale nei topi [39]. Sono necessari ulteriori studi per chiarire gli ampi pattern di espressione dei nev-tRNA in varie condizioni ambientali e in diverse cellule e tessuti e per identificare la risposta cellulare durante l'induzione dell'ambiguità del codice genetico da parte dei nev-tRNA.


Panoramica dell'evoluzione SINE

L'interazione dell'organismo con i SINE (così come con altri elementi genetici mobili) assomiglia in gran parte alla coevoluzione ospite-parassita. L'integrazione di nuove copie SINE spesso disturba l'espressione genica, d'altra parte possono servire come fonte di innovazioni genomiche e come fattore di plasticità del genoma (Makalowski, 2000). Tuttavia, l'organismo cerca di sopprimere l'amplificazione SINE utilizzando, ad esempio, il sistema mediato da APOBEC3 (Chiu et al., 2006 Hulme et al., 2007) o la metilazione del DNA SINE (Rubin et al., 1994). Poiché LINE RT è necessario per l'amplificazione SINE, la repressione LINE protegge anche il genoma dall'espansione SINE. La LINEA può essere repressa attraverso l'interferenza dell'RNA o il sistema APOBEC3 e la repressione può essere fissata dalla metilazione del DNA. La dinamica evolutiva delle interazioni tra l'organismo e i SINE (così come i LINE) assomiglia a una corsa agli armamenti. All'estremo, SINE (o LINE) troppo aggressivi possono distruggere il loro organismo ospite e vengono eliminati per selezione. D'altra parte, ci sono molti esempi di morte della famiglia SINE (cessazione dell'amplificazione). Più comunemente si osservano alti e bassi nell'attività di particolari SINE o LINEE. Ciò può essere esemplificato dalle onde evolutive dell'espansione del genoma da parte delle sottofamiglie B1 o Alu (Quentin, 1989 Ohshima et al., 2003) o dal calo di 100 volte della frequenza di retroposizione dell'Alu negli esseri umani attuali rispetto ai primati 40-50 MYA ( Batzer e Deininger, 2002). Sorprendentemente, alcuni SINE morti possono essere "reincarnati". Ad esempio, dopo l'inattivazione di un partner LINE, la sostituzione della regione 3'-terminale con quella di un'altra LINE (attiva) dà origine a una nuova famiglia SINE attiva. Un esempio dimostrativo di questo tipo può essere trovato nel genoma del wallaby, dove una cassetta tRNA-CORE ha sostituito consecutivamente la regione 3'-terminale e i partner LINE (L2, L3, Bov-B e L1 Figura 2). In larga misura, questo e molti altri eventi nell'evoluzione dei SINE sono resi possibili dall'enorme numero delle loro copie genomiche, una frazione delle quali viene trascritta anche se la loro trascrizione inversa è impossibile.

A differenza di altri elementi genetici mobili, i SINE sono emersi molte volte nell'evoluzione. Ad esempio, almeno 23 famiglie SINE primarie sono apparse indipendentemente nell'evoluzione dei mammiferi placentati (attualmente sono state descritte 51 famiglie SINE di mammiferi Figura 4). Questa straordinaria proprietà deriva, da un lato, dalla loro semplice struttura modulare e dalla disponibilità dei moduli sorgente (ad esempio, tRNA o 3' end of LINE) nella cella. Inoltre, l'elevata variazione nelle strutture SINE suggerisce che non ci sono requisiti rigorosi per le loro sequenze nucleotidiche escluse diverse regioni brevi conservate. D'altra parte, l'emergere e la replicazione dei SINE dipendono da LINE RT, che non è molto sicuro dall'elaborazione di sequenze estranee. È interessante notare che alcuni moduli e RT sono particolarmente favorevoli per l'emergenza SINE. Ad esempio, il tRNA CGC dell'alanina ha dato origine indipendentemente a tre semplici SINE (ID nei roditori, vic-1 nei cammelli e DAS-I negli armadilli Borodulina e Kramerov, 2005). Allo stesso modo, le famiglie SINE mobilitate dai mammiferi L1 sono particolarmente abbondanti. Al momento, non abbiamo idea di quali proprietà del tRNA dell'alanina e di L1 RT si siano rivelate utili per l'emergenza e l'amplificazione di SINE.

Il de novo comparsa di SINE nei mammiferi placentati. L'albero dei mammiferi corrisponde alla Knowledge Base TimeTree (Hedges et al., 2006).

L'ulteriore evoluzione di SINE comporta la complicazione della loro struttura mediante duplicazioni interne, acquisizione di nuovi moduli (come CORE) e dimerizzazione. Sebbene i SINE semplici possano essere molto prolifici, la maggior parte dei SINE di successo sono più lunghi di 150 bp e hanno una struttura più complessa (Figura 5). Vale la pena menzionare un'altra proprietà dell'evoluzione SINE, lo scambio di moduli. Sebbene tale ricombinazione avvenga in altri elementi genetici, è insolitamente frequente nei SINE, il che fornisce ulteriore flessibilità alla loro evoluzione. In un certo senso, anche la dimerizzazione SINE può essere considerata come un caso speciale di scambio di moduli.

Distribuzione in lunghezza delle famiglie SINE (senza coda tracciata per 125 elementi).

A causa di de novo comparsa di SINE e scambio/dimerizzazione di moduli, l'evoluzione su larga scala di SINE non può essere presentata come un albero filogenetico comune (sebbene brevi periodi di evoluzione SINE possano), che la distingue dall'evoluzione di geni e altri elementi genetici mobili presentabili come un comune albero biforcuto.

Mammiferi (placentari, marsupiali e monotremi), rettili, pesci e cefalopodi hanno un gran numero di diverse famiglie SINE attive. Sorprendentemente, sono assenti da Drosophila specie e pollo (sebbene il genoma del pollo contenga copie di Ther-1 inattivo, che si è amplificato nei genomi degli antenati vertebrati), allo stesso tempo, i loro genomi hanno LINEE attive. Si può ipotizzare che queste LINE manchino di alcune proprietà essenziali per la mobilizzazione SINE è anche possibile che de novo l'emergere di un SINE è un evento molto raro e le probabilità sono che non si sia mai verificato in alcuni genomi. Infine, i SINE potrebbero emergere ma non sono sopravvissuti a causa di alcune proprietà dei genomi dell'ospite (ad esempio, il Drosophila genoma è relativamente piccolo, il che può indicare i meccanismi che contrastano l'espansione degli elementi mobili). Il rapido progresso nella genomica comparativa degli eucarioti mostra la promessa che questo e altri misteri dell'origine e dell'evoluzione SINE saranno risolti.


Astratto

Gli RNA di trasferimento (tRNA) sono importanti molecole coinvolte nel meccanismo di traduzione delle proteine ​​e fungono da ponte tra il ribosoma e il codone dell'mRNA. Lo studio del tRNA si sta evolvendo considerevolmente nei campi dei batteri, delle piante e degli animali. Tuttavia, manca uno studio genomico dettagliato del tRNA dei cianobatteri. Pertanto, abbiamo condotto uno studio sul tRNA cianobatterico di 61 specie. L'analisi ha rivelato che i cianobatteri contengono da trentasei a settantotto geni di tRNA per genoma che codificano per 20 isotipi di tRNA. Il numero di iso-accettori (anticodoni) variava da trentadue a quarantatre per genoma. tRNA Ile con anti-codone AAU, GAU e UAU è stato segnalato essere assente dal genoma di gleocapsa PCC 73,106 e xenococco sp. PCC 7305. Invece, erano contenuti anti-codone CAU che è comune anche al tRNA Met e al tRNA Ile. Gli iso-accettori ACA (tRNA Cys ), ACC (tRNA Gly ), AGA, ACU (tRNA Ser ), AAA (tRNA Phe ), AGG (tRNA Pro ), AAC (tRNA Val ), GCG (tRNA Arg ), AUG ( tRNA His ) e AUC (tRNA Asp ) erano assenti dal genoma dei lignaggi cianobatterici studiati finora. Alcune delle specie di cianobatteri codificano per tRNA soppressori, mentre nessuna delle specie è stata trovata per codificare un iso-accettore di selenocisteina. Le specie di cianobatteri codificano per alcuni presunti nuovi tRNA le cui funzioni devono ancora essere chiarite.


Discussione

Un modello per l'evoluzione del tRNA

Un modello per l'evoluzione del quadrifoglio tRNA è stato proposto e fortemente supportato utilizzando test statistici [ 3 ]. In sostanza, tutte le previsioni del modello sono state verificate per i tRNA archeali e batterici. Il modello si basa sulla legatura di tre minieliche di 31 nt seguite da due delezioni interne simmetriche di 9 nt per produrre un nucleo a quadrifoglio di 75 nt (1�), con la base discriminante allegata (76) e 3’-CCA (77�). Al contrario, la numerazione storica dei tRNA utilizza un nucleo di 72 nt, che si basa su tRNA eucariotici con 3 nt cancellati nel ciclo D relativo al tRNA Pri. Nell'evoluzione del quadrifoglio, una delle tre minieliche legate è diventata l'ansa D, una l'ansa dell'anticodone e una l'ansa T. Le delezioni di 9 nt si trovano all'interno di sequenze di staminali accettore legate, lasciando due reliquie di 5 nt di quelli che inizialmente erano steli accettori complementari che circondano la radice dell'anticodone. Lo stelo e l'ansa dell'anticodone e il stelo e l'ansa a T sono omologhi, e ovviamente lo è, in particolare per i tRNA archeali, e l'omologia è nettamente evidente dall'ispezione dei tipici diagrammi di tRNA (cioè di pirococco tRNA Figura S9) [ 3 ].

Due modelli di evoluzione del tRNA a minielica

In un modello a due minieliche in competizione per l'evoluzione del tRNA, proposto da altri [ 31� ], la sequenza del quadrifoglio è essenzialmente divisa attraverso il ciclo dell'anticodone e ci si aspetta che le metà siano omologhe, anche se, nel quadrifoglio, ci si aspetta che le metà essere complementari. Nel modello delle due minieliche, poiché, per il confronto, lo stelo e l'ansa dell'anticodone sono stati divisi in due, l'ansa dell'anticodone e l'ansa T non possono essere omologhi, sebbene lo siano chiaramente, sia dall'ispezione dei tRNA archeali (Figura S9) che dall'utilizzo di test statistici [ 3 ]. Nel modello a due minieliche, l'anello D e l'anello T dovrebbero essere omologhi, anche se chiaramente non lo sono (in qualsiasi registro di allineamento). Al contrario, il modello di evoluzione del tRNA qui utilizzato è predittivo e apparentemente accurato e i modelli concorrenti sono falsificati. L'identificazione del tRNA Pri basata sul modello di evoluzione del tRNA è altamente predittiva per l'evoluzione del codice genetico ( Figureਁ – 3 Figure S1–S8).

TRNA ed evoluzione robusta

Un RNA strettamente ripiegato come il tRNA quadrifoglio è soggetto a un'evoluzione robusta in cui molte o la maggior parte delle sostituzioni sono catastrofiche per il ripiegamento [34, 35]. Ad esempio, ci si aspetta che la maggior parte delle sostituzioni in una radice di tRNA richieda il salvataggio da una mutazione complementare (ad eccezione di molte sostituzioni C→U nelle radici, che consentono l'accoppiamento G∼U). Nel nostro modello per l'evoluzione del tRNA dal tRNA Pri, sono necessarie pochissime sostituzioni (se ce ne sono) per ottenere un quadrifoglio piegato. Al contrario, in un modello a due minieliche per l'evoluzione del tRNA, sono necessarie molte sostituzioni per ottenere un quadrifoglio. A causa della robusta evoluzione dell'RNA e del numero richiesto di sostituzioni di compensazione, un modello a due minieliche è insostenibile. Inoltre, un modello a due minieliche richiede un'evoluzione convergente inimmaginabile dello stelo e dell'ansa a T e dell'anello e stelo dell'anticodone all'apparente omologia strutturale e di sequenza. Poiché il tRNA a quadrifoglio è soggetto a un'evoluzione robusta [ 3 , 34 , 35 ] vengono generate molte critiche squalificanti per un modello a due minieliche. Anche altri modelli di evoluzione del tRNA sembrano essere incoerenti con l'evoluzione robusta dell'RNA [36, 37].

Una radice per l'albero evolutivo del tRNA

Il modello per l'evoluzione del tRNA indica una sequenza per il tRNA Pri [ 3 ], che è molto simile al tRNA arcaico Gly , indicando che Gly potrebbe essere l' amminoacido fondatore del codice ( Figureਂ ) [ 6 , 7 ] L'ipotesi della poliglicina è postulato, che il tRNA si è inizialmente evoluto per sintetizzare la poliglicina a catena corta per stabilizzare le protocellule. Molto rapidamente, ogni anticodone consentito è stato inizialmente assegnato come tRNA Gly prima della riassegnazione per specificare altri amminoacidi (Figuraਅ). Il tRNA di quadrifoglio e il codice genetico sembrano essere i prerequisiti per la vita basata sul genoma cellulare e del DNA, che ha origine al LUCA. Nel mondo dell'RNA-proteina, i geni erano più indipendenti di quanto diventassero successivamente, in genomi di DNA compatti, snelli e a replicazione rapida incapsulati nelle cellule. Proponiamo, quindi, che le colonie di geni tRNA che si replicano indipendentemente in un mondo RNA-polimero si diversifichino rapidamente per includere tutte le sequenze di anticodone consentite, che, inizialmente, codificavano la glicina (cioè in base alla sequenza dello stelo accettore, discriminatore A (come in tRNA Pri e archaeal tRNA Gly ( Figuraਂ )) e sequenze tipiche di tRNA (Figura S9)). Naturalmente, la specificazione dell'attaccamento della glicina da parte del tRNA Pri non doveva essere molto accurata. Sembra che gli errori nella ricarica del tRNA abbiano guidato l'evoluzione del codice [ 2 , 14 , 25 ].

Degenerazione e settorizzazione

Preferiamo un semplice modello graduale per l'evoluzione e la settorizzazione del codice genetico ( Figuraਅ ). Il modello descrive perché il codice specifica � aminoacidi ed è degenerato. Come sosteniamo qui, il codice genetico iniziale probabilmente consisteva di 48 e non di 64 anticodoni consentiti, perché l'adenina nella posizione di oscillazione dell'anello dell'anticodone è destabilizzante e ci si aspetterebbe che interagisca in modo strano con l'mRNA [12]. Inoltre, l'adenina nella posizione di oscillazione dell'anticodone probabilmente supporta un codice genetico che è eccessivamente inflessibile durante l'evoluzione iniziale del codice, perché l'adenina specifica troppo fortemente l'uridina nella posizione del codone di oscillazione dell'mRNA. A causa della selezione precoce positiva per l'ambiguità nella lettura della posizione di oscillazione dell'anticodone, il codice genetico dovrebbe essere considerato inizialmente come principalmente un codice 2 nt che codifica al massimo 16 amminoacidi (o 15 amminoacidi + Ter (stop)) in un registro di 3 nt. La discriminazione mediante la posizione dell'anticodone di oscillazione si ottiene solo con difficoltà e, a causa dell'ambiguità delle interazioni tRNA anticodone-mRNA codone nel centro di decodifica del ribosoma [38], il riconoscimento alla base dell'anticodone di oscillazione non è fortemente vincolato dall'accoppiamento di basi Watson-Crick. Nonostante la selezione precoce per l'ambiguità nella lettura della posizione di oscillazione dell'mRNA, la posizione di oscillazione dell'anticodone del tRNA è stata successivamente innovata per aggiungere ulteriori lettere 𢏅𠄶 al codice (16 + 5 = 21 lettere in totale, inclusi gli stop).

Wobble pairing: l'importanza di essere ambigui

La selezione negativa contro l'adenina nella posizione di oscillazione dell'anticodone indica che l'accoppiamento di oscillazione tRNA-mRNA A𢏌 è selezionato negativamente quando A è la base di oscillazione dell'anticodone del tRNA [ 17 ]. Notiamo, tuttavia, che gli accoppiamenti di oscillazione G∼U e U∼G sono consentiti. Ciò solleva la questione se l'accoppiamento C𢏊 avrebbe potuto essere consentito, se C fosse la base di oscillazione dell'anticodone del tRNA. Le modifiche dell'oscillazione del tRNA C migliorano l'appaiamento di basi C𢏊, tra cui agmatidina (archaea), 2-lisidina (batteri) e 5-formilcitidina (mitocondri, eucarya) [39]. Molti tRNA hanno una debole interazione di legame idrogeno C𢏊 tra la posizione di base dell'ansa 7 dell'anticodone 7 (cioè 2’-O-metil-C (C = O o N)) e la posizione di base dell'anello 7 (cioè A (NH2)). Dal PDB 4TRA, sembra che l'interazione debole 1𡤧 C𢏊 sia modulata da Mg 2+ e che un elevato Mg 2+ induca errori di traduzione [40, 41]. Durante le prime fasi dell'evoluzione del codice, quindi, le interazioni ambigue delle coppie di basi di oscillazione sembrano essere state selezionate positivamente. Ipotizziamo che, per la traduzione, una base di tRNA oscillante C (o C modificata) possa accoppiare la base A dell'mRNA in modo più efficiente rispetto a una base di tRNA oscillante A accoppierà la base C dell'mRNA, spiegando in parte la forte selezione negativa di A nella posizione di oscillazione dell'anticodone del tRNA . Sembra che l'oscillazione C dell'anticodone del tRNA non sia selezionata in modo così fortemente negativo come l'oscillazione A. Notiamo la possibilità che la modifica dell'oscillazione C dell'anticodone del tRNA per accoppiare il codone A dell'mRNA possa essersi verificata molto presto nell'evoluzione per compensare un codice altrimenti eccessivamente restrittivo. Inoltre, potrebbe esserci una preferenza selezionata per G e C su A e U durante la prima evoluzione del codice. Il codice genetico inizialmente si è evoluto per essere un codice di lettere � prima di innovare la posizione di oscillazione per espandersi in un codice di 21 lettere.

Le modifiche covalenti dei tRNA sono comuni. Nella Figura S10, modificazioni del tRNA archeale determinate per Haloferax vulcanii I tRNA del database Modomics [ 39 ] sono visualizzati su a pirococco tipico tRNA. In teoria, le modifiche del tRNA potrebbero essere utilizzate come determinanti per gli enzimi aaRS per discriminare diversi tRNA (cioè il tRNA Phe nei batteri, che richiede modifiche del tRNA Phe per una carica accurata da parte di PheRS) [ 42 ], sebbene, a nostra conoscenza, tale meccanismo non ha ancora stato chiaramente dimostrato per qualsiasi tRNA archeale. Negli archaea, molte modificazioni covalenti si trovano nell'ansa dell'anticodone, in particolare nelle posizioni dell'ansa 1 e 3 (oscillazione).Le modifiche nell'anello dell'anticodone possono: 1) aiutare a stabilizzare la struttura di inversione a U stretta 2) influenzare la lettura dell'anticodone e/o 3) modificare le posizioni deboli dell'anello dell'anticodone 1𡤧 interazioni. I contatti tra le posizioni di loop 1 e 7 influiscono sulla dinamica del loop e modificano la lettura della posizione di oscillazione [ 22 , 23 ]. Le modifiche dell'ansa D, dell'ansa T e dell'ansa V possono stabilizzare le conformazioni dell'ansa e dello stelo, le interazioni dell'ansa D-ansa T e/o la stabilità della piega complessiva del quadrifoglio. Naturalmente, per i batteri e gli eucarioti, le modificazioni del tRNA consentono espansioni del repertorio dell'anticodone, come visto per la conversione enzimatica dell'adenina→inosina in posizione di oscillazione [12, 13].

Il tRNA a quadrifoglio come archetipo evolutivo

Nell'antica evoluzione da circa 3,8 a 4 miliardi di anni fa, il tRNA a quadrifoglio era l'innovazione che ha reso possibile il mondo dell'RNA-proteina e quindi la vita cellulare [ 3 ]. Essenzialmente, senza il tRNA a quadrifoglio, il codice genetico era impossibile, e quindi il mondo delle proteine ​​dell'RNA e la vita cellulare erano impossibili. 17 nt microeliche e 31 nt minieliche (17 nt microeliche con 2 × 7 nt accettori) potrebbero aver supportato la sintesi di poliglicina, ma ci sono poche prove che fossero possibili prodotti molto più complessi basati su adattatori di minieliche [ 3 ]. Per prima cosa, dalla sequenza del tRNA Pri a quadrifoglio, la minielica 31 nt postulata per aver dato origine al ciclo D sembra aver avuto steli accettori che specificano la glicina, indicando che, poiché almeno due minieliche distinte (ciclo D e ciclo anticodone /T loop) sembrava aver specificato la glicina, sono stati realizzati pochi prodotti, se non nessuno, oltre alla poliglicina.

In un mondo di minielica, la minielica del ciclo D non avrebbe potuto supportare un registro del codice genetico 3 nt, perché la minielica del ciclo D non può formare un'inversione a U di 7 nt. Al contrario, le minieliche che hanno dato origine all'anello dell'anticodone e all'anello a T formano l'anello stretto di 7 nt U turn. L'ansa dell'anticodone e l'ansa T sono omologhe tra loro e distinte in sequenza dalla minielica dell'ansa D, tranne che nei gambi accettori, che inizialmente sembrano essere identici (ripetizioni GCG e CGC) [ 3 ]. Ipotizziamo, quindi, che la sintesi di polipeptidi basata su adattatori di minielica primitiva fosse caotica, limitata e inefficiente.


Guarda il video: Translation Animation 2 - translation elongation in prokaryotes (Agosto 2022).