Informazione

Quanti residui può contenere un modello strutturale ab initio affidabile?

Quanti residui può contenere un modello strutturale ab initio affidabile?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Una domanda recente su dall'inizio a cui ho risposto implicava toccare i limiti di dall'inizio modellazione. Una revisione del 2009 ha affermato che in genere solo nell'ordine di 100-110 residui potrebbero essere modellati in modo affidabile.

7 anni dopo quel documento: ho appena assistito a una presentazione pre-pubblicazione in cui è stata modellata una struttura di oltre 400 residui utilizzando I-TASSER. L'oratore ha affermato che era affidabile e si adattava bene al contesto biologico, ma necessitava ancora di una convalida sperimentale. Purtroppo non avevano in silicone punteggi di convalida a portata di mano, quindi non avevo idea di quanto seriamente avrei dovuto prendere il modello.

In definitiva, la mia domanda è quanti residui può I-TASSER (altro moderno dall'inizio marche disponibili!) gestire in modo affidabile un tipico dominio globulare con la tecnologia di oggi?


Anno dopo anno affidabile dall'inizio le previsioni stanno diventando più comuni per le proteine ​​più lunghe. 400 residui non sono una lunghezza irrealizzabile. Naturalmente, i loop rimangono ancora più una sfida rispetto alle strutture secondarie elicoidali e a fogli.

Al CASP13, il team di Google DeepMind ha utilizzato AlphaFold per produrre un modello di buona qualità (T0594) di una proteina residua 774 che è una ripetizione WD40 di RFWD3 (6CVZ). Tutte le loro voci CASP13 sono qui.


Astratto

Vi presentiamo un metodo gerarchico per prevedere i modelli di struttura terziaria della proteina dalla sequenza. Iniziamo con l'enumerazione completa delle conformazioni utilizzando un semplice modello reticolare tetraedrico. Quindi costruiamo conformazioni con dettaglio crescente e ad ogni passaggio selezioniamo un sottoinsieme di conformazioni utilizzando funzioni energetiche empiriche con complessità crescente. Dopo l'enumerazione su reticolo, selezioniamo un sottoinsieme di conformazioni a bassa energia utilizzando una funzione statistica di energia di contatto residuo-residuo e generiamo modelli di tutti gli atomi utilizzando la struttura secondaria prevista. Una funzione di energia a livello atomico basata sulla conoscenza combinata viene quindi utilizzata per selezionare i sottoinsiemi dei modelli di tutti gli atomi. Le previsioni finali vengono generate utilizzando una procedura di geometria della distanza di consenso. Testiamo la fattibilità della procedura su un set di 12 piccole proteine ​​che coprono un'ampia gamma di topologie proteiche. Un rigoroso test in doppio cieco del nostro metodo è stato effettuato sotto gli auspici dell'esperimento CASP3, dove abbiamo fatto dall'inizio previsioni della struttura per 12 proteine ​​usando questo approccio. Le prestazioni della nostra metodologia al CASP3 sono ragionevolmente buone e completamente coerenti con i nostri test iniziali.


Sfondo

C'è un crescente interesse nel campo della terapia peptidica nell'ultimo decennio a causa di numerosi effetti avversi dei farmaci chimici [1, 2]. I peptidi stanno diventando popolari nell'industria farmaceutica grazie alle loro applicazioni nella diagnosi, nella terapia e nella somministrazione di farmaci con una migliore potenza, alta specificità, bassa tossicità e disponibilità naturale [3-7]. Molti farmaci a base di peptidi stanno funzionando con successo sul mercato e molti altri sono in diverse fasi degli studi clinici [8]. Considerando l'importanza dei peptidi nel mercato terapeutico, diventa imperativo conoscere le informazioni strutturali di un nuovo peptide prima della sua ulteriore progettazione per le proprietà terapeutiche desiderate [9, 10]. È ben noto che la funzione di un peptide dipende dalla sua struttura, quindi è importante prevedere la struttura terziaria di un peptide dalla sua sequenza amminoacidica primaria.

In passato, sono stati fatti tentativi per la previsione della struttura terziaria del peptide. Nel 1999, Ishikawa et al. [11] sviluppato an dall'inizio metodo (Geocore) per trovare le strutture simil-native all'interno di un piccolo insieme di conformazioni. Tuttavia, è stato concepito come un algoritmo di filtraggio anziché un algoritmo di piegatura, esplorando un ampio spazio conformazionale (

miliardi di conformazioni) e limitando così il suo utilizzo per peptidi molto piccoli. Nel 2007, Kaur et al. [12] hanno sviluppato l'algoritmo PEPstr per prevedere la struttura terziaria di piccoli peptidi bioattivi. Hanno usato il -turn previsto e la struttura secondaria regolare per costruire la struttura terziaria di un peptide. Questo approccio ha ridotto drasticamente il tempo necessario per costruire la struttura e il metodo ha fornito una buona struttura di partenza applicando i vincoli previsti. Nicosia e Stracquadanio (2008) hanno proposto un Generalized Pattern Search Algorithm (Gps) [13] che utilizza algoritmi di ricerca e poll per cercare i minimi globali. Nel 2009, Thomas et al. sviluppato l'algoritmo PepLook [14] che si basa sulla tecnica Boltzmann-Stochastic. Maupet et al. sviluppato l'algoritmo PEP-FOLD [15, 16] che si basa sul modello di Markov nascosto, sull'algoritmo greedy e sui campi di forza a grana grossa. Viene eseguita una serie di 50 simulazioni greedy per ogni sequenza peptidica, generando 50 modelli. Narzisi et al. [17] hanno proposto un algoritmo evolutivo multi-obiettivo (I-PAES) per la ricerca dello spazio conformazionale basato sulla funzione di energia potenziale ECEPP. Gps, PepLook e I-PAES, applicano tutti una strategia di ricerca conformazionale generando migliaia di strutture e quindi possono essere computazionalmente intensivi. PEP-FOLD, tuttavia, evita un'estesa ricerca dello spazio conformazionale prevedendo gli alfabeti strutturali, che vengono assemblati per fornire una struttura di partenza seguita da simulazioni. Recentemente, Beaufays et al. [18] ha esteso l'algoritmo PepLook per gestire peptidi lineari e ciclici con amminoacidi non proteinogenici. Thevenet et al. [19] ha aggiornato l'algoritmo PEP-FOLD per gestire i peptidi ciclici legati al disolfuro. Invece di utilizzare i vincoli di distanza, hanno utilizzato il campo di forza a grana grossa sOPEP. Shen et al. (2014) hanno sviluppato PEP-FOLD2 (versione migliorata di PEP-FOLD) [20] e lo hanno confrontato con PEP-FOLD e Rosetta su un set di dati comprendente 56 peptidi strutturalmente diversi.

Tommaso et al. ha utilizzato i valori energetici del potenziale di forza media (MFP) per confrontare le strutture dei peptidi previste da PepLook, Robetta e PEPstr con i dati sperimentali NMR e ha concluso che i modelli PepLook e PEPstr assomigliano molto alle strutture NMR [21]. Per quanto a conoscenza degli autori, al momento, solo i metodi PEPstr e PEP-FOLD forniscono un servizio online gratuito alla comunità scientifica mondiale specificamente per la previsione della struttura terziaria dei peptidi dalla loro sequenza amminoacidica. Negli ultimi anni, sono stati sviluppati numerosi database per la gestione di peptidi di importanza terapeutica che includono peptidi che penetrano nelle cellule, homing tumorali, antiparassitari, emolitici, antipertensivi, antitumorali, antimicrobici, sensori del quorum e della barriera ematoencefalica [22- 30]. Recentemente, è stato sviluppato un meta-database (SATPdb) di peptidi terapeutici, che è compilato da ventidue database/set di dati di peptidi e può aiutare i suoi utenti a estrarre peptidi al chiaro di luna con la funzione desiderata [31]. È stato osservato che i peptidi hanno una scarsa emivita in circolo e le modifiche ne aumentano l'emivita [8, 32, 33]. Diverse modificazioni possono o meno portare a profondi cambiamenti strutturali nel peptide e quindi influenzare la sua funzione biologica [34, 35]. In passato, sono stati fatti tentativi limitati per prevedere la struttura di peptidi contenenti amminoacidi non naturali o modificati.

Recentemente, Gfeller et al. sviluppato il database SwissSideChain [36, 37] contenente una libreria di campi di forza per 210 residui non naturali compatibili con il campo di forze di Charmm nel pacchetto software GROMACS e CHARMM. In breve, hanno generato i parametri del campo di forza per ogni residuo non naturale dalle analoghe catene laterali naturali o utilizzando il servizio web SwissParam [38]. Inoltre, Khoury et al. sviluppato Forcefield_NCAA (FFNCAA) [39], che è una libreria di campi di forza di 147 amminoacidi non naturali, compatibile con il campo di forza ff03 nel pacchetto software AMBER. Partendo da conformatori elicoidali iniziali ea filamento , hanno eseguito l'ottimizzazione della geometria vincolata dalla meccanica quantistica e un ulteriore adattamento RESP per ottenere i parametri del campo di forza per questi residui non naturali. Khoury et al. ha anche sviluppato Forcefield_PTM (FFPTM) [40], che è una libreria di campi di forza di 32 modifiche post-traduzionali che si verificano frequentemente utilizzando la stessa procedura descritta sopra. Hanno anche sviluppato servizi web, FFNCAA e FFPTM, che danno la possibilità di incorporare amminoacidi non naturali e PTM rispettivamente in un file PDB di input e inviano agli utenti il ​​file PDB modificato. Petrov et al. [41] ha sviluppato i parametri del campo di forza per

250 diversi tipi di PTM compatibili con i campi di forza GROMOS 45a3 e 54a7 in GROMACS. Hanno anche sviluppato un server web Vienna-PTM [42], che offre la possibilità di incorporare qualsiasi PTM in un file PDB e fornire il file PDB modificato agli utenti.

In questo studio, abbiamo tentato di incorporare librerie di campi di forza speciali per prevedere la struttura dei peptidi con amminoacidi non naturali e diversi tipi di PTM. Abbiamo impiegato un insieme logico di passaggi che integra il software di previsione della struttura con librerie di campi di forza e simulazioni estese per prevedere le strutture di peptidi con residui non naturali e altre modifiche. Abbiamo valutato le prestazioni dell'applicazione PEPstrMOD su diversi set di dati con peptidi modificati. Ci auguriamo che PEPstrMOD aiuti la comunità scientifica a comprendere meglio le strutture peptidiche modificate.


Introduzione

L'RNA in tutti gli organismi cellulari è sintetizzato da una complessa macchina molecolare, la RNA polimerasi DNA-dipendente (RNAP). Nei batteri, il core RNAP cataliticamente competente (composizione della subunità α2ββ'ω) ha una massa molecolare di � kDa. Sono state identificate relazioni evolutive per ciascuna delle subunità del nucleo batterico tra tutti gli organismi, dai batteri all'uomo [1]–[3]. Queste relazioni sono particolarmente forti tra le due subunità più grandi, β' e β, che contengono segmenti di sequenza conservata disposti in modo collineare (Figura 1) [3]. Questi segmenti conservati sono separati da regioni spaziatori relativamente non conservate in cui possono verificarsi ampi spazi o inserimenti specifici del lignaggio [3],[4]. Il significato funzionale di queste differenze specifiche del lignaggio è poco compreso a causa della mancanza di informazioni biochimiche e strutturali correlate. La maggior parte delle nostre conoscenze biochimiche e genetiche sull'RNAP batterico proviene da studi di Escherichia coli (Eco) RNAP ma tutte le nostre informazioni strutturali ad alta risoluzione vengono dalla forma Thermus RNAPs [5]–[8] as Eco RNAP non è stato suscettibile di analisi di cristallografia a raggi X. Il Eco e Thermus Le subunità β e β' ospitano inserzioni di grandi sequenze (㹀 amminoacidi) che non sono presenti nelle altre specie e non sono condivise tra le specie batteriche (Figura 1) [3]. Ad esempio, il Eco La subunità β' contiene β'-insert-6 (o β'i6, usando la nomenclatura dell'inserto specifico del lignaggio di Lane et al. [3]), un'inserzione di 188 residui nel mezzo conservato “trigger loop.” D'altra parte, il Thermus La subunità β' manca di β'i6 ma contiene β'i2 (283 residui). Le strutture ad alta risoluzione di entrambi questi inserti specifici del lignaggio rivelano che comprendono ripetizioni di una piega precedentemente caratterizzata, il motivo ibrido sandwich-barrel (SBHM) [9],[10]. Allo stesso modo, il Eco β subunità ospita tre grandi inserimenti mancanti in Thermus, βi4 (119 residui), βi9 (99 residui) e βi11 (54 residui), mentre il Thermus La subunità β ospita βi12 (43 residui).

Le barre verticali rappresentano la sequenza primaria delle subunità RNAP batteriche β (superiore, ciano chiaro) e β' (inferiore, rosa chiaro). I riquadri bianchi indicano le regioni di sequenza comuni a tutti gli RNAP batterici, come definito da Lane et al. al. [3]. Le caratteristiche strutturali importanti sono etichettate sopra le barre [19]. Gli inserimenti specifici del lignaggio (etichettati secondo la nomenclatura di Lane et al. [3] sono mostrati sotto le barre. La codifica a colori per le subunità grandi e gli inserimenti specifici del lignaggio mostrati qui sono utilizzati in tutto questo articolo.

Per certi versi, l'alta risoluzione Thermus Le strutture RNAP sono servite come buoni modelli per interpretare la letteratura funzionale ottenuta da studi biochimici, biofisici e genetici di Eco RNAP [11],[12]. Tuttavia, un modello molecolare completo di Eco core RNAP non è stato disponibile a causa dell'assenza di informazioni strutturali ad alta risoluzione sul Eco β inserti specifici della linea di subunità. Gli studi strutturali più dettagliati di Eco Gli RNAP provengono dall'analisi di crio-microscopia elettronica (crio-EM) di cristalli elicoidali a una risoluzione di circa 15 Å [13]. Questa ricostruzione crio-EM di Eco core RNAP potrebbe essere interpretato in dettaglio adattando il Taq core RNAP struttura a raggi X, rivelando una grande distorsione della struttura (apertura del canale del sito attivo di oltre 20 Å) a causa di contatti intermolecolari nei cristalli elicoidali. Densità elettronica forte per Eco βi9 era presente nella ricostruzione crio-EM, ma densità debole per Eco βi4 e Eco β'i6 ha indicato che questi domini erano flessibili nel contesto dei cristalli elicoidali [13]. La maggior parte delle ricostruzioni EM precedenti di varie forme di Eco RNAP non ha rivelato informazioni riguardanti gli inserti specifici del lignaggio (ad esempio, vedere [14]). Una recente ricostruzione EM con colorazione negativa e risoluzione 20 Å di un complesso di inizio della trascrizione attivatore-dipendente contenente Eco RNAP [15] ha permesso il posizionamento del Eco β'i6 struttura cristallina [10], ma la mancanza di informazioni strutturali sull'altro Eco inserti specifici del lignaggio hanno impedito l'interpretazione dettagliata delle densità aggiuntive presenti nella ricostruzione [15].

In questo studio, abbiamo utilizzato una combinazione di approcci strutturali per generare un modello molecolare completo di Eco nucleo RNAP. Abbiamo determinato due nuove strutture cristalline a raggi X ad alta risoluzione di Eco RNAP β frammenti di subunità che includono Eco βi4 e βi9 e hanno utilizzato un metodo ab initio per prevedere la struttura del piccolo Eco βi11 [16]. Le tre strutture cristalline a raggi X disponibili di Eco Frammenti RNAP (le due strutture qui determinate e la struttura di Eco β'i6 [10]) e la struttura prevista di Eco βi11 sono stati incorporati in un modello di omologia di Eco nucleo RNAP. Infine, abbiamo utilizzato l'imaging crio-EM combinato con l'analisi dell'immagine a particella singola per ottenere una struttura a bassa risoluzione della conformazione della soluzione di Eco core RNAP in cui le densità corrispondenti agli inserimenti specifici del lignaggio potrebbero essere chiaramente identificate. Montaggio flessibile del Eco Il modello di omologia RNAP nelle densità crio-EM ha generato un modello molecolare completo di Eco nucleo RNAP e an Eco Complesso di allungamento ternario RNAP (TEC).


Chimica Computazionale

5. Conclusioni

La teoria degli orbitali molecolari è uno strumento consolidato nell'analisi della struttura elettronica dei composti chimici. Il suo approccio orbitale a frammenti è intuitivo e può essere molto produttivo quando si analizzano complicate funzioni d'onda e si esegue l'analisi della carica e della scomposizione dell'energia. Può essere utilizzato anche per costruire funzioni d'onda di prova di sistemi particolarmente difficili, in modo che la procedura SCF abbia un modo più semplice per convergere allo stato elettronico prescelto. Sebbene alcuni approcci siano stati sviluppati tre o più decenni fa, la loro implementazione per l'uso con i comuni pacchetti QM non era sempre disponibile in passato. Negli anni più recenti, la situazione è notevolmente migliorata, il che consente ai chimici inorganici interessati alla chimica computazionale di utilizzare con facilità gli strumenti della teoria degli orbitali molecolari.

In questo capitolo, abbiamo delineato alcuni recenti successi nell'implementazione di metodi più vecchi e nello sviluppo di nuovi metodi nel quadro della teoria degli orbitali molecolari. Anche se non abbiamo ancora raggiunto il momento in cui disponiamo di un set completo di strumenti per l'analisi orbitale e della decomposizione energetica, negli ultimi 20 anni sono stati compiuti progressi significativi e l'analisi della struttura elettronica ha smesso di essere un dominio esclusivo per gli specialisti in questo area di ricerca.


Restrizioni di interazione non ambigue

Se le tue previsioni sono altamente affidabili e desideri che vengano applicate tutte durante l'attracco, definiscile come restrizioni univoche. Questi possono essere, ad esempio, vincoli di distanza a coppie derivati ​​da modelli (tutorial), dati di crosslink MS (tutorial) o dati di connettività crio-EM (tutorial).

Restrizioni all'interazione ambigue ( AIR s)

Tuttavia, come nella vita, anche nella scienza bisogna essere in qualche modo critici nei confronti dei dati con cui si lavora. Se non sei sicuro al 100% delle informazioni di interazione e vuoi essere cauto mentre le incorpori nel tuo aggancio, usa le limitazioni di interazione ambigue, uniche per HADDOCK. Qui, per ogni prova di attracco una frazione di queste restrizioni verrà rimossa casualmente, il che garantisce un campionamento più ampio che soddisfa sempre un diverso sottoinsieme di restrizioni predefinite. Quindi, se alcune delle restrizioni sono artificiali, queste possono essere filtrate se il complesso che le soddisfa è sfavorevole.

Per gli AIR, è importante definire i residui all'interfaccia per ciascuna molecola sulla base di dati sperimentali che forniscono informazioni sull'interfaccia di interazione.

Nella definizione di tali residui si distingue tra "attivo" e "passivo" residui.

Il "attivo" i residui sono di importanza centrale per l'interazione tra le due molecole E sono accessibili ai solventi. L'accessibilità relativa della catena principale o della catena laterale dovrebbe essere in genere > 40%, a volte potrebbe essere utilizzato anche un limite inferiore, ad esempio il server HADDOCK utilizza per impostazione predefinita il 15%. Durante tutta la simulazione, questi residui attivi sono trattenuti a far parte dell'interfaccia, se possibile, altrimenti incorrono in una penalità di punteggio.

Il "passivo" i residui sono tutti vicini di superficie accessibili ai solventi dei residui attivi (<6.5Å). Contribuiscono all'interazione, ma sono ritenuti di minore importanza. Se tale residuo non appartiene all'interfaccia non c'è penalità di punteggio.

In generale, un'ARIA è definita come una distanza intermolecolare ambigua tra qualsiasi atomo di un residuo attivo della molecola A e qualsiasi atomo di entrambi i residui attivi e passivi della molecola B (e inversamente per la molecola B).

I vincoli di distanza ambigui sono descritti nella HADDOCK manuale e altro sui parametri in run.cns il file è scritto qui.

Altri tipi di restrizioni

HADDOCK può utilizzare molte informazioni sperimentali. Qui descriviamo altri tipi di restrizioni supportati da HADDOCK:


Conclusioni

Attualmente, la biologia strutturale fatica a tenere il passo con la rapida crescita del sequenziamento del genoma. Solo una frazione di tutte le famiglie di sequenze conosciute è rappresentata nel Protein Data Bank con almeno una struttura dei suoi membri. Nonostante i grandi progressi nella previsione della struttura utilizzando frammenti proteici, campi di forza migliorati, simulazioni di dinamica molecolare e modelli di omologia, le strutture delle proteine ​​di membrana rimangono ampiamente inaccessibili. I metodi computazionali come EVfold_membrane sono quindi la chiave per accelerare la determinazione della struttura delle proteine ​​di membrana, colmando così il crescente divario sequenza-struttura.


Quanti residui può contenere un modello strutturale ab initio affidabile? - Biologia

Progressi nella previsione della struttura terziaria delle proteine

Tayebeh Farhadi
Dipartimento di Biotecnologie Farmaceutiche, Facoltà di Farmacia, Università di Scienze Mediche di Shiraz, Shiraz, Iran

Data di pubblicazione sul web5-mar-2018

indirizzo di posta:
Dott. Tayebeh Farhadi
Dipartimento di Biotecnologie Farmaceutiche, Facoltà di Farmacia, Shiraz University of Medical Sciences, Shiraz
Iran

Fonte di supporto: Nessuno, Conflitto d'interesse: Nessuno

DOI: 10.4103/bbrj.bbrj_94_17

Le proteine ​​sono composte da catene lineari di amminoacidi che formano una struttura tridimensionale unica nel loro ambiente nativo. Tale struttura nativa favorisce le proteine ​​per svolgere la loro attività biochimica. La proteina è formata da alcuni livelli di struttura. La struttura primaria di una proteina è specificata dalla particolare sequenza di amminoacidi. In una sequenza di amminoacidi, i modelli di legame locale possono essere identificati come struttura secondaria. Il livello finale che forma una struttura proteica terziaria è composto dagli elementi menzionati e si forma dopo che la proteina si ripiega nel suo stato nativo. Per trovare la struttura nativa delle proteine, i principi fisico-chimici e identificare gli stati di energia libera più bassi sono considerati le proprietà migliori e per prevedere proteine ​​bersaglio con strutture sconosciute, i metodi basati sulla bioinformatica hanno ottenuto un notevole successo. I metodi di previsione della struttura delle proteine ​​sono stati principalmente classificati in tre tipi: piegatura ab Initio, modellazione comparativa (omologia) e filettatura. Ciascun metodo menzionato può essere applicato per una struttura proteica, a seconda dell'esistenza di strutture sperimentali correlate che sono depositate nel PDB. Una volta generato un modello iniziale, vengono condotte simulazioni di raffinamento per riassemblare la topologia globale e le strutture locali delle catene proteiche. Poiché le caratteristiche significative di un modello possono trovarsi in regioni strutturalmente distinte dal modello, il perfezionamento di un modello primario è influente. Una strategia affidabile include un controllo stereo-chimico e la scoperta di come il modello si discosti dalle discipline di base delle strutture sperimentali note.

Parole chiave: Valutazione del modello, perfezionamento del modello, modellazione delle proteine, struttura terziaria delle proteine


Come citare questo articolo:
Farhadi T. Progressi nella previsione della struttura terziaria delle proteine. Biomed Biotechnol Res J 20182:20-5

Come citare questo URL:
Farhadi T. Progressi nella previsione della struttura terziaria delle proteine. Biomed Biotechnol Res J [serial online] 2018 [citato il 23 giugno 2021]2:20-5. Disponibile da: https://www.bmbtrj.org/text.asp?2018/2/1/20/226584

Le proteine ​​sono composte da catene lineari di amminoacidi che formano un'unica struttura tridimensionale (3D) nel loro ambiente nativo. Tale struttura nativa favorisce le proteine ​​per svolgere la loro attività biochimica. [1]

Per molti anni, una sfida sulla previsione della struttura terziaria delle proteine ​​dalla loro sequenza di amminoacidi ha attratto ricercatori nei diversi campi di studio. Ci sono prove sufficienti sull'importanza delle informazioni sulla struttura tridimensionale negli ultimi anni e, di conseguenza, il potenziale impatto dei progressi nella previsione della struttura delle proteine ​​è enorme. Ad esempio, non si possono ottenere prove considerevoli sulle relazioni struttura-funzione tra i membri di una famiglia di proteine ​​basate su un piccolo numero di strutture disponibili dei membri della famiglia. Tuttavia, i modelli generati da membri della famiglia proteica derivati ​​utilizzando strutture determinate sperimentalmente consentono di dedurre tali relazioni struttura-funzione. [5],[6] I modelli possono anche essere utilizzati come base per analizzare la funzione delle singole proteine, molto nel modo in cui viene eseguito con strutture risolte sperimentalmente. Tuttavia, nonostante l'enorme impatto potenziale della previsione della struttura proteica, il grado di confidenza con cui i modelli generati possono essere utilizzati in varie applicazioni scientifiche è ambiguo. [7]

I metodi di previsione della struttura delle proteine ​​sono stati principalmente classificati in tre tipi: piegatura ab Initio, modellazione comparativa (omologia) e filettatura. [8] Ciascun metodo menzionato può essere applicato per una struttura proteica, a seconda dell'esistenza di strutture sperimentali correlate che sono depositate nel PDB.

Ab Initio (chiamato anche de novo) la classe di modellazione è originariamente definita come i metodi che si basano sulle prime leggi fondamentali della chimica e della fisica che dichiarano lo stato nativo di una proteina posta al minimo dell'energia libera globale. [11],[12] Quindi, la procedura Ab Initio cerca di ripiegare una data proteina dalla sequenza di query utilizzando diversi campi di forza e ampi algoritmi di ricerca conformazionale. Tuttavia, è stato dimostrato un successo limitato applicando tali tecniche basate su principi fisico-chimici. I metodi più appropriati in questa classe utilizzano ancora le informazioni evolutive e basate sulla conoscenza per raccogliere brevi frammenti strutturali e vincoli spaziali per aiutare il processo di assemblaggio strutturale. [13],[14] Questa classe è ora denominata “modellazione libera” negli esperimenti CASP perché molte delle tecniche non si fidano perfettamente dei primi principi. [15]

Nella modellazione comparativa (CM), la struttura proteica viene prevista confrontando la sequenza di una proteina query (denominata anche bersaglio) con una proteina associata evolutivamente con una struttura nota (denominata anche modello) nel PDB. [8] Pertanto, una necessità per il metodo CM è l'esistenza di una proteina omologa nel database PDB. [16] I modelli CM hanno abitualmente un forte bias e sono più vicini alla struttura del modello piuttosto che alla struttura nativa della proteina bersaglio. In questo contesto, i metodi CM producono modelli copiando le strutture allineate dei modelli o soddisfacendo i vincoli di contatto/distanza dai modelli. [17] È considerato un limite essenziale dell'approccio. Di conseguenza, una delle domande significative per CM (e per altri approcci basati su modelli) è come perfezionare i modelli generati più vicini alla struttura nativa rispetto ai modelli utilizzati.

Il threading (chiamato anche riconoscimento delle pieghe) è una strategia bioinformatica che cerca nella libreria PDB per trovare modelli proteici che hanno una piega o un motivo strutturale simile alla proteina query. È paragonabile a CM nel senso che entrambe le strategie tentano di generare un modello strutturale applicando le strutture risolte sperimentalmente come modello. [8] È dimostrato che molte proteine ​​con identità di sequenza bassa possono avere pieghe simili. Pertanto, la procedura di threading si concentra sul rilevamento degli allineamenti target-template indipendentemente dalla relazione evolutiva.

Quando l'identità della sequenza è bassa, il riconoscimento degli allineamenti esatti del modello di destinazione è un problema di importanza critica. Pertanto, la progettazione della funzione di punteggio di allineamento esatto è significativa per l'efficacia dei metodi. I punteggi di allineamento frequentemente utilizzati contengono corrispondenza sequenza-profilo strutturale, [18] corrispondenza struttura secondaria, allineamenti profilo sequenza e 8211 profilo, [19] e contatti residuo e residuo [20] con i migliori allineamenti di punteggio comunemente scoperti dalla modellazione di Hidden Markov [21] o simulazione dinamica. [22] Negli ultimi anni, gli approcci delle funzioni di punteggio composito contenenti molteplici proprietà strutturali come gli angoli di torsione e l'accessibilità del solvente possono produrre ulteriori vantaggi nelle identificazioni del modello proteico. [23]

Nel campo della previsione della struttura delle proteine, una tendenza comune che confina tra i tipi convenzionali di approcci di modellazione è diventata confusa. Molte tecniche Ab Initio applicano vincoli spaziali o frammenti strutturali identificati mediante il metodo del threading. [24] Inoltre, le tecniche di modellazione comparativa e di threading dipendono da allineamenti multipli di sequenze. Tuttavia, nel campo della previsione della struttura proteica, nessuna singola tecnica può superare le altre per tutti i target proteici, pertanto gli approcci meta-server sono stati introdotti come seconda tendenza. [25] Un approccio comune del meta-server consiste nel generare un numero di modelli da più programmi sviluppati da laboratori diversi, quindi selezionare i modelli finali da quelli migliori. [26] Nonostante la disponibilità di diversi approcci che possono essere provati nella selezione del modello proteico e del modello, la strategia di selezione del modello più efficace sembra essere la selezione del consenso. Per definizione, la selezione del consenso è l'approccio di selezione del modello più efficiente e seleziona i modelli che sono più spesso costruiti con vari metodi e generalmente quello che è il più vicino al nativo. [27]

Un altro efficiente approccio meta-server per la classificazione, la selezione e la ricostruzione dei modelli proteici si basa su più informazioni di modelli. Per dirigere le simulazioni di assemblaggio strutturale basate sulla fisica, questo approccio può sfruttare i vincoli spaziali e i frammenti strutturali ricavati dai numerosi modelli. Pertanto, l'approccio menzionato può generare modelli che hanno una qualità raffinata rispetto ai modelli basati sulle informazioni dei singoli modelli. Considerando i risultati di benchmark a livello di comunità dei recenti esperimenti CASP, questo approccio rappresenta il metodo più efficace e di successo. [28]

Inoltre, in diversi studi, la previsione dei possibili effetti delle variazioni della sequenza amminoacidica all'interno delle posizioni spaziali di residui funzionalmente importanti (come siti attivi/di legame e siti di mutazioni associate alla malattia) è segnalata come un problema importante. [8],[30] Tale previsione può essere effettuata utilizzando la modellazione strutturale.

Una volta generato un modello iniziale, vengono condotte simulazioni di raffinamento per riassemblare la topologia globale e le strutture locali delle catene proteiche. Poiché le caratteristiche significative di un modello possono trovarsi in regioni strutturalmente distinte dal modello, il perfezionamento di un modello primario è influente. Le regioni menzionate sono incluse catene laterali che sono dissimili nel modello e nel suo bersaglio e anelli che si trovano tra elementi della struttura secondaria e possono avere una conformazione abbastanza distinta nel bersaglio e nel modello. [31] Le procedure di modellazione della catena laterale e dell'anello si basano su questo presupposto che gli elementi della struttura secondaria di una proteina bersaglio siano simili a quelli della struttura del modello. [32]

Per il calcolo delle conformazioni della catena laterale, gli approcci più frequentemente utilizzati utilizzano la relazione rilevata tra le conformazioni della catena principale e della catena laterale e utilizzano abitualmente una "libreria di rotatori" prodotta da un database di strutture note. [33] Gli approcci variano nel modo in cui vengono campionati i rotameri. La funzione energetica viene sfruttata per valutare le singole conformazioni. Attualmente, è probabile che preveda le conformazioni delle catene laterali sepolte con una precisione quasi sperimentale. [33]

I metodi di modellazione del loop generalmente generano un modello iniziale del loop in conformazione ''open'' in cui un'estremità del loop non è collegata al suo residuo successivo. Quindi, i programmi chiudono il ciclo applicando diversi algoritmi. [34],[35] La procedura viene ripetuta più volte impiegando diverse conformazioni di partenza. Le conformazioni ottenute vengono poi verificate utilizzando diverse funzioni energetiche. In generale, si suggerisce che una combinazione di un accurato campionamento e di un calcolo dell'energia conformazionale possa generare risultati molto accurati. [36],[37]

Dalle simulazioni di assemblaggio strutturale risulterà un certo numero di conformazioni strutturali (denominate anche esche strutturali). Tra tutte le probabili conformazioni alternative più vicine alla struttura nativa, deve essere selezionato il modello terziario di alta qualità con piegatura accurata. Una strategia affidabile include un controllo stereo-chimico e la scoperta di come il modello si discosti dalle discipline di base delle strutture sperimentali note. [8]

Per gestire un gran numero di conformazioni archiviate, viene solitamente impiegato un metodo gerarchico per modellare la valutazione. Per classificare tutti i modelli originali, il metodo utilizza funzioni di punteggio facili da valutare e semplificate. Con questa strategia, è possibile selezionare un sottoinsieme per una valutazione più dettagliata dal punto di vista computazionale. Una funzione di punteggio utilizzata di routine è Verify3D. [41],[42] Verify3D valuta i segmenti del modello in base a quanto bene l'ambiente dei residui in quei segmenti si correla con le loro propensioni rilevate a trovarsi in quell'ambiente. [43]

Esistono diverse alternative alle funzioni di punteggio basate sulle statistiche. [47],[48] Stime dettagliate della stabilità conformazionale di tutti gli atomi possono essere impiegate utilizzando campi di forza della meccanica molecolare del tipo applicato nelle simulazioni di dinamica molecolare. [49]

Questi approcci hanno registrato successi impressionanti nella loro capacità di piegare frammenti proteici da conformazioni non ripiegate, [50],[51] le loro applicazioni al problema “decoy” e la loro capacità di scegliere la struttura a raggi X determinata sperimentalmente tra un gran numero di conformazioni varianti della stessa catena polipeptidica. [52]

Mentre si prevede una conformazione nativa da una serie di esche, ci sono grandi sfide tra cui il campionamento e la valutazione di conformazioni sufficienti. Questa non è una nuova sfida e non sarà semplice da risolvere. [49] In effetti, i ricercatori ritengono che gli approcci di dinamica molecolare possano essere impiegati per raggiungere questo obiettivo. Tali metodi possono piegare frammenti proteici da stati disordinati e fornire un modello impreciso che è relativamente vicino alla struttura nativa. Quindi, il modello viene raffinato in una conformazione vicina alla conformazione nativa. [53] Tuttavia, questo obiettivo non è stato ancora raggiunto. Un'altra soluzione richiede una combinazione di metodi di allineamento migliorati, la ricerca di modelli strutturali per ciascuna regione problematica di una struttura e l'utilizzo di funzioni di punteggio e procedure di campionamento migliorate. [1],[52]


Risultati e discussione

QMEAN: Funzioni di punteggio composito per la valutazione di singoli modelli

Abbiamo recentemente descritto la funzione di punteggio composito QMEAN che consiste in una combinazione lineare di cinque termini inclusi 3 potenziali statistici [33]. È stato dimostrato che la combinazione di informazioni ampiamente ortogonali migliora la selezione del modello. La funzione di punteggio composito QMEAN include un potenziale dell'angolo di torsione su tre amminoacidi consecutivi per l'analisi della geometria locale di un modello, un potenziale di solvatazione che descrive lo stato di seppellimento dei residui e potenziali di interazione dipendenti dalla distanza basati su atomi di Cβ per la valutazione interazioni a lungo raggio. Sono inclusi anche due termini che descrivono l'accordo tra la struttura secondaria prevista e calcolata e l'accessibilità del solvente. In questo lavoro, la funzione di punteggio composito QMEAN è stata estesa da un potenziale termine di interazione dipendente dalla distanza di tutti gli atomi per catturare più dettagli strutturali. Una breve descrizione di tutte le versioni QMEAN e dei termini utilizzati nel loro calcolo è disponibile nella Tabella 1.

La prima sezione della Tabella 2 mostra le prestazioni medie di destinazione di diverse versioni QMEAN sul dataset CASP7 costituito da tutti i modelli di server inviati per 98 destinazioni. Le altre sezioni mostrano le prestazioni di varie implementazioni QMEANclust e selfQMEAN che, contrariamente a QMEAN, tengono conto delle informazioni di consenso. I fattori di ponderazione per le diverse funzioni di punteggio composito sono ottimizzati sul set di allenamento CASP6.

Per ogni versione di QMEAN viene fornita anche l'esecuzione di un'implementazione alternativa che penalizza i modelli incompleti moltiplicando il punteggio per la frazione dei residui modellati. Tenendo conto della copertura dei modelli rispetto alla sequenza target si migliora notevolmente la correlazione con il punteggio GDT_TS [46] penalizzando modelli incompleti con una stereochimica altrimenti buona. Questo aumento delle prestazioni nella stima della qualità relativa del modello può essere attribuito al fatto che il punteggio GDT_TS, tradizionalmente utilizzato nella valutazione del CASP, è per definizione dipendente dalla completezza del modello. La tabella 2 sottolinea che è possibile ottenere un grande aumento delle prestazioni includendo la struttura secondaria prevista e i termini dell'accordo di accessibilità del solvente come mostrato in precedenza (QMEAN3 vs. QMEAN5 e QMEAN4 vs. QMEAN6). L'integrazione di un termine di tutti gli atomi (QMEAN5 vs. QMEAN6 nella Tabella 2) migliora ulteriormente la correlazione tra la qualità prevista del modello e la sua somiglianza con la struttura nativa. Ancora più importante, il termine all-atomo aumenta la capacità della funzione di punteggio di selezionare buoni modelli. Ciò si riflette nel punteggio GDT_TS totale significativamente più alto (valore p = 0,03 in un test t accoppiato) dei migliori modelli selezionati da QMEAN6 di 56,70 rispetto a 55,32 per QMEAN5.

Per confronto, le prestazioni dei metodi migliori della categoria di valutazione della qualità di CASP7 sono mostrate nella Tabella 3 insieme al GDT_TS massimo del server più performante, cioè. una funzione di punteggio che seleziona sempre i modelli del server Zhang [43, 47]. Per una descrizione degli altri metodi, visitare il sito Web CASP7 http://predictioncenter.org/casp7/. I valori GDT_TS così come i dati degli altri metodi si basano sui dati di valutazione della qualità di CASP7 e i dati di TASSER-QA sono stati gentilmente forniti dagli autori [35].

Un'analisi statistica dei risultati di cui sopra è fornita nella Figura 1. Dalle funzioni di punteggio che sono in grado di restituire un punteggio per un singolo modello, QMEAN6 mostra il miglior coefficiente di correlazione (sia Pearson che Spearman) su tutti i metodi che partecipano a CASP7 (Tabella 3, prima sezione). La differenza è statisticamente significativa al livello di confidenza del 95% basato su un t-test appaiato. QMEAN mostra anche le migliori prestazioni nella selezione di buoni modelli per ciascun target come evidenziato dai valori GDT_TS totali più alti seguiti da ABIpro e Circle-QA, ma in questo caso la differenza non è statisticamente significativa.Le funzioni di punteggio che tengono conto delle informazioni sulla densità strutturale come selfQMEAN e QMEANclust producono coefficienti di correlazione considerevolmente più elevati e punteggi GDT_TS totali (vedi sotto).

Analisi della significatività statistica basata su un t-test per coppie unilaterali (livello di confidenza 95%). Verde: il metodo indicato in orizzontale ha prestazioni significativamente migliori. Rosso: il metodo indicato in orizzontale ha prestazioni significativamente peggiori. a) coefficiente di correlazione di Pearson, b) coefficiente di correlazione di rango di Spearman, c) valori GDT_TS dei modelli modello selezionato da una funzione di punteggio.

Un ulteriore miglioramento può essere ottenuto utilizzando versioni QMEAN più specializzate per diverse situazioni di modellazione, come QMEAN con termine all-atom per obiettivi basati su modelli e senza obiettivi di modellazione gratuiti. I primi risultati suggeriscono che l'effetto complessivo è solo marginale e che la versione QMEAN che include il termine all-atom porta a prestazioni migliori su tutta la gamma di difficoltà. L'utilizzo di una funzione di punteggio per tutte le situazioni di modellazione non è l'ideale, come evidenziato di recente dai collaboratori di Kihara [48]. Hanno dimostrato che per una funzione di punteggio del threading costituita da due termini, diverse combinazioni di fattori di ponderazione sono ottimali per diverse famiglie di proteine. Pertanto, fattori di ponderazione dell'allenamento specifici per proteine ​​di dimensioni simili e composizione di aminoacidi o strutture secondarie possono migliorare le prestazioni, specialmente nella previsione dei valori assoluti della qualità del modello [49]. L'ottimizzazione dei fattori di ponderazione nelle funzioni di punteggio composito basate su una combinazione lineare di termini è complicata dal fatto che i diversi termini dipendono dalla dimensione della proteina che influenza la capacità della funzione di punteggio combinata di prevedere la qualità assoluta.

QMEANclust: inclusa la densità strutturale dell'insieme del modello

In questa sezione descriviamo un nuovo metodo, chiamato QMEANclust, che combina la funzione di punteggio QMEAN con le informazioni sulla densità strutturale derivate dall'insieme di modelli. Nella semplice implementazione di metodi basati sulle informazioni sulla densità strutturale, il punteggio per un dato modello è calcolato come la sua distanza media (o mediana) da tutti gli altri modelli nell'insieme. Per costruire la matrice delle distanze vengono utilizzate diverse misure di similarità: per esempio. MaxSub [50] in 3Djury [11], LGscore [51] in Pcons [12] e TMscore [52] nel metodo di consenso descritto in MODfold [53]. In questo lavoro viene utilizzato il punteggio GDT_TS [46], una misura di somiglianza ben consolidata nella valutazione CASP. In tutte le implementazioni sopra menzionate, i singoli modelli sono ugualmente pesati nel calcolo del punteggio finale, non importa quanto sia buono o cattivo un modello. Nella giuria 3D vengono considerate nel calcolo solo le coppie di modelli al di sopra di una certa distanza limite.

I metodi di clustering tendono a fallire quando i modelli principali sono lontani dal cluster strutturale più importante o quando non è presente ridondanza strutturale nell'insieme che può essere catturato. Soprattutto per obiettivi di modellazione difficili e privi di modelli, i modelli migliori di solito non sono le conformazioni più frequenti nell'ensemble (almeno non nei set di esche CASP). Per far fronte ai limiti degli attuali approcci di clustering, abbiamo studiato due strategie per la combinazione della funzione di punteggio composito QMEAN e le informazioni sulla densità strutturale dall'insieme. Nel primo approccio, QMEAN viene utilizzato per selezionare un sottoinsieme di modelli di qualità superiore rispetto ai quali vengono eseguiti i successivi calcoli della distanza. Il punteggio finale per un dato modello è definito come la distanza mediana di questo modello da tutti i modelli nel sottoinsieme (strategia indicata come mediano nella tabella 2). Viene anche studiata un'implementazione basata sulla media anziché sulla mediana GDT_TS. Nel secondo approccio, i modelli sono ponderati in base al loro punteggio QMEAN (denotato media pesata) Per derivare la matrice delle distanze, la distanza di un dato modello da modelli più affidabili (cioè. ai modelli con punteggi QMEAN migliori) è ponderato più forte, il che a sua volta ha ridotto l'influenza dei modelli casuali sul calcolo.

Sono state studiate diverse strategie e cut-off per la selezione del modello. Un benchmark di diverse implementazioni alternative sul set di test CASP7 può essere trovato nella Tabella 2. Rispetto alle prestazioni di QMEAN, si ottengono coefficienti di correlazione notevolmente più alti per tutte le versioni di QMEANclust (r = 0,752 vs. r = 0,892).

Se nella derivazione della matrice delle distanze viene utilizzato l'intero insieme di modelli (nessuna preselezione), la media ponderata si comporta in modo comparabile o migliore rispetto all'assunzione della media o della mediana sia in termini di correlazione tra la qualità del modello prevista e osservata sia la capacità di identificare buoni modelli. Se nel calcolo della matrice della distanza viene utilizzato solo un sottoinsieme di modelli di alta qualità, un punteggio basato sulla mediana della distanza ha prodotto i risultati migliori e viene utilizzato nella versione finale. Sono stati studiati tre diversi approcci per selezionare un sottoinsieme di modelli basati su QMEAN: (1) selezione basata sugli Z-score che sono calcolati sottraendo da ciascun modello il punteggio QMEAN medio dell'insieme e dividendo per la sua deviazione standard , (2) selezione di una certa percentuale di modelli con il punteggio più alto e (3) una strategia in cui vengono utilizzati solo modelli con un punteggio QMEAN simile al modello con il punteggio più alto per far fronte a previsioni qualitativamente eccezionali.

Una combinazione della preselezione dei modelli basata su QMEAN e della ponderazione delle distanze secondo QMEAN nei successivi calcoli di raggruppamento non è utile come mostrato per la selezione basata su Z-score. I punteggi Z sono stati calcolati in base al punteggio QMEAN del modello e per il processo di clustering vengono utilizzati solo i modelli al di sopra di una determinata soglia di punteggio Z. La tabella 2 mostra che, all'aumentare della soglia del punteggio Z (cioè. meno modelli dell'insieme vengono utilizzati nei calcoli della distanza), la capacità del media pesata strategia per selezionare buoni modelli diminuisce gradualmente, mentre le prestazioni del mediano strategia aumenta (fino al punteggio Z > 0). L'uso della mediana anziché della media riduce l'influenza dei valori anomali in insiemi di dati più piccoli. Per le altre due strategie di selezione, solo mediano è mostrato, cioè. il punteggio finale QMEANclust di un modello è la distanza mediana di questo modello da tutti gli altri modelli nel sottoinsieme selezionato dalla strategia data.

La selezione del modello basata sui punteggi Z presenta diversi svantaggi: il numero di modelli selezionati utilizzando un dato cut-off del punteggio Z dipende in larga misura dalla difficoltà di modellazione. Per un facile obiettivo di modellazione basato su modelli, i modelli nell'insieme tendono ad essere molto simili e non ci sono modelli con punteggi Z elevati (per esempio. per alcuni bersagli non ci sono modelli con un punteggio Z maggiore di 1). D'altra parte, per gli obiettivi di modellazione libera a volte ci sono previsioni eccezionali rispetto alla maggior parte dei modelli più o meno casuali. Catturare queste previsioni nella fase di selezione è l'unico modo per aggirare i limiti intrinseci dei metodi basati sul consenso. Inoltre, potrebbero essere necessari cut-off di selezione diversi per obiettivi di modellazione basati su modelli (TBM) e obiettivi di modellazione liberi (FM) poiché i primi contengono molta più ridondanza strutturale che può essere acquisita con metodi di clustering e più obiettivi possono essere potenzialmente utilizzati nel calcolo della matrice delle distanze.

Nella quarta sezione della Tabella 2 sono riportati i risultati di una strategia di selezione basata su una percentuale fissa di modelli di punteggio più alto. Si ottiene un GDT_TS totale di 57,97 utilizzando i modelli del 20% superiore per i target TBM e il 10% superiore per i target FM. La discriminazione tra obiettivi TBM e FM viene effettuata in base al punteggio QMEAN medio assegnando obiettivi con un punteggio QMEAN medio del modello superiore a 0,4 alla categoria di modellazione basata sul modello. Questo cut-off è stato derivato empiricamente confrontando le distribuzioni dei punteggi dei target FM e TBM (dati non mostrati). La migliore prestazione dell'approccio, che utilizza una selezione del modello più tollerante per gli obiettivi TBM, può essere attribuita al fatto che l'insieme del modello degli obiettivi TBM contiene informazioni di consenso più utili. Nel caso degli obiettivi FM, QMEAN è spesso in grado di identificare alcuni dei modelli migliori che vengono successivamente utilizzati nel calcolo del consenso.

In alternativa, è stata studiata una semplice strategia di selezione volta a catturare previsioni eccezionali (quinta sezione della Tabella 2). Per il calcolo della distanza vengono considerati solo i modelli con un punteggio QMEAN simile rispetto al modello con punteggio più alto. Una selezione di modelli entro 0,05 unità QMEAN dal massimo per i bersagli TBM e 0,1 unità per i bersagli FM determina un GDT_TS totale di 58,11. Poiché i modelli TBM sono strutturalmente più omogenei, vengono selezionati più modelli nei target TBM rispetto ai target FM utilizzando queste soglie. Per il successivo confronto con altri metodi vengono utilizzate le migliori versioni di QMEAN, QMEANclust e selfQMEAN (vedi sotto). I valori corrispondenti sono sottolineati nella tabella 2.

Al CASP7, nessuno dei programmi di valutazione della qualità (metodi clustering e non clustering) è stato in grado di selezionare modelli migliori dall'insieme dei modelli server rispetto al server Zhang [54] presentato per ciascun target [35, 41, 44]. La migliore implementazione di QMEANclust mostra una migliore prestazione di selezione del modello rispetto a TASSER-QA [35] e una funzione di punteggio ingenua che prende semplicemente i modelli del server Zhang (GDT_TS totale di 58,11 contro 57,35). La differenza è statisticamente significativa al livello di confidenza del 95% basato su un t-test appaiato. La Figura 1 sottolinea che QMEANclust e la funzione di punteggio del modello singolo QMEAN mostrano una performance di selezione statisticamente migliore (p = 1.9*10 -5 e p = 0.009, rispettivamente) rispetto a Pcons, il metodo basato sul clustering con le migliori prestazioni al CASP7. In termini di correlazione tra la qualità del modello prevista e il grado di natività, QMEANclust ha coefficienti di correlazione di Pearson (0,892 vs 0,828 di TASSER-QA) e di Spearman (0,841 vs 0,785) significativamente più alti rispetto a TASSER-QA e qualsiasi altra funzione di punteggio testata.

Sebbene la capacità di QMEANclust di scegliere il modello migliore sia migliore di un predittore ingenuo che sceglie semplicemente i modelli Zhang, può ancora essere potenzialmente migliorata. I fattori di ponderazione per la funzione di punteggio QMEAN utilizzata per la prioritizzazione del modello sono stati ottimizzati per la regressione e non per la selezione del modello migliore. qui et al. [34] ha recentemente descritto un approccio in cui una funzione di punteggio composito è stata ottimizzata per la selezione del modello utilizzando macchine a vettori di supporto. La maggior parte delle attuali funzioni di punteggio ignora un parametro banale per la stima della qualità del modello: la presenza e la vicinanza di un modello strutturale che può essere utilizzato per costruire il modello [55]. Zhou e Skolnick [35] hanno recentemente descritto una funzione di punteggio in cui la misura in cui un modello è coperto da frammenti di modelli identificati dal threading viene utilizzata come misura di qualità. QMEAN potrebbe beneficiare di un tale termine che rappresenta informazioni ortogonali alla presente implementazione.

SelfQMEAN: uso di termini statistici potenziali derivati ​​dall'insieme del modello

L'idea di utilizzare l'insieme di modelli per un determinato obiettivo come base per derivare termini potenziali statistici specifici per l'obiettivo è stata precedentemente studiata [14]. Nel loro lavoro, Wang et al. ha generato un'implementazione dipendente dall'esca del potenziale di interazione RAPDF [56] derivando le frequenze di distanza dai modelli nel set di esche e pesando ciascun conteggio in base al punteggio RAPDF del modello. Questo potenziale statistico dipendente dall'esca ha funzionato meglio della funzione di punteggio RAPDF originale, ma non è buono come un semplice punteggio di densità basato sull'RMSD medio di un modello rispetto a tutti gli altri. Qui abbiamo seguito una strategia simile con la differenza che viene utilizzata una funzione di punteggio combinata che utilizza più potenziali statistici e che viene utilizzata una funzione di punteggio di densità migliorata (QMEANclust) per pesare i modelli che contribuiscono al punteggio selfQMEAN (vedi Metodi). Come si può vedere dalla Tabella 2, mentre selfQMEAN genera coefficienti di correlazione notevolmente più alti di QMEAN, la capacità di selezionare buoni modelli non migliora. La funzione di punteggio dipendente dall'esca non funziona meglio di QMEANclust, che si basa solo sulle informazioni sulla densità strutturale. Costruire una funzione di punteggio composita basata su potenziali target specifici è problematico poiché i fattori di ponderazione dipendono fortemente dalla difficoltà di modellazione: Ensemble contenenti molti modelli molto simili, per esempio. in modelli basati su modelli ad alta precisione, si traducono in energie assolute molto inferiori in termini di potenziale statistico rispetto a insiemi di modelli diversi. Abbiamo cercato di aggirare il problema semplicemente aggiungendo i punteggi Z energetici di ciascun termine. Questi risultati suggeriscono che il livello di dettaglio catturato dalle funzioni di punteggio specifiche del target diminuisce rispetto alla derivazione diretta delle differenze strutturali basate sui metodi di consenso. Le informazioni sulla densità strutturale sembrano essere catturate in modo più preciso quando derivate direttamente dalle matrici di distanza senza fare la deviazione utilizzando potenziali statistici specifici dell'insieme del modello. Questi metodi non sono inoltre in grado di superare i limiti dei metodi puramente basati sul consenso determinati dal cluster strutturale più dominato.

Confronto di QMEANclust con il metodo di consenso 3Djury-like

In questa sezione affrontiamo la questione se QMEANclust e la sua strategia di selezione di un sottoinsieme di modelli di alta qualità per il calcolo della densità strutturale sia davvero superiore ai metodi di puro consenso e se il nuovo metodo sia in grado di identificare buoni modelli anche se sono lontani lontano dal cluster strutturale più dominante. Per il confronto usiamo una giuria 3D come [11] implementazione basata su GDT_TS (cioè. il punteggio di un modello è semplicemente il suo Significare GDT_TS a tutti gli altri modelli di un determinato target). Come si può vedere dalla Tabella 2, questo approccio raggiunge un GDT_TS totale di 57,16 rispetto a 58,11 di QMEANclust. Un'analisi più attenta delle differenze di prestazioni sui 98 obiettivi CASP7 rivela che QMEANclust in molti casi è in grado di aggirare i limiti intrinseci della giuria 3D. La tabella sul lato sinistro della Figura 2 elenca tutti gli obiettivi in ​​cui la selezione del modello basata su QMEANclust è almeno 0,05 unità GDT_TS migliore (17 obiettivi) o peggiore (6 obiettivi) rispetto a quella basata sulla giuria 3D. I risultati di tre obiettivi sono mostrati più in dettaglio nella Figura 2. Sono mostrati due esempi (T0358, T0338) in cui la preselezione di modelli basata su QMEAN (area tratteggiata sui grafici nella prima colonna) ha portato a una migliore selezione del modello da parte QMEANclust rispetto alla giuria 3D. I risultati sono particolarmente pronunciati nel caso del target T0308. I modelli di questo target sembrano essere basati su due categorie di modelli e la maggior parte dei gruppi sembra aver utilizzato quello meno appropriato. L'area tratteggiata contenente tutti i modelli all'interno di un punteggio QMEAN di 0,05 unità del modello con la migliore classificazione cattura la stragrande maggioranza dei modelli del cluster di qualità più elevata e solo una frazione del cluster strutturale dominante. La fase di preselezione si traduce in una classifica QMEANclust che non è dominata dai modelli del secondo cluster rispetto alla classifica della giuria 3D. I coefficienti di correlazione sono 0,923 per QMEAN, 0,931 per l'approccio simile alla giuria 3D e 0,997 per QMEANclust.

Confronto tra QMEAN, un approccio 3d-Jury like e QMEANclust su 3 target CASP7 selezionati. La tabella mostra la differenza GDT_TS tra il miglior modello selezionato di QMEANclust e l'approccio della giuria 3D. Le correlazioni tra il punteggio previsto e GDT_TS di tre obiettivi sono mostrate per QMEAN, 3D-jury e QMEANclust (da sinistra a destra). Le aree tratteggiate contrassegnano i modelli selezionati da QMEAN come base per QMEANclust. La freccia a destra di ogni grafico indica il miglior modello selezionato.

Le destinazioni T0354 rappresentano un esempio in cui QMEANclust non è riuscito a migliorare rispetto a un approccio basato esclusivamente sul clustering. Ciò può essere attribuito alle incongruenze nella classifica QMEAN in cui una serie di modelli simili ma molto scadenti è stata classificata troppo in alto. Per questo target la migliore selezione del modello sarebbe stata effettivamente ottenuta da QMEAN (come indicato dalla freccia a destra).

Set di test MOULDER: prestazioni in una situazione di modellazione realistica

Poiché la funzione di punteggio QMEAN è stata ottimizzata sui modelli CASP6 e testata sui modelli CASP7, si potrebbe obiettare che tende a essere sovra-addestrata per questa situazione speciale e anche per il punteggio GDT_TS utilizzato lì. Pertanto abbiamo analizzato le prestazioni di QMEAN sul set di test MOULDER che rappresenta una situazione di modellazione più realistica. Il set di test MOULDER consiste di 20 diversi target, ciascuno con 300 modelli alternativi generati da MODELLER [57].

La tabella 4 mostra un confronto tra QMEAN e i suoi componenti e diverse funzioni di punteggio consolidate recentemente analizzate da Eramian et al. [32]. La differenza RMSD (in Ångstrom) tra il miglior modello nell'insieme e quello selezionato dalla funzione di punteggio è data come media su tutti i target. Come nel documento originale, per ogni target, i calcoli vengono ripetuti 2000 volte con un sottoinsieme casuale (25%) di modelli al fine di aumentare la robustezza delle statistiche. Una descrizione dei termini non spiegati qui può essere trovata nell'articolo di Eramian et al. Hanno studiato un totale di 40 termini e costruito una funzione di punteggio composita che combina i 10 termini con le migliori prestazioni utilizzando macchine vettoriali di supporto (SVM_SCORE). La tabella 4 evidenzia la forza di QMEAN (soprattutto QMEAN6 compreso il termine all-atomo) nella selezione del modello. Sebbene non sia stato utilizzato alcun algoritmo di apprendimento automatico per combinare i termini, QMEAN offre prestazioni migliori rispetto all'approccio SVM. Questo può essere almeno in parte attribuito al potenziale di interazione dipendente dalla distanza di tutti gli atomi specifici della struttura secondaria. L'uso di una versione specifica della struttura secondaria rispetto all'implementazione standard porta a risultati costantemente migliori sui test set CASP6 e CASP7 e sul set MOULDER (dati non mostrati). Sul set di dati MOULDER, il termine all-atomo di QMEAN ha prestazioni migliori rispetto alle ben consolidate funzioni di punteggio DFIRE e DOPE e al punteggio ROSETTA. Il termine potenziale dell'angolo di torsione implementato in QMEAN mostra una prestazione molto scarsa su questo set di test. La distribuzione dell'angolo di torsione nelle strutture dell'esca è forse troppo simile per essere utile per la discriminazione del modello basata sul potenziale dell'angolo di torsione a grana molto grossa su tre residui. Ma questo termine si è dimostrato molto utile in altri set di test e specialmente nel compito di riconoscere la struttura nativa [33].

Le prestazioni di QMEANclust sul set di test MOULDER dipendono fortemente dalla composizione e dalla qualità del set di esche, come risulta dai dati nella Tabella 5. I dati sono ordinati aumentando l'RMSD mediano dei 20 set di esche e non è stato effettuato alcun ricampionamento applicato in modo tale da utilizzare l'intero set di 300 modelli per target. Le prestazioni di QMEANclust diminuiscono con l'aumentare della diversità del set di esche, che si riflette anche nel numero di modelli quasi nativi nel set. QMEANclust mostra una performance di selezione del modello notevolmente peggiore rispetto a QMEAN sui set di esche nella parte inferiore della tabella. Sugli 8 set di esche con meno di 50 modelli quasi nativi (cioè. modelli inferiori a 5 ), la differenza è statisticamente significativa in un test t appaiato (valore p 0,05). Questi insiemi di modelli non sembrano contenere informazioni utili sulla densità strutturale che potrebbero essere catturate poiché solo pochi modelli hanno un RMSD inferiore a 5 . Sull'intero set di test MOULDER, la funzione di punteggio QMEAN raggiunge un ΔRMSD medio di 0,57 Å rispetto a 1,15 di QMEANclust. Nel complesso, la funzione di punteggio del modello singolo QMEAN seleziona per 4 bersagli il miglior modello disponibile nell'insieme e per 17 bersagli un modello che si discosta di meno di 1 . D'altra parte, QMEANclust si comporta altrettanto bene su set di esche popolati con un'elevata frazione di modelli quasi nativi. Il ΔRMSD medio sui 12 target contenenti almeno 50 modelli quasi nativi di QMEAN è 0,58 rispetto a 0,46 per il metodo di consenso QMEANclust. La differenza di prestazioni non è statisticamente significativa (p-value di 0,55 in un test t appaiato). Sebbene i risultati siano stati ottenuti su un piccolo set di test di soli 20 obiettivi, sottolineano il fatto che l'esecuzione delle funzioni di punteggio di consenso è fortemente dipendente dalla composizione dell'insieme del modello da analizzare.

QMEANlocal: stima della qualità locale

Le informazioni sulla densità strutturale possono essere utilizzate non solo globalmente confrontando interi modelli, ma anche a livello di residuo analizzando la diversità strutturale locale tra i modelli [44]. È molto improbabile che una regione modellata in modo completamente diverso in un modello rispetto alla maggior parte degli altri sia corretta. La tabella 6 mostra un confronto tra gli approcci clustering e non clustering relativi alla stima della qualità locale sul set di test CASP7.

Le previsioni per residuo basate su QMEAN, QMEANclust e selfQMEAN sono confrontate con la funzione di punteggio ProQres pubblicata di recente (metodo senza consenso). In ProQres viene utilizzata una rete neurale per combinare diversi descrittori locali [17]. Recentemente, Fasnacht et al. [39] ha pubblicato una funzione di punteggio composito locale basata su termini diversi combinati da macchine vettoriali di supporto con conseguente prestazione leggermente migliore. L'approccio SVM, così come ProQres, ha dimostrato di superare le funzioni di punteggio classiche come Verify3D [21] e ProsaII [58]. Un confronto diretto con questi metodi non è quindi necessario e un benchmark rigoroso con altri metodi di stima della qualità locale esula dallo scopo di questo lavoro. Piuttosto, le differenze di prestazioni generali dei metodi non clustering, clustering e "self-clustering" dovrebbero essere evidenziate e discusse qui.

La funzione di punteggio composito QMEANlocal qui descritta consiste in una combinazione lineare di 8 descrittori strutturali. I punteggi locali sono calcolati su una finestra scorrevole di 9 residui che ha determinato le migliori prestazioni rispetto a finestre di dimensioni alternative (dati non mostrati). In analogia alla versione globale QMEAN, 4 termini di potenziale statistico sono combinati con 2 termini che descrivono l'accordo locale tra la struttura secondaria prevista e misurata e l'accessibilità del solvente. Inoltre, vengono utilizzati due banali descrittori: l'accessibilità media del solvente e la frazione di residui nel segmento senza struttura secondaria definita. I fattori di ponderazione sono stati ottimizzati sui modelli sottoposti a CASP6 con la distanza Cα come funzione target (vedi Metodi per i dettagli).

QMEANlocal stima la qualità locale utilizzando solo il modello, mentre i due approcci seguenti considerano l'insieme dei modelli. Abbiamo studiato due diversi approcci per la stima della qualità locale basandosi sulle informazioni sulla densità strutturale contenute nell'insieme di modelli (QMEANclust_local, selfQMEANlocal).

Nell'approccio del consenso locale vengono analizzate le deviazioni Cα tra le posizioni equivalenti nei modelli dopo una sovrapposizione dipendente dalla sequenza con il programma TMscore [52] per derivare un punteggio di qualità. In analogia al punteggio QMEANclust globale, nel calcolo della distanza viene utilizzato un sottoinsieme di tutti i modelli e viene recuperata la distanza mediana, oppure viene calcolata una distanza media ponderata in base al punteggio di qualità del modello globale. In questo modo, i segmenti di modelli più affidabili hanno una maggiore influenza sul punteggio locale previsto. La classificazione del modello basata su QMEANclust viene utilizzata per la selezione e la ponderazione del modello. È stata anche studiata una ponderazione secondo QMEAN, ma ha comportato una prestazione peggiore (dati non mostrati). I potenziali termini statistici in selfQMEANlocal sono addestrati sui migliori modelli di ranking dell'ensemble. I restanti termini sono identici a quelli in QMEANlocal ei fattori di ponderazione sono derivati ​​utilizzando il set di dati CASP6.

La tabella 6 mostra la valutazione delle funzioni di punteggio locali utilizzando una varietà di misure di qualità che coprono diversi aspetti delle prestazioni. L'accuratezza locale di un modello è descritta come la distanza Cα tra i residui equivalenti dopo la sovrapposizione del modello e la sua struttura nativa con TMscore. Per ciascuna delle 98 destinazioni CASP7, vengono raggruppati tutti i residui di tutti i modelli di server. I coefficienti di correlazione di Pearson mediati dall'obiettivo delle funzioni di punteggio del consenso locale sono considerevolmente più alti rispetto agli altri metodi che mostrano quasi nessuna correlazione lineare. Tuttavia, la funzione di punteggio del modello singolo QMEANlocal mostra una forte tendenza a discriminare tra posizioni nei modelli devianti rispetto alla struttura nativa da posizioni non devianti, come riflesso dall'area media alta sotto la curva nell'analisi ROC. Sono stati eseguiti due tipi di analisi ROC, una basata su tutti i residui di tutti i modelli per target (area media sotto la curva indicata come ROCmedia nella Tabella 6) e l'altro con tutti i modelli di tutti i bersagli raggruppati insieme (indicato come ROCTutti). Le curve ROC di quest'ultimo approccio (su tutti i 98 target) sono mostrate nella Figura 3. La migliore prestazione nella stima della qualità del modello locale è ottenuta dal metodo di clustering QMEANclust_local. Le due strategie per calcolare il consenso strutturale locale basato sulla distanza Cα mediana o media ponderata tra i modelli producono curve abbastanza simili. I potenziali statistici specifici del target utilizzati in selfQMEANlocal hanno prestazioni notevolmente migliori rispetto all'implementazione standard di QMEANlocal ma non raggiungono il potere di discriminazione dei metodi di consenso. In analogia all'implementazione globale di selfQMEAN, l'uso di potenziali statistici specifici per il target nella versione locale non porta a prestazioni migliori rispetto al solo clustering. Su tutte le misure di qualità, QMEANlocal mostra prestazioni considerevolmente migliori rispetto a ProQres.

Curve caratteristiche dell'operatore del ricevitore (ROC) per le diverse versioni QMEAN locali e ProQres. È stato utilizzato un cut-off della distanza Cα di 2,5 . Sono stati testati due approcci QMEANclust alternativi che combinano le distanze Cα locali utilizzando la mediana o la media pesata.

Le ultime due colonne della tabella 6 mostrano un'analisi dei residui del 10% con punteggio più basso e più alto per target in base al punteggio di qualità corrispondente. QMEANlocal mostra le migliori prestazioni nel riconoscimento di regioni affidabili, come risulta dalla migliore distanza media Cα dei residui del 10% con punteggio più basso. Come nel caso di qualsiasi altra funzione di punteggio che analizza i singoli modelli (cioè. sulla base di termini statistici potenziali), QMEANlocal non è in grado di distinguere le regioni con alta e altissima deviazione dalle autoctone. Se l'insieme del modello contiene ridondanza strutturale che può essere catturata da metodi basati sul consenso, la versione locale di QMEANclust è molto efficace nell'identificare le regioni nei modelli che si discostano dal consenso strutturale e le regioni che sono potenzialmente corrette. Per la modellazione basata su modelli, i coefficienti di correlazione tra la deviazione locale prevista e calcolata dal nativo sono stati osservati fino a 0,95 sui residui dell'insieme del modello di alcuni obiettivi CASP7. Per l'analisi di singoli modelli o nel caso in cui l'ensemble non contenga informazioni utili sulla densità, possono essere utilizzate funzioni di punteggio composite come QMEANlocal. A seconda della situazione di modellazione, è possibile utilizzare l'uno o l'altro approccio per identificare le regioni errate nel modello che possono essere sottoposte a ricampionamento conformazionale locale in un protocollo di raffinamento del modello.

Le misure di qualità descritte finora si basano tutte sull'intera serie di residui di tutti i modelli per obiettivo (o su tutti gli obiettivi per ROCTutti) e descrivono l'accordo generale sulla qualità del modello locale prevista e misurata. Non analizzano esplicitamente se un metodo è in grado di stimare l'affidabilità di diverse regioni entro un modello. Pertanto abbiamo anche analizzato per ciascun modello il grado di corrispondenza tra deviazione locale prevista e osservata utilizzando il coefficiente di correlazione di rango tau di Kendall. La tabella 4 riporta la media tau di Kendall su tutti i modelli per target. Le prestazioni di selfQMEANlocal si trovano tra i metodi non clustering e clustering.

Un'analisi della curva ROC dei termini che contribuiscono a QMEANlocal suggerisce che le prestazioni sono fortemente sostenute da argomenti banali come l'accessibilità del solvente e la composizione della struttura secondaria (dati non mostrati). Due termini analoghi sono usati sia in ProQres che nell'approccio SVM di Fasnacht et al. Le differenze di prestazioni possono quindi essere in parte spiegate da migliori termini statistici potenziali. La versione QMEANlocal presentata in questo lavoro è solo un punto di partenza ed è necessario un approccio più elaborato per combinare i termini per esempio. SVM o reti neurali. Tuttavia, la combinazione lineare di termini utilizzati in QMEANlocal ha prestazioni considerevolmente migliori rispetto a ProQres basato su rete neurale.


Quanti residui può contenere un modello strutturale ab initio affidabile? - Biologia

un Biologia Strutturale, Istituto di Biologia Molecolare di Barcellona, ​​Baldiri Reixac 15, Barcellona, ​​08028, Spagna, e B Biologia strutturale, ICREA presso IBMB-CSIC, Baldiri Reixac 13-15, Barcellona, ​​08028, Spagna
* E-mail di corrispondenza: [email protected]

Dall'inizio la fasatura delle strutture macromolecolari, dalle sole intensità native senza informazioni sulla fase sperimentale o precedenti conoscenze strutturali particolari, è stata oggetto di una lunga ricerca, limitata da due barriere principali: dimensione della struttura e risoluzione dei dati. Approcci attuali per estendere l'ambito di dall'inizio le fasi includono l'uso della funzione di Patterson, la modifica della densità e l'estrapolazione dei dati. L'approccio degli autori si basa sulla combinazione della localizzazione di frammenti del modello come polialanina α -eliche con il programma PHASER e modifica della densità con il programma SHELXE . Date le difficoltà nel discriminare le piccole sottostrutture corrette, molti gruppi presunti di frammenti devono essere testati in parallelo, quindi i calcoli vengono eseguiti in una griglia o in un supercomputer. Il metodo prende il nome dal pittore italiano Arcimboldo, che era solito comporre ritratti con frutta e verdura. Insieme a ARCIMBOLDO , la maggior parte delle raccolte di frammenti rimane una "natura morta", ma alcune sono sufficientemente corrette per la modifica della densità e il tracciamento della catena principale per rivelare il vero ritratto della proteina. Oltre le eliche α, altri frammenti possono essere sfruttati in modo analogo: librerie di eliche con catene laterali modellate, filamenti β, frammenti prevedibili come pieghe di legame al DNA o frammenti selezionati da omologhi distanti fino a librerie di piccoli pieghe locali che vengono utilizzate per rafforzare la struttura terziaria non specifica ripristinando così il dall'inizio natura del metodo. Usando questi metodi, sono state risolte un certo numero di macromolecole sconosciute con poche migliaia di atomi e risoluzioni intorno a 2 Å. Nella versione 2014 l'utilizzo del programma è stato semplificato. Il software media l'uso dell'elaborazione massiccia per automatizzare l'accesso alla rete richiesto in casi difficili, ma può anche essere eseguito su una singola workstation multicore (http://chango.ibmb.csic.es/ARCIMBOLDO_LITE) per risolvere casi semplici.

1. Introduzione

Sono passati cento anni da quando Max von Laue è stato insignito del Premio Nobel per la Fisica per la scoperta della diffrazione dei raggi X da parte dei cristalli (Friedrich et al. , 1912 von Laue, 1912). Da quella scoperta, la cristallografia è diventata uno strumento di indagine essenziale in tutte le scienze, poiché fornisce informazioni sulla struttura molecolare fino al livello atomico con un grado di dettaglio e accuratezza che non ha eguali in nessun'altra tecnica strutturale. La diffrazione dei raggi X è stata utilizzata per la prima volta dai Bragg per determinare la struttura tridimensionale dei cristalli (Bragg & 38 Bragg, 1913). In un esperimento di diffrazione vengono registrate solo le intensità dei fasci di raggi X diffratti, mentre le loro fasi non lo sono. Tuttavia, sono necessarie fasi per calcolare una mappa della densità elettronica da cui è possibile derivare un modello atomico. Fornire le fasi mancanti è stata una ricerca sin dall'inizio della cristallografia e la fasatura costituisce ancora un collo di bottiglia in molti studi cristallografici. Nel campo della cristallografia macromolecolare, le fasi iniziali sono di solito derivate o sperimentalmente da una sottostruttura di atomi di riferimento, intrinseca alla struttura o incorporata, e dati raccolti ad una o più lunghezze d'onda particolari (Hendrickson, 1991), o dalla collocazione nella struttura asimmetrica unità di un modello relativo alla struttura target (Rossmann, 1972). In cristallografia chimica, per strutture composte da meno di 200 atomi indipendenti, i metodi diretti (Hauptman & Karle, 1953 Karle & Hauptman, 1956) sono generalmente in grado di fornire un modello iniziale esclusivamente dalle intensità sperimentali misurate su un cristallo nativo . A differenza della cristallografia macromolecolare, non sono necessarie conoscenze stereochimiche precedenti o dati sperimentali aggiuntivi da cristalli modificati o lunghezze d'onda selezionate. I metodi diretti sono quindi chiamati dall'inizio metodi. Risolvono il problema delle fasi sfruttando le relazioni probabilistiche e la possibilità di valutare molti insiemi di fase di partenza attraverso cifre di merito affidabili. L'estensione dei metodi diretti a strutture più grandi di circa 1000 atomi indipendenti è stata realizzata con l'introduzione del Agitare e cuocere algoritmo (Miller et al. , 1993 ) attuate nei programmi SnB (Mugnaio et al. , 1994) e SHELXD (Noión & Sheldrick, 1999 ). La Fig. 1 mostra uno schema del Agitare e cuocere algoritmo (Sheldrick et al. , 2011). Partendo da un'ipotesi iniziale, solitamente un insieme di atomi generati casualmente, le fasi vengono calcolate e modificate secondo relazioni dirette di metodi. Le fasi modificate vengono utilizzate per calcolare una mappa della densità elettronica e un nuovo insieme di atomi viene selezionato dai massimi in questa mappa. In casi favorevoli, l'iterazione di questo processo porta a una soluzione strutturale, che può essere identificata da una figura di merito affidabile chiamata coefficiente di correlazione (CC) (Fujinaga & Read, 1987). Va notato che tutti i passaggi della procedura descritta impongono l'atomicità come vincolo: l'insieme di fasi iniziale è calcolato da un modello atomico (casuale), la formula tangente e la funzione minima sono derivate dall'atomicità e le mappe calcolate sono interpretate selezionando atomi da cui calcolare un nuovo insieme di fasi. Non sorprende quindi che tali metodi fossero limitati dal requisito dei dati di risoluzione atomica. La tabella 1 riassume le strutture precedentemente sconosciute con più di 300 atomi indipendenti che sono stati risolti dall'inizio usando SHELXD . Sorprendentemente, la tabella presenta un gran numero di macromolecole non standard, come antibiotici o grandi peptidi ricchi di disolfuro per i quali i metodi proteici classici non hanno fornito un'alternativa adeguata in quanto né modelli adatti né modi semplici di derivatizzazione erano un'opzione. Ad esempio, la struttura dell'antibiotico vancomicina era attesa da tempo, poiché la sua cristallizzazione era stata descritta molti anni prima che una soluzione fosse ottenuta in modo indipendente con SHELXD (Schäfer et al. , 1996 ) e SnB (Loll et al. , 1997 ).

Tabella 1
Alcune strutture precedentemente sconosciute risolte usando SHELXD


Figura 1
Riciclo dual-space Agitare e cuocere algoritmo per dall'inizio fasatura a risoluzione atomica.

Le strutture macromolecolari che diffrange alla risoluzione atomica (1,2 Å o oltre) sono piuttosto un'eccezione [meno del 2,5% delle voci nel PDB (Bernstein et al. , 1977 Berman et al. , 2000 )]. Un generale dall'inizio Il metodo graduale dovrebbe anche essere in grado di affrontare i casi di risoluzione inferiore. Tuttavia, è possibile trarre una serie di esperienze utili dai casi di risoluzione atomica ed esportarle nell'applicazione a risoluzione inferiore. Alcune delle strutture risolte dall'inizio insieme a SHELXD richiedeva la posizione di un piccolo frammento di geometria nota per generare l'ipotesi iniziale, piuttosto che affidarsi a un insieme di atomi totalmente casuali. Ad esempio, il cicloamilosio CA26, nel triclino P 1 modulo (Gessler et al. , 1999 ) o nell'ortorombica P 2 1 2 1 2 1 forma (Nimz et al. , 2004 ), visualizzato nelle Figg. 2 ( un ) e 2( B ) rispettivamente, potrebbero essere risolti solo ottimizzando localmente il posizionamento casuale di un frammento di diglucosio per seminare il Agitare e cuocere procedura. Allo stesso modo, la struttura di hiru­stasin (Usón et al. , 1999 ), mostrato in Fig. 2 ( C ), potrebbe essere risolto non solo dai dati originali 1.2 Å, ma anche da un set di dati 1.4 Å individuando inizialmente la sottostruttura costituita dai dieci atomi di zolfo nei suoi cinque ponti disolfuro allo stadio dove l'algoritmo lavora sui dati normalizzati più forti ed estende questa sottostruttura attraverso l'interpretazione iterativa della mappa contro tutti i dati. I benchmark sulle strutture di test hanno mostrato che un gran numero di cicli potrebbe portare a una soluzione anche spegnendo la parte dei metodi diretti dell'algoritmo, cioè senza alcuna modifica nella fase dello spazio reciproco (Sheldrick et al. , 2011). Infatti, il semplice riciclo della fase di interpretazione della mappa, attraverso il prelievo di atomi e l'omissione casuale di un terzo di essi, è stato in grado di risolvere la struttura del test a 317 atomi della gramicidina A (Langs, 1989).


figura 2
Strutture del cicloamilosio CA26 (ciclomaltoesaicosasio) in gruppi spaziali ( un ) P 1 e ( B ) P 2 1 2 1 2 1 . Queste strutture sono state risolte a partire da un frammento di diglucosio posizionato in modo casuale e ottimizzato localmente. Diverse località di partenza hanno portato alla stessa soluzione finale. ( C ) Struttura dell'irustasina, risolta individuando prima la sottostruttura costituita dai dieci atomi di zolfo nei cinque ponti disolfuro ed espandendosi da quel punto all'intera struttura.

Nei metodi di riciclaggio dual-space, non tutti i tentativi di mettere in fase una data struttura si traducono in una soluzione. SHELXD persegue molte ipotesi di partenza e mantiene il miglior risultato finora, per casi particolarmente difficili possono essere necessarie molte prove per produrre una soluzione di successo, ad esempio ci sono voluti 25� gruppi iniziali di atomi per ottenere una soluzione di polyA RNA (Safaee et al. , 2013). L'approccio multisoluzione richiede un modo efficace per identificare soluzioni di successo o suscettibili di essere migliorate, poiché non è possibile esaminare tutte le mappe di densità elettronica oi modelli atomici risultanti. Il coefficiente di correlazione (CC) calcolato su tutti i dati è affidabile quando sono disponibili dati di risoluzione atomica, ma a una risoluzione inferiore, tutte le raccolte casuali di un numero sufficiente di atomi non vincolati mostrano valori CC ugualmente elevati.Anche la risoluzione atomica e la completezza dei dati si sono rivelate essenziali per la fase con il programma SnB (Xu et al. , 2000). L'estrapolazione per includere i dati non misurati è stata introdotta da Giacovazzo (Caliandro et al. , 2005 un ) per migliorare i dati sperimentali quando queste condizioni non sono state soddisfatte e il suo uso è stato incorporato nel dall'inizio caso di fasi (Caliandro et al. , 2005 B ). La presenza di atomi più pesanti dello zolfo, sotto forma di metalli intrinseci o controioni, è anche vantaggiosa portando alla risoluzione di strutture più grandi, come un citocromo c3 con 2208 atomi, inclusi otto atomi di Fe (Frazao et al. , 1999). Questo vantaggio è stato sfruttato in dall'inizio graduale attraverso un uso sofisticato della funzione Patterson (Caliandro et al. , 2008 ).

Circa la metà (48%) delle strutture cristalline depositate nel PDB diffrange a 2 Å o meglio. Pertanto, an dall'inizio sarebbe di interesse generale un metodo graduale efficace fino a tale risoluzione. L'approccio alla base del ARCIMBOLDO metodo è strutturato intorno alle seguenti idee. Per rompere la dipendenza dalla risoluzione atomica, dovrebbe essere strumentale sostituire l'imposizione dell'atomicità con quella della conoscenza stereochimica di unità più grandi. In pratica, la fasatura dovrebbe essere vincolata da frammenti, piuttosto che da atomi. Inoltre, invece di prelevare atomi per interpretare una mappa, la modifica della densità produrrebbe un miglioramento efficace a una risoluzione inferiore. Giacovazzo et al . hanno ampiamente sviluppato questo aspetto nel loro algoritmo VLD (Burla et al. , 2011, 2012). Iniziare la fase da una sottostruttura piccola ma altamente accurata nel contesto di GHIANDA è stato segnalato per essere notevolmente efficace (Yao et al. , 2005 , 2006 ) e i nostri test hanno confermato questa scoperta, solo il 10% degli atomi della catena principale è sufficiente per risolvere una struttura a 2 Å. Anche in questo caso, l'interpretazione automatica delle mappe modificate sotto forma di tracciato della catena principale del peptide vincola la fase verso la soluzione corretta e allo stesso tempo fornisce una cifra di merito affidabile. Considerando che il CC per una raccolta sfrenata di atomi può anche essere elevato per una sottostruttura errata, una traccia errata può essere chiaramente distinta da una corretta con una stereochimica sensibile a risoluzioni fino a 2.0 Å. Fino a questo punto, dove l'autotraccia identifica una soluzione, potrebbe non essere possibile discriminare le soluzioni parzialmente corrette da quelle errate. Ciò impone la necessità di calcolare molte ipotesi diverse e di svilupparle fino a una fase in cui è possibile identificare il successo, comportando una grande richiesta di tempo di CPU. Il processo è facile da parallelizzare e la distribuzione delle attività su una grande griglia o supercomputer è stato un elemento essenziale di questo metodo.

Il presente lavoro si occupa di approcci alle strutture di fase dall'inizio sostituendo la necessità di risoluzione atomica con la conoscenza stereochimica attraverso frammenti di struttura secondaria e pieghe locali.

2. ARCIMBOLDO

Basandosi sull'esperienza di riciclaggio del doppio spazio di risoluzione atomica, l'idea centrale nel nostro approccio per superare la barriera di risoluzione ed estendere l'ambito di dall'inizio il passaggio a risoluzioni fino a 2 Å doveva sostituire i vincoli di atomicità con l'imposizione di una struttura secondaria. Piuttosto che iniziare la fase da una raccolta di atomi, i frammenti del modello della struttura secondaria verrebbero posizionati casualmente e la loro posizione iniziale ottimizzata localmente o alternativamente localizzata con il programma PHASER (McCoy et al. , 2007). Invece di migliorare le fasi attraverso la formula della tangente e interpretare come atomi i massimi nelle mappe di densità elettronica prodotte, le mappe sarebbero migliorate con tecniche di modifica della densità e le mappe migliorate sarebbero interpretate in termini di catena principale con il programma SHELXE (Sheldrick, 2002). L'autotracciamento della catena principale fornirebbe a sua volta una figura di merito affidabile alla risoluzione proposta (Sheldrick, 2010). Il CC che caratterizza la traccia è nettamente più alto per tracce corrette piuttosto che per tracce errate (Thorn & Sheldrick, 2013). La Fig. 3 mostra uno schema di questo approccio. Abbiamo chiamato il metodo dopo il pittore del XVI secolo Arcimboldo, che assemblava ritratti con oggetti come frutta e verdura. La nostra ipotesi di partenza assembla strutture parziali da frammenti di strutture secondarie e, se sufficientemente corretta, la modifica della densità riesce a rivelare il ritratto della nostra proteina, espandendosi fino a una struttura quasi completa. Poiché la maggior parte delle nostre prove rimane una "natura morta", il metodo richiede un'elaborazione estesa. Fortunatamente, i calcoli possono essere facilmente suddivisi in piccoli compiti e distribuiti su una griglia di computer o un supercomputer.


Figura 3
ARCIMBOLDO algoritmo per dall'inizio phasing con frammenti di modello con risoluzione fino a 2 Å.

2.1. α -Eliche come frammenti ideali

L'ovvio frammento ideale da cui partire era quello composto dagli atomi della catena principale di un'elica regolare α. Sono stati utilizzati per la ricerca stocastica multidimensionale, rappresentando meno del 13% del numero totale di atomi per frammento (Glykos & 38 Kokkinidis, 2003). α -Le eliche sono quasi onnipresenti poiché l'80% delle strutture depositate nel PDB contiene almeno uno degli oltre 12 residui. Sono anche costanti nella loro geometria, così che un'elica di 14󈝼 residui si adatterà alla catena principale di quasi tutte le eliche su qualsiasi struttura con un valore efficace. inferiore a 0,3 Å. Piuttosto rigide, le eliche avranno spesso un basso B valori rispetto al resto della struttura. Infine, non lo avevamo previsto ma probabilmente traiamo un ulteriore vantaggio dal loro essere periodici, che dà origine a tratti caratteristici della funzione di Patterson (Caliandro et al. , 2012). La prima struttura sconosciuta risolta da ARCIMBOLDO , era quello del PRD2, contenente 220 amminoacidi nell'unità asimmetrica e diffratto ad una risoluzione di 1.95 Å (Rodríguez et al. , 2009). Una soluzione è stata raggiunta nel caso di tre delle 1467 strutture parziali che combinano tre eliche della catena principale di 14 alanine. Da allora, come si può vedere nella Tabella 2, almeno 18 nuove strutture sono state risolte da eliche. Dalla prima implementazione a "forza bruta" che ha generato un gran numero di strutture parziali e ha tentato di espanderne il maggior numero possibile per una data configurazione di risorse di calcolo, l'esame dei risultati intermedi ha consentito un controllo più razionale del processo. La Fig. 4 illustra le fasi della soluzione della miosina Vb a 2.07 Å (Nascimento et al. , 2013). Fig. 4 ( un ) visualizza il SHELXE mappa della densità elettronica risultante dopo il posizionamento di una singola elica, la modifica della densità e l'autotracciamento. Oltre all'elica posizionata correttamente visualizzata, la mappa ancora molto rumorosa, caratterizzata da un errore di fase medio (MPE) di 73°, mostra la densità elettronica intorno ad alcuni punti in cui dovrebbero essere le eliche mancanti. Fig. 4 ( B ), dopo il posizionamento di una seconda elica, visualizza una mappa più corretta con un MPE di 68°, dove le caratteristiche corrette nella struttura iniziano ad emergere ma non si sviluppano in una struttura completa. Fig. 4 ( C ), dopo il posizionamento di una terza elica produce una mappa iniziale di 63° MPE il cui riciclaggio, mostrato in Fig. 4 ( D ), porta alla costruzione di più di due terzi della catena principale e a una mappa finale di 42° MPE, in cui diventa evidente anche la densità elettronica per alcune delle catene laterali.

Tavolo 2
Strutture precedentemente sconosciute risolte usando ARCIMBOLDO e Borges

Vedere il testo per informazioni sulle strutture contrassegnate con *.


Figura 4
Evoluzione graduale nella soluzione di miosina Vb (PDB ID 4j5m). I quattro pannelli mostrano il Dm F oF C mappe sagomate a 1 σ calcolate dopo il posizionamento di successive eliche di 22 alanine e nella fase finale. Per ogni pannello sono riportati gli errori medi iniziali di fase, CC per la sottostruttura di partenza e il numero di residui tracciati. ( un ) Dopo il posizionamento di un'elica di 22 amminoacidi, CC iniziale è 7,21% e wMPE è 73,4°, 64 residui ( B ) dopo il posizionamento di due eliche di 22 amminoacidi, CC iniziale è 10,0% e wMPE è 68.0°, 76 residui ( C ) dopo il posizionamento di tre eliche di 22 amminoacidi, CC iniziale è 12,7% e wMPE è 62,7°, 127 residui ( D ) soluzione finale, CC iniziale è 26,6% e wMPE è 53,4°, 241 residui tracciati e wMPE finale è 42°. La figura è stata preparata con PyMOL .
2.1.1. Rotazione delle eliche

Data una proteina tutta elicoidale, è interessante esaminare se tutte le eliche sono rappresentate o meno nelle soluzioni parziali, come le soluzioni indipendenti sono al primo stadio di un PHASER ricerca a rotazione (Storoni et al. , 2004) e come si sviluppano man mano che procede la ricerca di ulteriori frammenti. Consideriamo alcuni casi rappresentativi, mostrati in Fig. 5 . Per la proteina PRD2 (PDB ID 3gwh ) sopra descritta, contenente 220 amminoacidi che coinvolgono dieci tratti elicoidali di lunghezze comprese tra 10 e 20 amminoacidi, sono disponibili dati di diffrazione a 1,95 Å. Una ricerca a rotazione a piena risoluzione produce 42 soluzioni entro il 75% del valore massimo del guadagno di verosimiglianza log (LLG). Possono essere raggruppati entro una tolleranza di 15° in sei rotazioni indipendenti, tenendo conto della simmetria del gruppo spaziale. Quattro dei sei cluster corrispondono a eliche nella struttura, i restanti due hanno errori come la mappatura alla rotazione che rappresenta un'elica più piccola del frammento di ricerca o grandi deviazioni dalla rotazione geometricamente più vicina corrispondente a un'elica nella struttura vera. Fig. 5 ( un ) visualizza la struttura PRD2, che rappresenta le quattro rotazioni correttamente identificate sovrapposte alle loro corrispondenti posizioni corrette. In questa struttura, 41 tratti sovrapposti sono compatibili con un'elica modello lunga 14 amminoacidi, con un valore r.m.s.d. compreso tra 0,29 e 0,36 Å. Calcolo dei valori LLG con la modalità MR_GYRE in PHASER ci permette di classificare quelle eliche che hanno i migliori punteggi della funzione di rotazione e potrebbero quindi essere localizzate. I risultati sono stati codificati con i colori dell'arcobaleno, il blu rappresenta i valori più alti e il rosso i valori LLG più bassi. Come si può vedere in Fig. 5 ( un ), tre delle possibili eliche nella struttura presentano valori LLG di rotazione molto più bassi, essendo la loro posizione altamente improbabile poiché i loro valori LLG non rientrano nel limite del 75%.


Figura 5
Strutture di ( un ) PRD2 (ID PDB 3gwh ), ( B ) Lv -ranaspumin (4k82 ) e ( C ) eIF5 (2iu1 ) nella rappresentazione a fumetti. Le eliche di 14 amminoacidi o più sono codificate con uno schema arcobaleno per rappresentare il valore LLG della funzione di rotazione che caratterizza ciascuna delle possibili eliche che possono essere montate. Il blu indica un valore LLG alto e il rosso uno basso. Le eliche la cui rotazione è stata trovata in una ricerca alla massima risoluzione (soglia, 75% del massimo) sono rappresentate come bastoncini magenta. La figura è stata preparata con Folaga e PyMOL .

La proteina eIF5 (Bieniossek et al. , 2006 ) (ID PDB 2iu1 ), visualizzato in Fig. 5 ( B ), contiene 179 amminoacidi in 11 tratti elicoidali di lunghezze comprese tra sette e 21 amminoacidi e per i quali sono disponibili dati di diffrazione a 1.7 Å. Una ricerca di rotazione a piena risoluzione produce 25 picchi entro il 75% del valore LLG superiore, che può essere raggruppato in quattro cluster, due dei quali corrispondono a vere eliche con un valore efficace. inferiore a 0,3 Å.

Per Lv -ranaspumin (Hissa et al. , 2014 ) (PDB ID 4k82 ) a 1.7 Å, tutti e 26 i picchi di rotazione corrispondono alla stessa elica corretta nella struttura finale, un secondo cluster mostra un r.m.s.d. di 1.26 Å all'elica reale più vicina.

In sintesi, non tutte le eliche di una struttura sono rappresentate equamente in una ricerca di rotazione, anche riducendo la fase di campionamento. Eliche lunghe con basso B i valori in particolare sembrano essere localizzati con maggiore successo.

2.1.2. Traduzione di helice

Una ricerca di traduzione (McCoy et al. , 2005 ) richiede rotazioni altamente accurate per avere successo, ma a volte è inaspettatamente in grado di accogliere errori come lo spostamento di un'elica da parte di uno o più residui che cadono al di fuori dell'elica correttamente posizionata o un'elevata deviazione locale purché il nucleo del modello posizionato è molto preciso. Nei tre casi descritti, la traslazione corretta si trova per metà delle eliche dove era riconoscibile una rotazione corretta, in particolare quei casi in cui la rotazione era più precisa.

2.1.3. Eliche con catene laterali

Qualsiasi modello in formato PDB può essere specificato come frammento di ricerca. La nostra prima implementazione (Rodríguez et al. , 2012) prevedeva di valutare librerie di modelli alternativi rispetto alla funzione di rotazione e di procedere con il miglior punteggio in termini di rotazione LLG o Z punto. I test hanno mostrato che era possibile selezionare l'elica con le catene laterali impostate sui conformeri più vicini per favorire la fase utilizzando modelli più completi. L'uso delle librerie si è spostato nell'attuale implementazione al trattamento più sofisticato nel ARCIMBOLDO_BORGES modalità spiegata di seguito. Eliche con catene laterali come frammenti sono state utilizzate con successo nella prima soluzione di una struttura a spirale atrogina muscolare (Franke et al. , 2014 ) ma la versione attuale riesce anche da frammenti di polialanina.

2.2. β -Fili

La geometria di β -strands è intrinsecamente più varia, come si può apprezzare da uno sguardo a un tipico diagramma Ramachandran (Ramachandran et al. , 1963). Tutti gli amminoacidi nelle eliche α si trovano in un intervallo molto ristretto di angoli φ, ψ attorno alla regione preferita 󔽇.8°, 󔼱.1°. Ben il 40% di tutti gli amminoacidi si trova in questa regione più popolata, coprendo solo il 2% della trama di Ramachandran. La regione del foglio β è chiaramente suddivisa in due regioni distinte e le deviazioni standard attorno ai due massimi sono pari a 20° per gli amminoacidi non prolina e non glicina (Hovmöller et al. , 2002 ).

La struttura della proteina di immunità della colicina dimerica CMI (Usón et al. , 2012 ) da Escherichia coli contiene 115 amminoacidi nell'unità asimmetrica e la sua piega mostra un foglio di quattro filamenti β antiparalleli e tre eliche, la più lunga comprendente 26 residui. Dati di diffrazione nel gruppo spaziale C 222 1 sono disponibili con una risoluzione di 1.8 Å. Questa piccola proteina è stata usata come test per cercare di risolverla da un modello elicoidale o da un equivalente β -strand. La ricerca di un'elica di polialanina modello lunga nove amminoacidi risolve la struttura, mentre va notato che le eliche di ricerca tipiche sono solitamente più lunghe. Al contrario, nemmeno il filamento più lungo nella struttura che copre nove residui (da 97 a 105) potrebbe essere utilizzato con successo, includendo anche le catene laterali nella loro vera conformazione. Un modello così perfetto è impossibile da prevedere e quindi i fili del modello isolati sono di uso limitato. Nonostante la maggiore variabilità nella conformazione del filamento, la loro associazione in una piega del foglio tende ad essere più costante, poiché coinvolge i legami idrogeno della catena principale piuttosto che i contatti mediati dalla catena laterale che collegano le eliche vicine. La struttura può essere risolta da un modello perfetto a doppio filamento, indicando che le piccole pieghe locali dovrebbero fornire un modello di ricerca migliore per i fogli β rispetto all'affidarsi a filamenti isolati.

2.3. Frammenti che legano il DNA

Piccole pieghe locali possono essere previste con sufficiente precisione per fornire modelli adeguati. Chiaramente, un tale approccio implica l'uso di precedenti conoscenze strutturali particolari della macromolecola da stadizzare e non può essere considerato un dall'inizio metodo, a meno che l'elica del DNA non sia sufficiente come frammento di ricerca in un ruolo analogo a quello dell'elica α. Gli elementi della struttura secondaria dell'RNA sono stati utilizzati come frammenti di ricerca multipli in un metodo efficace, combinando la sostituzione molecolare (MR), l'ispezione manuale della mappa, il perfezionamento, la modifica della densità e le mappe composite-omit (Robertson & 38 Scott, 2008 Robertson et al. , 2010). Al fine di consentire la soluzione della struttura con ARCIMBOLDO , abbiamo suggerito di sfruttare i modelli specifici delle proteine ​​che legano il DNA per generare database di motivi strutturali conservati (Pröpper et al. , 2014). Le librerie precalcolate possono essere scaricate dal nostro sito web (http://chango.ibmb.csic.es/dna ) o calcolate al volo per assomigliare strutturalmente a un modello PDB di input.

3. trituratore

In modo analogo, se si conosce un omologo remoto ma la risonanza magnetica fallisce, accade frequentemente che parte della struttura bersaglio assomigli al modello di ricerca nella sua piega. Esistono metodi sofisticati per prevedere dalle statistiche di sequenza e struttura come ritagliare e modificare un tale modello per produrre modelli di ricerca RM Questi implicano approcci per la ponderazione, il miglioramento e la combinazione del modello come quelli trovati in Scultore (Cuccettaóczi & Leggi, 2011), mrtailor (Gruene, 2013), SCEDS (McCoy et al. , 2013 ) o Ensembler (Cuccettaóczi et al. , 2013). Un potenziale approccio sarebbe quello di estrarre tutti i tipi di possibili piccoli frammenti dal modello dell'omologo distante e usarli come modelli di ricerca all'interno ARCIMBOLDO . Il numero di ipotesi strutturali ragionevoli diventa molto grande e quindi l'algoritmo in ARCIMBOLDO_SHREDDER è stato progettato per selezionare i migliori modelli di ricerca mediante ottimizzazione rispetto ai dati di diffrazione sperimentali, piuttosto che sulle aspettative basate sulla conoscenza precedente. La valutazione di ogni residuo nel template viene effettuata attraverso l'analisi della funzione Shred-LLG, combinando i risultati LLG di una serie di funzioni di rotazione (Storoni et al. , 2004 ) calcolato su modelli sistematicamente triturati (Sammito et al. , 2014). Alcuni modelli risultanti dall'omissione di tutte le campate meno adatte, come indicato dai valori della funzione Shred-LLG, vengono utilizzati come ARCIMBOLDO frammenti di ricerca

4. Borges

In assenza di conoscenze specifiche, ci aspetteremmo che qualsiasi struttura sconosciuta contenga pieghe locali già viste nel PDB, ma come potremmo recuperare e sfruttare queste informazioni? Il nostro programma Borges è stato sviluppato per identificare, recuperare e sfruttare la struttura terziaria non specifica attraverso librerie di frammenti (Sammito et al. , 2013). Il database PDB contiene una grande quantità di informazioni e per qualsiasi struttura sconosciuta, dati frammenti abbastanza piccoli, come la catena principale di due eliche o tre filamenti in una particolare disposizione, modelli simili con una precisione che sfiora 0,5 Å r.m.s.d. sono tenuti a verificarsi in alcune delle voci depositate. In analogia all'infinita "Biblioteca di Babele" di Borges che conteneva libri con tutte le combinazioni casuali di lettere e quindi racchiudeva ogni possibile libro, i modelli parziali necessari per mettere in fase una struttura attraverso la ricerca di frammenti e la modifica della densità avrebbero già dovuto essere descritti all'interno di altre strutture depositate nel PdB. A differenza della `biblioteca di Borges', il PDB non è casuale e contiene in tutti i tipi di contesti strutturali solo unità strutturali significative. Inoltre, il nostro metodo di phasing richiede frasi piccole piuttosto che volumi completi, ovvero deve trovare e utilizzare una piccola frazione di una catena principale perfetta e non una descrizione completa della struttura. Ciò costituisce un approccio alternativo ai metodi di grande successo che combinano dall'inizio modellazione di una struttura quasi completa da utilizzare per la sostituzione molecolare, come RosettaMR (DiMaio et al. , 2011 ), AMPIO (Bibby et al. , 2012) o l'attuazione del gruppo Zhang (Shrestha et al. , 2011 ).

Sfruttare pieghe locali non specifiche in an dall'inizio approccio, piuttosto che frammenti di struttura secondaria, aumenta significativamente le dimensioni del problema di ricerca. La precisione richiesta è inferiore a 0,6 Å r.m.s.d. e in assenza di un'ipotesi sulla piega, alcune deboli indicazioni possono essere derivate dalla funzione di Patterson e dalla previsione della struttura secondaria, ma alla fine devono essere provate librerie delle pieghe locali più frequenti. Il punteggio di librerie ridotte o ipotesi alternative, come tre filamenti antiparallelo/parallelo/parallelo–antiparallelo dello stesso numero di amminoacidi viene eseguito per stabilire un ordine. Se non viene fornita alcuna indicazione chiara, si tenta per primo il caso più frequente (in questo caso antiparallelo). È essenziale per il metodo, fornire gradi di libertà interni ai modelli della libreria, raffinandoli rispetto ai dati sperimentali in due delle fasi. La Fig. 6 mostra uno schema del ARCIMBOLDO_BORGES metodo (http://chango.ibmb.csic.es/BORGES ). Per accelerare l'estrazione del modello, viene precalcolato un database che annota le strutture PDB tramite vettori che descrivono la geometria della catena principale e le caratteristiche strutturali utili. I modelli estratti da questo database per corrispondere a una descrizione geometrica all'interno di una determinata tolleranza vengono prima raggruppati geometricamente e quindi nuovamente raggruppati attraverso i risultati di una funzione di rotazione. Nel processo di fasatura, ai modelli vengono assegnati gradi di libertà interni e perfezionati rispetto alla funzione di rotazione, prima di procedere alla ricerca della traslazione, al filtraggio dell'imballaggio e al raffinamento del gruppo rigido. Ancora una volta, il taglio del modello per ottimizzare il coefficiente di correlazione viene utilizzato per valutare le ipotesi prima della modifica della densità e dell'autotracciamento. Parallelamente viene perseguito il riciclo delle fasi di rotazione e traslazione del frammento da un modello raffinato, al fine di correggere eventuali soluzioni pseudotradotte (Caliandro et al. , 2007). Il metodo delineato riesce a risolvere la struttura CMI descritta in ڈ.2, da un foglio β a tre filamenti antiparallelo comprendente la catena principale di 13 amminoacidi. La soluzione da un singolo filo perfetto non era possibile. Allo stesso modo, anche tutte le strutture di test β possono essere risolte in questo modo. La tabella 2 contiene tre strutture precedentemente sconosciute che sono state risolte con Borges .


Figura 6
ARCIMBOLDO_BORGES implementazione. Lo schema riassume i passaggi della procedura. PHASER le operazioni sono stampate in blu e SHELXE quelli su sfondo blu. Borges le operazioni sono stampate in rosso. Partendo da un modello modello, viene creata una libreria di pieghe equivalenti e raggruppate geometricamente. Per ogni cluster viene calcolata una ricerca a rotazione a 2 Å. I modelli sono disassemblati e ottimizzati localmente in P 1 con PHASER . I picchi sono raggruppati geometricamente, entro una tolleranza di 15°. La posizione dei frammenti e la modifica della densità e l'autotracciamento vengono perseguiti per ciascun modello.

5. Attuazione

L'approccio multisoluzione alla base di questo metodo richiede un'elaborazione massiccia, specialmente in casi difficili. Non essere in grado di individuare soluzioni parziali corrette nelle fasi iniziali impone la necessità di inoltrare tutte le prove alla fase successiva e di cercare di svilupparle in una soluzione completa. Per completare i calcoli in un lasso di tempo pratico, il processo è suddiviso in molte attività indipendenti e distribuito su un pool di computer o un supercomputer. La nostra prima implementazione ha semplicemente inviato tutti i calcoli a una griglia. Condor (Tannenbaum et al. , 2002) è stato scelto in quanto ideale per gestire un pool eterogeneo e consente di personalizzare in modo flessibile l'uso delle risorse, fornendo un controllo robusto, garantendo che ogni lavoro venga riallocato se uno dei nodi di calcolo lascia il pool o un lavoro viene sfrattato prima del completamento. Sfortunatamente, questo middleware sofisticato e potente richiede competenze informatiche più specifiche e dedizione alla sua installazione e manutenzione rispetto a quelle che possono essere normalmente allocate in un laboratorio cristallografico. Pertanto, nonostante Condor sia popolare in altre comunità, il suo uso non è molto diffuso nel campo della cristallografia macromolecolare. Nel corso dell'ultimo anno, il programma è stato completamente riscritto poiché l'esperienza con la prima implementazione ha consentito la progettazione di un algoritmo migliorato. Inoltre, ha beneficiato dei recenti progressi in PHASER (Oeffner et al. , 2013 Leggi et al. , 2013), consentendo una discriminazione molto accentuata di soluzioni parziali potenzialmente corrette. La nuova versione ha semplificato il requisito del middleware ed eliminato il requisito originale di Condor a favore di una scelta più ampia di middleware, un accesso automatico più semplice ai pool di computer e, infine, anche una versione progettata per funzionare su una singola macchina.

5.1. Implementazione centrale su una workstation con accesso a un pool

La dipendenza dal middleware ha costituito un ostacolo nell'uso del nostro metodo. Per ridurlo, abbiamo separato l'uso integrato di Condor in una modalità operativa più semplice e flessibile, come illustrato in Fig. 7 . L'implementazione completa, progettata per lavorare con grandi librerie di modelli strutturali estratti dall'intero PDB, si basa su un database in cui la workstation carica o recupera le informazioni della libreria. Tutti i processi fondamentali per una corsa si svolgono su una singola workstation, dove tutti i file rilevanti saranno visibili, in modo che l'utente mantenga il controllo durante tutto il processo. Il programma indirizza automaticamente i calcoli pesanti a un pool locale o remoto in cui è stato configurato l'accesso. In questo modo, l'accesso a una rete o a un supercomputer deve essere configurato solo al momento dell'installazione. Tutto ciò di cui l'utente ha bisogno è che sia stato concesso un nome utente e una password o una chiave di accesso. L'allocazione di spazio e risorse nel pool di elaborazione sarà sfruttata come configurato dal gestore di sistema o può essere ulteriormente gestita nel ARCIMBOLDO installazione per tenere conto di più utenti in esecuzione con un singolo account su un pool locale o remoto. Attualmente, oltre a Condor, sono supportati SGE/Opengrid (Gentzsch, 2001), Torque e MOAB. In questo modo, il ARCIMBOLDO l'utente non ha bisogno di essere coinvolto o addirittura di percepire il supercalcolo in atto. File di input, file di output, interpretazione e diagnostica sono tutti visibili e aggiornati sulla workstation locale. Una pagina HTML centralizza la visualizzazione dei risultati e si collega alla migliore mappa e traccia se la struttura sembra essere stata risolta. Il programma dipende da dati adeguati nei formati mtz e hkl, nonché da particolari versioni di PHASER (attualmente 2.5.6) e SHELXE (più recente). Un controllo iniziale di questi requisiti può bloccare una corsa se viene percepita come destinata al fallimento. Ad esempio, ARCIMBOLDO non verrà eseguito se la risoluzione dei dati è inferiore a 2.5 Å.


Figura 7
ARCIMBOLDO–BORGES implementazione. Il lavoro è controllato da un'unica workstation, dove sono accessibili output e risultati intermedi. Per Borges , è necessario accedere a una libreria locale o remota, che può essere condivisa da più utenti. L'accesso alle risorse informatiche è configurato fornendo un nome utente e una chiave di accesso al sistema da sfruttare. Il programma scarica automaticamente i calcoli pesanti su pool di griglia locali o esterni o su un supercomputer.

5.2. Implementazione su singola macchina: ARCIMBOLDO_LITE

Anche la necessità di accedere a un pool di computer e installare il middleware richiesto è percepita da molti cristallografi come dispendiosa in termini di tempo e di facile utilizzo. L'analisi dei casi di successo passati e dei casi di test ci ha permesso di proporre una procedura minima che ridurrebbe significativamente il calcolo e di conseguenza sarebbe in grado di funzionare su una singola macchina multicore. Il flusso di ARCIMBOLDO_LITE è visualizzato in Fig. 8 . Il frammento di ricerca è in genere un'elica del modello di lunghezza selezionata fornita internamente, sebbene qualsiasi altro modello possa essere specificato tramite un file PDB. Tutto PHASER i calcoli vengono eseguiti per primi e un numero limitato di SHELXE le espansioni saranno tentate sulle sottostrutture con il punteggio migliore, non necessariamente più grandi. La procedura è dimensionata in base al numero di core fisici, quindi una corsa su una macchina con più core non funzionerà semplicemente più velocemente, ma tenterà di sviluppare strutture più parziali in una soluzione. ARCIMBOLDO_LITE è distribuito come singolo binario per Linux o MacOS e può essere scaricato da http://chango.ibmb.csic.es/ARCIMBOLDO . L'esecuzione richiede un singolo file di istruzioni contenente un input minimo poiché sono forniti valori predefiniti adeguati per la maggior parte dei parametri. L'utente deve specificare il percorso dell'ultima PHASER e SHELXE versioni, il nome dei file di dati di diffrazione in SHELX (Sheldrick, 2008) hkl e PCC 4 (Vincere et al. , 2011) mtz, la composizione unitaria asimmetrica della struttura di destinazione, nonché la lunghezza dell'elica e il numero di copie da localizzare.


Figura 8
ARCIMBOLDO_LITE flusso. Dal frammento(i) dato(i), all PHASER le operazioni vengono calcolate per prime e solo tante soluzioni parziali con punteggio migliore quanti sono i core disponibili vengono espanse attraverso la modifica della densità e l'autotracciamento.
5.2.1. Strutture di prova risolte con ARCIMBOLDO_LITE

La struttura di S100A4 in complesso con il peptide miosina-IIA non muscolare (PDB ID 4eto) è stata utilizzata per eseguire benchmark per ARCIMBOLDO_LITE su varie distribuzioni Linux e hardware. Il P 2 1 la struttura per la quale sono disponibili dati a 1.54 Å contiene 202 residui nell'unità asimmetrica. La struttura è stata risolta cercando quattro eliche di 14 alanine ciascuna, impiegando da una a due ore su macchine con installazioni Debian, Ubuntu o SUSE Linux, con i7 o da quattro a otto core Xeon, un minimo di 2/8197 GB di RAM per core. Anche una versione di MacOS in esecuzione sulla distribuzione Mavericks è stata testata con risultati equivalenti.

Alcuni dei casi precedentemente segnalati di ARCIMBOLDO la soluzione della struttura è stata riprodotta anche con questa versione stand­alone. Sono contrassegnati nella tabella 2 con un asterisco. Questo comprende in particolare, 4e1p , 3gwh , 4k82 , 4m3l , 4bjs (Shi et al. , 2013 ), e due strutture ancora inedite. Inoltre, due strutture precedentemente sconosciute sono state prima sviluppate con questa implementazione.

Recentemente, una struttura precedentemente sconosciuta con 130 residui e dati di diffrazione a 1.5 Å è stata risolta usando ARCIMBOLDO_LITE dal gruppo guidato dalla professoressa Carine Tisné presso l'Università Cartesio di Parigi.

6. Prospettive

Dall'inizio phasing sfruttando piccoli frammenti per rafforzare la struttura secondaria e terziaria ha permesso la soluzione di casi comprendenti diverse centinaia di amminoacidi nell'unità asimmetrica, con risoluzioni fino a 2.1 Å, che erano al di fuori dell'ambito dei metodi precedenti in termini di limiti di risoluzione e dimensioni. Una ventina di strutture precedentemente sconosciute risolte da ARCIMBOLDO e Borges nelle sue varie modalità è visualizzato nella Tabella 2 . L'incorporazione di varie fonti di conoscenza precedente in questa cornice consente un ulteriore allentamento di alcuni dei limiti. L'uso del raffinamento all'interno delle procedure delineate e la concessione ai modelli di gradi di libertà aggiuntivi aumenta il raggio di convergenza del metodo. Considerare tutti i risultati parziali congiuntamente, piuttosto che come prove isolate, aumenta l'efficienza e può essere sfruttata in implementazioni più economiche, appropriate per una singola macchina multicore.

Note a piè di pagina

‡Questi autori hanno contribuito in egual modo.

Ringraziamenti

Questo lavoro è stato sostenuto dalle sovvenzioni BFU2012-35367 e IDC-20101173 (Ministero spagnolo dell'Economia e della Competitività) e Generalitat de Catalunya (2009SGR-1036). Ringraziamo Randy Read, Airlie McCoy e George M. Sheldrick per utili discussioni e correzioni.

Riferimenti

Berman, H. M., Westbrook, J., Feng, Z., Gilliland, G., Bhat, T. N., Weissig, H., Shindyalov, I. N. & Bourne, P. E. (2000). Acidi nucleici Res. 28 , 235�. Web of Science CrossRef PubMed CAS Google Scholar
Bernstein, F. C., Koetzle, T. F., Williams, G. J. B., Meyer, E. F. Jr, Brice, M. D., Rodgers, J. R., Kennard, O., Shimanouchi, T. & Tasumi, M. (1977). J. Mol. Biol. 112 , 535�. CrossRef CAS PubMed Web of Science Google Scholar
Bibby, J., Keegan, R. M., Mayans, O., Winn, M. D. & Rigden, D. J. (2012). Acta cristallo. D 68 , 1622�. Web of Science CrossRef IUCr Journals Google Scholar
Bieniossek, C., Schuütz, P., Bumann, M., Limacher, A., Usón, I. & Baumann, U. (2006). J. Mol. Biol. 360 , 457�. CrossRef PubMed CAS Google Scholar
Bragg, W. H. & 38 Bragg, W. L. (1913). Natura , 91 , 557. CrossRef Google Scholar
Bunkóczi, G., Echols, N., McCoy, A. J., Oeffner, R. D., Adams, P. D. & Read, R. J. (2013). Acta cristallo. D 69 , 2276�. Web of Science CrossRef IUCr Journals Google Scholar
Bunkóczi, G. & Leggi, R. J. (2011). Acta cristallo. D 67 , 303�. Web of Science CrossRef IUCr Journals Google Scholar
Burla, M. C., Carrozzini, B., Cascarano, G. L., Giacovazzo, C. & Polidori, G. (2011). J. Appl. cristallo. 44 , 1143�. Web of Science CrossRef CAS IUCr Journals Google Scholar
Burla, M. C., Carrozzini, B., Cascarano, G. L., Giacovazzo, C. & Polidori, G. (2012). J. Appl. cristallo. 45 , 1287�. Web of Science CrossRef CAS IUCr Journals Google Scholar
Caliandro, R., Carrozzini, B., Cascarano, G. L., De Caro, L., Giacovazzo, C., Mazzone, A. & Siliqi, D. (2008). J. Appl. cristallo. 41 , 548�. Web of Science CrossRef CAS IUCr Journals Google Scholar
Caliandro, R., Carrozzini, B., Cascarano, G. L., De Caro, L., Giacovazzo, C. & Siliqi, D. (2005 un ). Acta cristallo. D 61 , 1080�. Web of Science CrossRef CAS IUCr Journals Google Scholar
Caliandro, R., Carrozzini, B., Cascarano, G. L., De Caro, L., Giacovazzo, C. & Siliqi, D. (2005 B ). Acta cristallo. D 61 , 556�. Web of Science CrossRef CAS IUCr Journals Google Scholar
Caliandro, R., Carrozzini, B., Cascarano, G. L., De Caro, L., Giacovazzo, C. & Siliqi, D. (2007). J. Appl. cristallo. 40 , 883�. Web of Science CrossRef CAS IUCr Journals Google Scholar
Caliandro, R., Dibenedetto, D., Cascarano, G. L., Mazzone, A. & Nico, G. (2012). Acta cristallo. D 68 , 1󈝸. Riviste CrossRef IUCr Google Scholar
DiMaio, F., Terwilliger, TC, Read, RJ, Wlodawer, A., Oberdorfer, G., Wagner, U., Valkov, E., Alon, A., Fass, D., Axelrod, HL, Das, D ., Vorobiev, SM, Iwaï, H., Pokkuluri, PR& Baker, D. (2011). Natura , 473 , 540�. CrossRef CAS PubMed Google Scholar
Franke, B., Gasch, A., Rodriguez, D., Chami, M., Khan, MM, Rudolf, R., Bibby, J., Hanashima, A., Bogomolovas, J., von Castelmur, E., Rigden, DJ, Uson, I., Labeit, S. & Mayans, O. (2014). Apri Biol. 4 , 130172. Web of Science CrossRef PubMed Google Scholar
Frazao, C., Sieker, L., Sheldrick, G. M., Lamzin, V., LeGall, J. & Carrondo, M. A. (1999). J. Biol. Inorg. chimica. 4 , 162�. PubMed CAS Google Scholar
Friedrich, W., Knipping, P. & Laue, M. (1912). Sitzungsber. K. Bayer. Akad. saggio. pagine 303�. Google Scholar
Fujinaga, M. & Leggi, R. J. (1987). J. Appl. cristallo. 20 , 517�. CrossRef Web of Science Riviste IUCr Google Scholar
Gentzsch, W. (2001). Proc. Primo Simposio Internazionale IEEE/ACM su Cluster Computing e Grid, 2001 , pp. 35󈞐. CrossRef Google Scholar
Gessler, K., Usón, I., Takaha, T., Krauss, N., Smith, S. M., Okada, S., Sheldrick, G. M. & 38 Saenger, W. (1999). Proc. Natl Acad. Sci. Stati Uniti d'America , 96 , 4246�. Web of Science CSD CrossRef PubMed CAS Google Scholar
Glykos, N. M. & Kokkinidis, M. (2003). Acta cristallo. D 59 , 709�. Web of Science CrossRef CAS IUCr Journals Google Scholar
Gruene, T. (2013). Acta cristallo. D 69 , 1861�. Web of Science CrossRef CAS IUCr Journals Google Scholar
Hauptman, H. & Karle, J. (1953). Monografia ACA n. 3 . Ohio: Servizio di libri in policristallo. Google Scholar
Hendrickson, W.A. (1991). Scienza , 254 , 51󈞦. CrossRef PubMed CAS Web of Science Google Scholar
Hissa, D. C., Bezerra, G. A., Birner-Gruenberger, R., Silva, L. P., Usón, I., Gruber, K. & Melo, V. M. M. (2014). Chebiochem , 15 , 393�. PubMed Google Scholar
Hovmöller, S., Zhou, T. & 38 Ohlson, T. (2002). Acta cristallo. D 58 , 768�. Web of Science CrossRef IUCr Journals Google Scholar
Karle, J. & Hauptman, H. (1956). Acta cristallo. 9 , 635�. CrossRef CAS IUCr Riviste Web of Science Google Scholar
Langs, DA (1989). Biopolimeri , 28 , 259�. CrossRef CAS PubMed Web of Science Google Scholar
Laue, M. von (1912). Sitzungsber. K. Bayer. Akad. saggio. pagine 363�. Google Scholar
Loll, P. J., Bevivino, A. E., Korty, B. D. & Axelsen, P. H. (1997). Marmellata. chimica. Soc. 119 , 1516�. CSD CrossRef CAS Web of Science Google Scholar
McCoy, A. J., Grosse-Kunstleve, R. W., Adams, P. D., Winn, M. D., Storoni, L. C. & Read, R. J. (2007). J. Appl. cristallo. 40 , 658�. Web of Science CrossRef CAS IUCr Journals Google Scholar
McCoy, A.J., Grosse-Kunstleve, R.W., Storoni, L.C. & Read, R.J. (2005). Acta cristallo. D 61 , 458�. Web of Science CrossRef CAS IUCr Journals Google Scholar
McCoy, A. J., Nicholls, R. A. & Schneider, T. R. (2013). Acta cristallo. D 69 , 2216�. Web of Science CrossRef CAS IUCr Journals Google Scholar
Miller, R., DeTitta, G.T., Jones, R., Langs, D.A., Weeks, C.M. & Hauptman, H.A. (1993). Scienza , 259 , 1430�. CSD CrossRef CAS PubMed Web of Science Google Scholar
Miller, R., Gallo, S. M., Khalak, H. G. & Weeks, C. M. (1994). J. Appl. cristallo. 27 , 613�. CrossRef CAS Web of Science Riviste IUCr Google Scholar
Nascimento, AFZ, Trindade, DM, Tonoli, CCC, de Giuseppe, PO, Assis, LHP, Honorato, RV, de Oliveira, PSL, Mahajan, P., Burgess-Brown, NA, von Delft, F., Larson, RE & Murakami, MTJ (2013). J. Biol. chimica. 288 , 34131�. CrossRef CAS PubMed Google Scholar
Nimz, O., Gessler, K., Usón, I., Sheldrick, G. M. & 38 Saenger, W. (2004). Carboidrato. Ris. 339 , 1427�. CrossRef PubMed CAS Google Scholar
Oeffner, R. D., Bunkocz, G., McCoy, A. J. & Leggi, R. J. (2013). Acta cristallo. D 69 , 2209�. Riviste CrossRef IUCr Google Scholar
Pröpper, K., Meindl, K., Sammito, M., Dittrich, B., Sheldrick, G. M., Pohl, E. & Usón, I. (2014). Acta cristallo. D 70 , 1743�. Web of Science CrossRef IUCr Journals Google Scholar
Ramachandran, G. N., Ramakrishnan, C. & Sasisekharan, V. (1963). J. Mol. Biol. 7 , 95󈟏. CrossRef PubMed CAS Web of Science Google Scholar
Leggi, R. J., Adams, P. D. & McCoy, A. J. (2013). Acta cristallo. D 69 , 176�. Web of Science CrossRef CAS IUCr Journals Google Scholar
Robertson, M.P., Chi, Y.-I. & Scott, W. G. (2010). metodi , 52 , 168�. Web of Science CrossRef CAS PubMed Google Scholar
Robertson, M. P. & Scott, W. G. (2008). Acta cristallo. D 64 , 738�. Web of Science CrossRef CAS IUCr Journals Google Scholar
Rodríguez, D. D., Grosse, C., Himmel, S., González, C., de Ilarduya, I. M., Becker, S., Sheldrick, G. M. & Usón, I. (2009). Naz. met. 6 , 651�. Google Scholar
Rodríguez, D., Sammito, M., Meindl, K., de Ilarduya, I. M., Potratz, M., Sheldrick, G. M. & Usón, I. (2012). Acta cristallo. D 68 , 336�. Web of Science CrossRef IUCr Journals Google Scholar
Rossmann, M.G. (1972). Il metodo di sostituzione molecolare . New York: Gordon e Breach. Google Scholar
Sammito, M., Millán, C., Rodríguez, DD, de Ilarduya, IM, Meindl, K., De Marino, I., Petrillo, G., Buey, RM, de Pereda, JM, Zeth, K., Sheldrick, GM & Usón, I. (2013). Naz. met. 10 , 1099�. CrossRef CAS Google Scholar
Sammito, M., Meindl, K., de Ilarduya, I. M., Millán, C., Artola-Recolons, C., Hermoso J. A. & Usón, I. (2014). FEBS J , 281 , 4029�. Google Scholar
Safaee, N., Noronha, A. M., Rodionov, D., Kozlov, G., Wilds, C. J., Sheldrick, G. M. & Gehring, K. (2013). Angelo. chimica. Int. Ed. 52 , 10370�. CrossRef CAS Google Scholar
Schäfer, M., Schneider, T. R. & Sheldrick, G. M. (1996). Struttura , 4 , 1509�. CrossRef CAS PubMed Web of Science Google Scholar
Sheldrick, G. M. (2002). Z. Kristallogr. 217 , 644�. Web of Science CrossRef CAS Google Scholar
Sheldrick, G. M. (2008). Acta cristallo. UN 64 , 112�. Web of Science CrossRef CAS IUCr Journals Google Scholar
Sheldrick, G. M. (2010). Acta cristallo. D 66 , 479�. Web of Science CrossRef CAS IUCr Journals Google Scholar
Sheldrick, G. M., Gilmore, C. J., Hauptman, H. A., Weeks, C. M., Miller, R. & Usón, I. (2011). Tavole Internazionali per Cristallografia , a cura di E. Arnold, D. M. Himmel & M. G. Rossmann, pp. 413�. Chichester: Wiley. Google Scholar
Shi, T., Bunker, RD, Mattarocci, S., Ribeyre, C., Faty, M., Gut, H., Scrima, A., Rass, U., Rubin, SM, Shore, D. & Thomä, NH (2013). Cellula , 153 , 1340�. CrossRef CAS PubMed Google Scholar
Shrestha, R., Berenger, F. & 38 Zhang, K. Y. J. (2011). Acta cristallo. D 67 , 804�. Web of Science CrossRef IUCr Journals Google Scholar
Storoni, L. C., McCoy, A. J. & Read, R. J. (2004). Acta cristallo. D 60 , 432�. Web of Science CrossRef CAS IUCr Journals Google Scholar
Tannenbaum, T., Wright, D., Miller, K. & Livny, M. (2002). Beowulf Cluster Computing con Linux , a cura di T. Sterling. La stampa del MIT. Google Scholar
Thorn, A. & Sheldrick, G. M. (2013). Acta cristallo. D 69 , 2251�. Web of Science CrossRef IUCr Journals Google Scholar
Usón, I., Patzer, S. I., Rodríguez, D. D., Braun, V. & 38 Zeth, K. (2012). J. Strut. Biol. 178 , 45󈞡. Web of Science PubMed Google Scholar
Usón, I. & Sheldrick, G. M. (1999). Curr. opinare. struttura Biol. 9 , 643�. Web of Science CrossRef PubMed CAS Google Scholar
Usón, I., Sheldrick, G. M., Fortelle, E. de L., Bricogne, G., Marco, S. D., Priestle, J. P., Grütter, M. G. & Mittl, P. R. E. (1999). Struttura , 7 , 55󈞫. PubMed Google Scholar
Winn, M.D. et al. (2011). Acta cristallo. D 67 , 235�. Web of Science CrossRef CAS IUCr Journals Google Scholar
Xu, H., Hauptman, H. A., Weeks, C. M. & 38 Miller, R. (2000). Acta cristallo. D 56 , 238�. Web of Science CrossRef CAS IUCr Journals Google Scholar
Yao, J. X., Dodson, E. J., Wilson, K. S. & Woolfson, M. M. (2006). Acta cristallo. D 62 , 901�. Web of Science CrossRef CAS IUCr Journals Google Scholar
Yao, J., Woolfson, M. M., Wilson, K. S. & Dodson, E. J. (2005). Acta cristallo. D 61 , 1465�. Web of Science CrossRef CAS IUCr Journals Google Scholar

Questo è un articolo ad accesso aperto distribuito secondo i termini della licenza Creative Commons Attribution (CC-BY), che consente l'uso, la distribuzione e la riproduzione senza restrizioni con qualsiasi mezzo, a condizione che vengano citati gli autori e la fonte originali.