Informazione

Punteggio di propensione per l'amminoacido

Punteggio di propensione per l'amminoacido



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Qual è il significato del punteggio di propensione dell'amminoacido? Come viene calcolato?
(Non ho studiato biologia negli ultimi 8 anni e ora lo sto studiando perché ne ho bisogno per la mia ricerca. Quindi se qualcuno può descriverlo in un linguaggio semplice sarebbe molto utile)


Come risposta semplificata: il punteggio di propensione viene utilizzato per prevedere la struttura secondaria delle proteine. Deriva dall'osservazione del residuo aa della superficie accessibile della proteina e anche dell'interfaccia che consente le interazioni tra altre proteine.

L'equazione è la seguente:

Propensione= [probabilità del residuo nell'interfaccia / probabilità del residuo sulla superficie]

dove,

prob del residuo nell'interfaccia = [numero di amminoacidi nell'interfaccia / numero totale di amminoacidi di qualsiasi tipo di interfaccia]

e,

prob del residuo sulla superficie = [numero di amminoacidi di superficie / numero totale di amminoacidi di superficie]

Dai un'occhiata a questo documento PLOS per un esempio. PLoS One. 2014; 9(5): e97158.


DiscoTope 2.0 Server

Il server DiscoTope prevede epitopi di cellule B discontinue da strutture tridimensionali di proteine. Il metodo utilizza il calcolo dell'accessibilità della superficie (stimata in termini di numeri di contatto) e un nuovo punteggio degli amminoacidi di propensione degli epitopi. I punteggi finali sono calcolati combinando i punteggi di propensione dei residui in prossimità spaziale ei numeri di contatto.

Novità nella versione 2.0 di DiscoTope: Nuova definizione del quartiere spaziale utilizzato per sommare i punteggi di propensione e l'esposizione della semisfera come misura della superficie.

Nota: Il server DiscoTope è stato aggiornato per migliorare la facilità d'uso. Il server ora prevede epitopi in complessi di più catene. Inoltre, i file di output di DiscoTope sono ora facilmente scaricabili e importabili in fogli di calcolo. Inoltre, abbiamo facilitato la visualizzazione dei risultati della previsione.

CITAZIONI

Per la pubblicazione dei risultati, si prega di citare:

Previsioni affidabili degli epitopi delle cellule B: impatti dello sviluppo del metodo e miglioramento del benchmarking
Jens Vindahl Kringelum, Claus Lundegaard, Ole Lund e Morten Nielsen
Biologia computazionale di Plos, 2012
Link alla carta


Sfondo

Si stima che circa il 20-30% di tutte le proteine ​​codificate in un genoma tipico siano localizzate nelle membrane [1, 2], dove le interazioni proteina-lipidi svolgono ruoli cruciali nella stabilità conformazionale e nelle funzioni biologiche delle proteine ​​di membrana. Molti studi sperimentali hanno suggerito che le proprietà fisico-chimiche del doppio strato lipidico di membrana influenzano la stabilità e la funzione delle proteine ​​di membrana. È stato dimostrato che la stabilità termica [3, 4] e chimica [5] del canale del potassio KcsA varia a seconda della composizione lipidica del doppio strato di membrana. È stato anche dimostrato che la composizione lipidica influenza le funzioni proteiche tra cui: trasporto ionico in KcsA [6, 7] e Ca 2+ -ATPasi del reticolo sarcoplasmatico [8, 9], fosforilazione da parte della diacilglicerolo chinasi [10] e composto chimico trasporto da parte del canale meccanosensibile di MscL a grande conduttanza [11]. Per completare questi studi sperimentali, sono state effettuate analisi statistiche per rivelare le preferenze degli aminoacidi e i modelli di conservazione all'interno dell'ambiente del doppio strato lipidico [12-16] utilizzando la sequenza disponibile e i dati strutturali. I modelli che emergono da queste analisi statistiche dovrebbero riflettere implicitamente gli effetti delle molecole lipidiche sulla formazione strutturale e sulla stabilità delle proteine ​​di membrana. Tuttavia, pochi dei precedenti studi computazionali hanno tenuto conto esplicitamente dei dettagli atomici delle interazioni proteina-lipidi. Un'eccezione degna di nota sono le simulazioni di dinamica molecolare (MD) di tutti gli atomi che è diventato possibile applicare la tecnica alle proteine ​​di membrana in condizioni che mimano le membrane biologiche (recensioni recentemente da Khalili-Araghi e co-autori [17]). Le simulazioni MD di tutti gli atomi ci consentono di ispezionare le interazioni proteina-lipidi nei dettagli atomici [18, 19] e possono rivelare il ruolo dei lipidi nella funzione proteica [20], anche se per una piccola selezione di specifiche molecole lipidiche e proteiche.

In questo articolo, tentiamo di comprendere la natura delle interazioni proteina-lipidi utilizzando un approccio computazionale. Dato il numero limitato di strutture cristalline contenenti molecole lipidiche, abbiamo deciso di combinare tutti i fosfolipidi biologici conosciuti e classificare le interazioni atomiche in quelle che coinvolgono le parti "testa" e "coda" dei lipidi. I gruppi testa e coda si trovano nella maggior parte dei fosfolipidi che costituiscono una membrana biologica e definiscono una delle caratteristiche chimiche più essenziali di queste molecole. Pertanto, ci chiediamo più specificamente: "Come vengono riconosciute le porzioni di testa e coda delle molecole lipidiche dai residui di amminoacidi nelle proteine ​​di membrana?"

Per rispondere a questa domanda, abbiamo utilizzato due fonti di dati disponibili, strutture cristalline e traiettorie MD. Utilizzando i dati della struttura cristallina, possiamo includere ed esaminare vari tipi di proteine ​​e lipidi, sebbene il numero di molecole lipidiche osservate in ciascuna struttura risolta sia limitato. Utilizzando i dati MD, possiamo ottenere informazioni dettagliate su tutte le molecole lipidiche che circondano una proteina, sebbene tale analisi sia possibile solo per un piccolo insieme di tipi di proteine ​​e lipidi. La combinazione di queste due fonti di dati ci consente di valutare le distorsioni risultanti da una varietà limitata di dati in ciascuna fonte di dati. I risultati hanno rivelato un modello comune di interazioni lipidiche coda-amminoacidi osservate sia nelle strutture cristalline che nelle traiettorie della MD. Mostriamo che il riconoscimento delle code lipidiche può essere spiegato in gran parte dalla lipofilia generale e che questo effetto domina nelle due diverse situazioni rappresentate dalla struttura cristallina e dai set di dati MD. Al contrario, i gruppi di teste lipidiche hanno mostrato un modello più complicato e diversificato e discutiamo di come le nostre osservazioni possono essere correlate a dati sperimentali noti e concetti precedentemente proposti relativi alle interazioni proteina-lipidi.


Introduzione

La conoscenza delle strutture proteiche tridimensionali è cruciale quando si studiano le funzioni proteiche. La conoscenza strutturale è considerata importante quando si progettano farmaci che coinvolgono le funzioni proteiche [1]. In generale, la cristallografia a raggi X e la spettroscopia di risonanza magnetica nucleare sono comunemente usate per determinare le strutture delle proteine. Circa l'80% delle strutture proteiche in Protein Data Bank (PDB) sono state ottenute utilizzando il metodo della cristallografia a raggi X [2]. In effetti, questi due approcci implicano processi molto complessi, lunghi, laboriosi e costosi. A causa delle difficoltà nel determinare le strutture cristalline, l'attuale protocollo produce solo un tasso di successo del 30% [3]. Pertanto, molti ricercatori sfruttano gli approcci computazionali per prevedere direttamente la cristallizzazione delle proteine.

Canaves et al. [4] e Goh et al. [5] hanno proposto metodi per estrarre caratteristiche informative per prevedere la cristallizzazione delle proteine. Molti metodi di calcolo basati su sequenze, inclusi OB-Score [6], SECRET [7], CRYSTALP [8], XtalPred [9], ParCrys [10], CRYSTALP2 [11], SVMCRYS [12], PPCpred [13] e RFCRYS [14], predicono la cristallizzazione delle proteine, come mostrato nella Tabella 1. Sia la support vector machine (SVM) [7], [12], [13] che il meccanismo di insieme [13], [14] sono tecniche ben note per migliorare la precisione della previsione. A causa dei diversi obiettivi di progettazione e benchmark utilizzati, non è facile valutare quale metodo e caratteristiche siano i più efficaci. Dallo studio in [14] e nella Tabella 1, possiamo vedere che il metodo SVM_POLY (vedi il lavoro [13]) che utilizza SVM ha la più alta accuratezza tra i metodi non di insieme. Questo metodo è uno dei quattro predittori SVM integrati in PPCPred [13]. I metodi di insieme all'avanguardia PPCpred e RFCRYS hanno un'elevata precisione di previsione utilizzando rispettivamente i classificatori SVM e Random Forest. PPCpred utilizza una serie completa di input basati su indici di energia e idrofobicità, composizione di alcuni tipi di amminoacidi, disturbo previsto, struttura secondaria, accessibilità ai solventi e contenuto di alcuni residui sepolti ed esposti [13]. RFCRYS prevede la cristallizzazione delle proteine ​​utilizzando le composizioni mono-, di- e tri-peptidiche le frequenze degli amminoacidi in diversi gruppi fisico-chimici il punto isoelettrico il peso molecolare e la lunghezza delle sequenze proteiche [14]. Tuttavia, il meccanismo di questi due classificatori d'insieme soffre di una scarsa interpretabilità per i biologi. Non è chiaro quali caratteristiche della sequenza forniscano il contributo essenziale all'elevata accuratezza della previsione.

Piuttosto che aumentare sia la complessità dei metodi di previsione che il numero di tipi di caratteristiche mentre si persegue un'elevata precisione, la motivazione di questo studio è fornire un metodo semplice e altamente interpretabile con un'accuratezza comparabile dal punto di vista dei biologi. Il P-coppie AA collocate (P = 0 per un dipeptide) hanno dimostrato di essere significativi nell'influenzare o migliorare la cristallizzazione delle proteine ​​a causa dell'impatto del ripiegamento corrispondente all'interazione tra coppie di AA locali [8], [11]. Il P- le coppie di AA collocate forniscono le informazioni aggiuntive su cui riflette l'interazione tra le coppie di AA locali oltre alla semplice composizione di AA. Questo studio propone un metodo di insieme, SCMCRYS, per prevedere la cristallizzazione proteica in cui ogni classificatore è costruito utilizzando un metodo della scheda di punteggio (SCM) [15] con stima dei punteggi di propensione di P-Coppie AA collocate per essere cristallizzabili. Rispetto a SCM che utilizza la composizione dipeptidica in [15], il classificatore di insieme di SCMCRYS fa il miglior uso delle coppie di AA p-collocate. Le regole per decidere se una proteina è cristallizzabile nel classificatore SCM e SCMCRYS sono molto semplici in base a un punteggio di somma ponderata e un metodo di voto da un numero di classificatori SCM, rispettivamente. Tuttavia, i risultati sperimentali mostrano che il classificatore SCM è paragonabile a SVM_POLY e i classificatori basati su SVM con P-Coppie AA collocate. Il metodo SCMCRYS è paragonabile ai metodi di insieme all'avanguardia PPCpred e RFCRYS.

I punteggi di propensione dei dipeptidi e degli amminoacidi ad essere cristallizzabili sono altamente correlati con la capacità di cristallizzazione delle sequenze e possono fornire informazioni sulla cristallizzazione delle proteine. Inoltre, i punteggi di propensione degli amminoacidi possono anche rivelare la relazione tra cristallizzabilità e proprietà fisico-chimiche come solubilità, peso molecolare, punto di fusione ed entropia conformazionale degli amminoacidi. Questo studio propone anche un metodo di analisi della mutagenesi per illustrare l'ulteriore vantaggio di SCM. Indaghiamo l'analisi della mutagenesi per migliorare la cristallizzabilità delle proteine ​​in base ai punteggi di cristallizzabilità stimati, ai punteggi di solubilità [15] e alle proprietà fisico-chimiche degli amminoacidi. Il risultato dell'analisi rivela l'ipotesi che la mutagenesi dei residui superficiali Ala e Cys abbia probabilità grandi e piccole di migliorare la cristallizzabilità delle proteine ​​nell'applicazione di approcci di ingegneria proteica.


SCMCRYS: previsione della cristallizzazione proteica utilizzando un metodo di punteggio Ensemble con stima dei punteggi di propensione delle coppie di aminoacidi P-collocati

I metodi esistenti per prevedere la cristallizzazione delle proteine ​​ottengono un'elevata precisione utilizzando vari tipi di funzioni integrate e classificatori di complessi complessi, come la macchina vettoriale di supporto (SVM) e i classificatori Random Forest. È desiderabile sviluppare un metodo di previsione semplice e facilmente interpretabile con caratteristiche di sequenza informative per fornire approfondimenti sulla cristallizzazione delle proteine. Questo studio propone un metodo di insieme, SCMCRYS, per prevedere la cristallizzazione delle proteine, per il quale ogni classificatore è costruito utilizzando un metodo della scheda di punteggio (SCM) con la stima dei punteggi di propensione delle coppie di amminoacidi p-collocati (AA) (p = 0 per un dipeptide ). Il classificatore SCM determina la cristallizzazione di una sequenza secondo un punteggio di somma ponderata. I pesi sono la composizione delle coppie AA collocate in p e i punteggi di propensione di queste coppie AA sono stimati utilizzando un approccio statistico con ottimizzazione. SCMCRYS prevede la cristallizzazione utilizzando un semplice metodo di voto da un numero di classificatori SCM. I risultati sperimentali mostrano che il singolo classificatore SCM che utilizza la composizione di dipeptidi con una precisione del 73,90% è paragonabile al miglior classificatore basato su SVM precedentemente sviluppato, SVM_POLY (74,6%), e il nostro classificatore basato su SVM proposto che utilizza la stessa composizione di dipeptidi (77,55 %). Il metodo SCMCRYS con una precisione del 76,1% è paragonabile ai metodi di insieme allo stato dell'arte PPCpred (76,8%) e RFCRYS (80,0%), che utilizzavano rispettivamente i classificatori SVM e Random Forest. Questo studio indaga anche l'analisi della mutagenesi basata su SCM e il risultato rivela l'ipotesi che la mutagenesi dei residui superficiali Ala e Cys abbia grandi e piccole probabilità di aumentare la cristallizzabilità delle proteine ​​considerando i punteggi stimati di cristallizzabilità e solubilità, punto di fusione, peso molecolare ed entropia conformazionale di amminoacidi in una condizione generalizzata. I punteggi di propensione degli amminoacidi e dei dipeptidi per la stima della cristallizzabilità delle proteine ​​possono aiutare i biologi nella progettazione di mutazioni dei residui superficiali per migliorare la cristallizzabilità delle proteine. Il codice sorgente di SCMCRYS è disponibile all'indirizzo http://iclab.life.nctu.edu.tw/SCMCRYS/.


Introduzione

I peptidi anticancro (ACP) sono piccoli peptidi che esercitano proprietà selettive e tossiche nei confronti delle cellule tumorali. Grazie alla sua intrinseca elevata penetrazione, elevata selettività e facilità di modifica, i farmaci e i vaccini a base di peptidi sintetici 1 – 3 rappresentano una promettente classe di agenti terapeutici. Gli ACP progettati possono migliorare l'affinità, la selettività e la stabilità per migliorare l'eliminazione delle cellule tumorali. L'influenza dei residui di amminoacidi sull'attività antitumorale degli ACP dipende dalle proprietà cationiche, idrofobe e anfifiliche con struttura elicoidale per guidare la permeabilità cellulare. In particolare, i residui di amminoacidi cationici (cioè lisina, arginina e istidina) possono distruggere e penetrare nella membrana delle cellule tumorali per indurre citotossicità mentre gli amminoacidi anionici (cioè acidi glutammico e aspartico) offrono attività antiproliferativa contro le cellule tumorali. Inoltre, i residui di amminoacidi idrofobici (cioè fenilalanina, triptofano e tirosina) esercitano il loro effetto sull'attività citotossica del cancro 1 , 4 , 5 . Inoltre, la struttura secondaria degli ACP che è formata da amminoacidi cationici e idrofobici, svolge un ruolo cruciale nell'interazione della membrana cellulare del cancro del peptide che porta intrinsecamente alla distruzione e alla morte delle cellule del cancro 1 , 6 . Pertanto, è desiderabile sviluppare un predittore semplice, interpretabile ed efficiente per ottenere un'identificazione accurata dell'ACP e facilitare la progettazione razionale di nuovi peptidi antitumorali con applicazioni cliniche promettenti.

Negli ultimi anni, la maggior parte dei metodi esistenti è stata sviluppata tramite l'uso dell'apprendimento automatico (ML) e di metodi statistici applicati alle informazioni sulla sequenza peptidica per discriminare gli ACP dai non ACP 7 – 23 . Maggiori dettagli su questi metodi esistenti sono riassunti in due articoli di revisione completa 2 , 3 . Tra i vari tipi di approcci ML, entrambi supportano la macchina vettoriale (SVM) (cioè AntiCP 8 , Hajisharifi et al.’s method 9 , ACPP 24 , iACP 10 , Li e Wang’s method 11 , iACP-GAEnsC 12 , TargetACP 14 e ACPred 19) e l'approccio d'insieme (vale a dire MLACP 13, ACPred 19, PTPD 21, ACP-DL 22, PEPred-Suite 20, ACPred-FL 15, ACPred-Fuse 18, PPTPP 23 e AntiCP_2.0 25) erano ampiamente utilizzato per sviluppare predittori ACP. Come riassunto in una recente revisione 2 , abbiamo potuto vedere che TargetACP è stato sviluppato integrando la composizione degli amminoacidi suddivisi e descrittori di matrice di punteggio pseudo-specifici per la posizione 14 , che ha dimostrato di superare i predittori basati su SVM 8 – 12 , 19 , 24. Nel frattempo, i metodi di insieme all'avanguardia comprendenti PEPred-Suite 20 e ACPred-Fuse 18 hanno fornito le più alte precisioni di previsione come valutato sul set di dati raccolto da Rao et al. 18. In ACPred-Fuse, è stato sviluppato utilizzando il modello di foresta casuale (RF) in combinazione con 114 descrittori di caratteristiche. E poi, un totale di 114 modelli RF sono stati addestrati per generare informazioni di classe e informazioni probabilistiche utilizzate per lo sviluppo di un modello finale. Più recentemente, Agrawal et al. ha proposto una versione aggiornata di AntiCP chiamata AntiCP2.0 e ha anche fornito due set di dati di riferimento di alta qualità (cioè set di dati principali e alternativi) con il maggior numero di peptidi. AntiCP2.0 è stato sviluppato da un algoritmo di alberi estremamente randomizzati (ETree) con composizione di aminoacidi (AAC) e composizione di dipeptidi (DPC). Sulla base dei risultati di test indipendenti riportati dal lavoro precedente di AntiCP2.0, si può notare che AntiCP2.0 era superiore ad altri predittori ACP esistenti (ad esempio AntiCP 8 , iACP 10 , ACPred 19 , ACPred-FL 15 , ACPred- Fusibile 18 , PEPred Suite 20 ). Nel complesso, sono stati compiuti molti progressi nei metodi esistenti. Tuttavia, due potenziali inconvenienti dei predittori ACP esistenti ci hanno motivato a sviluppare un nuovo predittore ACP in questo studio. Primo, i loro meccanismi interpretabili non sono facilmente compresi e implementati dal punto di vista dei biologi e dei biochimici. I modelli ACP esistenti non forniscono una spiegazione diretta sul meccanismo sottostante dell'attività biologica di ciò che costituisce gli ACP. Nel frattempo, un modello semplice e facilmente interpretabile è più utile in un'ulteriore analisi delle caratteristiche delle attività antitumorali dei peptidi. In secondo luogo, la loro accuratezza e generalizzabilità richiedono ancora miglioramenti.

In considerazione di questi problemi, proponiamo qui lo sviluppo di un nuovo predittore basato su ML chiamato iACP-FSCM per migliorare ulteriormente l'accuratezza della previsione e far luce sulle caratteristiche che regolano le attività antitumorali dei peptidi. Il quadro concettuale dell'approccio iACP-FSCM qui proposto per la previsione e l'analisi degli ACP è riassunto nella Fig.  1 . I principali contributi di iACP-FSCM per la previsione e la caratterizzazione degli ACP possono essere riassunti come segue. In primo luogo, abbiamo proposto qui un nuovo metodo flessibile della scheda di punteggio (FSCM) per la previsione e la caratterizzazione efficaci e semplici di peptidi che offrono attività antitumorale utilizzando solo informazioni di sequenza. Il metodo FSCM è una versione aggiornata del metodo SCM sviluppato da Huang et al. 26 e Charoenkwan et al. 27 facendo uso di punteggi di propensione di informazioni sequenziali sia locali che globali. In secondo luogo, a differenza dei meccanismi di classificazione piuttosto complessi offerti dagli approcci di insieme allo stato dell'arte 15, 18, 20, il metodo iACP-FSCM qui proposto identifica gli ACP utilizzando solo punteggi di somma ponderata tra i punteggi di composizione e propensione, che è facilmente comprensibile e implementato da biologi e biochimici. In terzo luogo, i punteggi di propensione derivati ​​da FSCM possono essere adottati per identificare proprietà fisico-chimiche informative (PCP) che possono fornire informazioni cruciali relative alle proprietà locali e globali degli ACP. Infine, i risultati comparativi hanno rivelato che iACP-FSCM ha superato quelli dei predittori ACP all'avanguardia per l'identificazione e la caratterizzazione degli ACP. Il webserver iACP-FSCM qui presentato ha dimostrato di essere robusto come dedotto dalla sua superiore accuratezza di previsione, interpretabilità e disponibilità del pubblico, che è strumentale nell'aiutare i biologi nella loro identificazione di ACP con potenziali bioattività. Inoltre, il metodo FSCM proposto ha un grande potenziale per stimare i punteggi di propensione di amminoacidi e dipeptidi che possono essere utilizzati per prevedere e analizzare varie bioattività di peptidi come peptidi emolitici 28, peptidi antipertensivi 29 e peptidi antivirali 20, 23.


MATERIALI E METODI

La funzione di punteggio per l'identificazione dei residui di interfaccia

1. Punteggio energetico della catena laterale

2. Punteggio di conservazione dei residui

3. Propensione all'interfaccia residua

Algoritmo PINUP per la previsione dei residui dell'interfaccia

L'algoritmo PINUP è il seguente:

Identificazione dei residui superficiali. Come in uno studio precedente ( 38), i residui superficiali sono definiti come quelle catene laterali con un'accessibilità relativa di >6% (raggio della sonda = 1.2 Å).

Identificazione di patch di superficie di legame candidati. Un patch di superficie è definito come un residuo di superficie centrale e 19 vicini più prossimi come in uno studio precedente ( 38). Il punteggio di un cerotto è dato dal valore medio dei punteggi per tutti i 20 residui utilizzando la funzione di punteggio sopra descritta. Tutti i residui superficiali vengono campionati. I vincoli del vettore solvente ( 32) vengono applicati per evitare il campionamento di patch su lati diversi di una superficie proteica. Vengono selezionate le patch con punteggio più alto del 5%. Se il numero di residui superficiali per una proteina è inferiore a 100, vengono invece selezionati cinque cerotti con il punteggio più alto.

Individuazione dei residui dell'interfaccia candidata. In genere, le patch sopra selezionate si sovrappongono l'una all'altra. Cioè, un residuo può apparire in più patch. Classifichiamo i residui in base al numero di patch con il punteggio più alto a cui appartengono (il tasso di comparsa nelle patch con il punteggio più alto). I 15 residui con il punteggio più alto sono designati come residui di interfaccia candidati. Per proteine ​​di grandi dimensioni con più di 150 residui superficiali, conserviamo fino al 10% dei residui superficiali totali. Se l'ultimo residuo candidato (ad esempio il 15° residuo per proteine ​​con meno di 150 residui) ha lo stesso tasso di comparsa nei cerotti con punteggio più alto di molti altri residui non candidati, tutti sono inclusi nei residui dell'interfaccia candidato.

Previsione di un'interfaccia di associazione continua. L'interfaccia prevista finale è definita come la più grande patch continua composta dai residui dell'interfaccia candidata "interagenti". Due residui sono considerati interagenti se la distanza tra i due rispettivi atomi della catena laterale è <1 Å più la somma del raggio di van der Waals dei due atomi. Se un residuo di superficie è circondato dai residui di interfaccia previsti e non interagisce con altri residui di superficie, il residuo sarà incluso come residui di interfaccia. I raggi di van der Waals per tutti i tipi di atomi provengono dal set di parametri CHARMM21 ( 42).

Ci sono diversi parametri, come la definizione dei residui superficiali [Step (1)] e la dimensione delle patch di superficie [Step (2)] in questo algoritmo PINUP. Gli effetti derivanti dalla variazione di questi parametri sono discussi nella sezione Risultati.

Set di dati sulle proteine

Usiamo un insieme di 57 proteine ​​non omologhe raccolte da Neuvirth et al. (10) per la formazione e la convalida incrociata. In questo set, gli anticorpi e gli antigeni non sono inclusi poiché la loro modalità di legame specifico è ottimizzata attraverso rapide mutazioni delle cellule somatiche invece dell'evoluzione nel corso di molti anni. Il nostro algoritmo si basa sulle informazioni di conservazione e, quindi, non è adatto per prevedere le interfacce antigene-anticorpo. Le strutture dei monomeri e dei complessi non legati sono ottenute da PDB ( 43). Il programma RIDURRE ( 44) viene utilizzato per aggiungere atomi di idrogeno a tutte le proteine. Gli atomi di idrogeno non polari e tutte le molecole d'acqua vengono eliminati. I siti di legame sono previsti con strutture non legate. Le strutture complesse vengono utilizzate per definire i residui di interfaccia sperimentali per i monomeri non legati. Un residuo superficiale è considerato come residuo dell'interfaccia se la sua area superficiale accessibile è diminuita di più di 1 Å 2 al momento della complessazione.

Per testare ulteriormente PINUP, utilizziamo il benchmark di docking proteina-proteina 2.0 stabilito da Chen et al. (45). Questo benchmark contiene 62 complessi proteici (escluso antigene-anticorpo), in cui 68 proteine ​​non legate possono essere considerate come un set di test indipendente perché condividono l'identità di sequenza <35% con qualsiasi proteina nel set di dati di 57 proteine ​​descritto sopra. Questo set di 68 proteine ​​contiene 42, 18 e 8 proteine ​​con cambiamenti conformazionali minori, medi e su larga scala al momento della complessazione, rispettivamente.

Esiste una significativa relazione omologa tra le 75 proteine ​​utilizzate per derivare la propensione all'interfaccia e le 57 proteine ​​utilizzate per la convalida incrociata. Testiamo la dipendenza dell'accuratezza della previsione sul set di dati utilizzato per derivare la propensione all'interfaccia e scopriamo che la dipendenza è essenzialmente trascurabile. I dettagli sono disponibili nella sezione Risultati.

Valutazione dell'accuratezza della previsione

L'accuratezza della previsione è valutata dalla copertura dell'interfaccia effettiva da parte dell'interfaccia prevista, che è la frazione dei residui dell'interfaccia correttamente previsti nel numero totale di residui dell'interfaccia osservati, e dall'accuratezza dell'interfaccia prevista, che è la frazione dell'interfaccia correttamente prevista residui nel numero totale di residui di interfaccia previsti. L'accuratezza attesa dalla previsione casuale è la frazione dei residui di interfaccia osservati nel numero totale di residui di superficie.

Ottimizzazione dei pesi

Usiamo un semplice metodo a griglia per ottimizzare i pesi di wC e wP. Una scansione iniziale suggerisce i valori ottimali situati a 0 < wC < 2 e 1 < wP < 10. I pesi finali si ottengono con una semplice ricerca a griglia entro 0 < wC < 2 con un passo di 0.2 e 1 < wP < 10 con un passo di 1. I parametri sono ottimizzati per la massima precisione.


Sfondo

Sebbene gli studi randomizzati controllati (RCT) siano il gold standard per valutare gli effetti del trattamento, sono spesso irrealizzabili a causa di tempi, costi o vincoli etici. In tali situazioni, i dati osservativi possono fornire informazioni preziose. Sfortunatamente, le analisi dei dati osservativi sono soggette a bias di confusione. Ciò si verifica quando le caratteristiche del paziente che influenzano l'esito hanno distribuzioni sbilanciate tra i gruppi di trattamento. Eventuali differenze osservate nei risultati tra i gruppi di trattamento possono essere in parte dovute alle differenze nelle caratteristiche dei pazienti.

Tradizionalmente, la regressione multivariabile viene utilizzata per tenere conto delle differenze nelle caratteristiche dei pazienti tra i gruppi di trattamento. Tuttavia, questo approccio non è sempre adatto. Ad esempio, quando il risultato dello studio è binario, una regola pratica suggerisce che 10 eventi dovrebbero essere osservati per covariata inclusa nel modello di regressione [1]. Questo potrebbe non essere fattibile se il risultato è raro e ci sono molte covariate per cui adeguarsi. I punteggi di propensione forniscono una potenziale soluzione a questo problema. Rosenbaum e Rubin [2] hanno introdotto per primi il punteggio di propensione, definito come la probabilità di assegnazione del trattamento condizionata alle caratteristiche di base. Inoltre, hanno dimostrato che il condizionamento sul punteggio di propensione bilancerà la distribuzione delle caratteristiche tra i gruppi di trattamento, riducendo la possibilità di errori confondenti. I punteggi di propensione sono utili per situazioni con esiti binari rari perché la regolazione solo per il punteggio di propensione è sufficiente per migliorare l'equilibrio sulle covariate misurate. Sono anche utili in situazioni in cui la relazione tra covariate e trattamento è meglio compresa rispetto alla relazione tra covariate e risultato, poiché il trattamento è modellato piuttosto che l'esito. Inoltre, il confronto delle distribuzioni del punteggio di propensione tra i gruppi di trattamento può aiutare a identificare le aree di non sovrapposizione nelle distribuzioni covariate, che sono spesso trascurate quando si utilizzano metodi di regressione tradizionali [3]. Tuttavia, è importante notare che i punteggi di propensione non possono tenere conto di confusione non misurata: l'equilibrio sarà migliorato solo sulle covariate utilizzate per stimare il punteggio di propensione.

Più comunemente, i punteggi di propensione sono stimati utilizzando la regressione logistica. L'assegnazione del trattamento è regredita sulle caratteristiche di base e le probabilità previste sono i punteggi di propensione stimati. Supponendo che non vi siano confondimenti non misurati e nessuna errata specificazione del modello del punteggio di propensione, è possibile ottenere stime imparziali degli effetti del trattamento utilizzando una delle quattro tecniche: corrispondenza, stratificazione, ponderazione o aggiustamento per covariate. Descriviamo brevemente queste tecniche qui, ma i lettori sono rimandati altrove per maggiori dettagli [2, 4,5,6,7,8,9]. L'abbinamento comporta la formazione di gruppi abbinati di pazienti trattati e di controllo, sulla base di punteggi di propensione simili. La stratificazione consiste nel dividere i pazienti in strati di uguale dimensione in base al loro punteggio di propensione e la ponderazione comporta l'assegnazione di pesi basati sulla propensione a ciascun paziente. Gli effetti del trattamento stimati possono quindi essere ottenuti confrontando i risultati nel set abbinato, all'interno degli strati (è possibile ottenere una stima complessiva unendo le stime specifiche per gli strati) o nel campione ponderato. Infine, l'aggiustamento della covariata viene implementato includendo il punteggio di propensione come covariata durante la regressione dell'esito del trattamento. Ognuna di queste tecniche mira a bilanciare le caratteristiche del paziente tra i gruppi di trattamento, ma un'errata specificazione del modello del punteggio di propensione potrebbe impedire il raggiungimento di un equilibrio adeguato, portando così a pregiudizi di confusione residui. Quindi, un passaggio essenziale dell'implementazione del punteggio di propensione consiste nell'utilizzare una diagnostica appropriata per valutare il punteggio di propensione e garantire che abbia adeguatamente ridotto il bias di confusione. Molti autori [10,11,12,13,14,15,16,17] hanno formulato raccomandazioni sull'uso appropriato della diagnostica. Più specificamente, hanno sconsigliato l'uso di test di ipotesi che confrontano medie o proporzioni covariate e hanno sostenuto l'uso di differenze standardizzate.

Nonostante la loro introduzione nel 1983, i punteggi di propensione non sono stati comunemente applicati nella letteratura medica fino a circa 20 anni dopo. Più recentemente, sono diventati sempre più popolari [10]. Nell'ultimo decennio (2007-2017) il numero di articoli restituiti dalla ricerca di "punteggi di propensione" in PubMed è più che triplicato in ogni periodo di 5 anni. A seguito dell'aumento dell'uso dei punteggi di propensione, sono state pubblicate una serie di revisioni [10, 11, 18,19,20,21,22,23,24,25] che ne valutavano l'attuazione. Purtroppo, ogni revisione ha rilevato che l'implementazione del punteggio di propensione non era ottimale, in particolare per quanto riguarda l'uso della diagnostica. Molti autori non riportavano l'uso di alcun punteggio diagnostico di propensione e quelli che lo facevano usavano spesso test di ipotesi, che sono ampiamente scoraggiati. Se non viene utilizzata una diagnostica appropriata per dimostrare l'equilibrio dei potenziali fattori confondenti raggiunto dal punteggio di propensione, i lettori della ricerca non hanno basi per fidarsi dei risultati. Delle revisioni esistenti sulla letteratura sul punteggio di propensione, solo tre [11, 19, 21] prendono in considerazione articoli provenienti da tutte le aree della medicina, e questi complessivamente includono articoli pubblicati fino al 2012. Dal 2012 sono state pubblicate numerose pubblicazioni che forniscono indicazioni sull'uso della diagnostica del punteggio di propensione [10,11,12, 14,15,16,17], o proponendo una nuova diagnostica del punteggio di propensione [26,27,28,29]. Considerando questi recenti sviluppi nella metodologia e nella guida pratica, l'uso della diagnostica del punteggio di propensione negli studi medici recenti potrebbe essere migliorato. Pertanto lo scopo di questa revisione è aggiornare la letteratura sull'uso diagnostico, ma con un focus su riviste di alto livello. Tali riviste potrebbero essere considerate più influenti in quanto sono spesso considerate un faro di buone pratiche. Furthermore, it may beneficial to know which types of studies are more or less likely to report use of suboptimal diagnostics. This information could help us to identify pockets of good practice and areas where efforts to change practice should be focused. Bearing this in mind, the objectives of this review are to: (1) assess the use of propensity score diagnostics in medical studies published in high-ranking journals and (2) compare use of diagnostics between studies (a) in different research areas and (b) using different propensity score methods.


Materiali e metodi

Collection of annotations of crystallization trials

We only extracted X-ray crystallography-based experimental trials annotated with the most advanced experimental statuses. These statuses include ‘selected’, ‘cloned’, ‘expressed’, ‘soluble’, ‘purified’, ‘crystallized’, ‘diffraction’, ‘crystal structure’ or ‘in PDB’. We grouped the proteins with the status of ‘crystal structure’ or ‘in PDB’ as crystallizable proteins (defined as the ‘CRYS’ class), and grouped those with other statuses as non-crystallizable proteins (defined as the ‘NCRYS’ class).

We only selected the experimental trials annotated with two states: ‘work stopped’ ‘in PDB’ or ‘crystal structure’.

We did not extract the experimental trials both before 1 January 2009 and after 31 December 2014. This could ensure that we only extracted recent data and excluded trials that are potentially still ongoing at present.

We eliminated non-crystallizable proteins sharing >100% sequence identity with crystallizable proteins. The sequence identity was quantified by the CD-Hit program [ 49].

The constructed TTdata includes 81 279 non-crystallizable proteins and 103 247 crystallizable proteins.

Collection of functional annotations

We retrieved functional annotations of the proteins from UniProt (http://www.UniProt.org/), which included 549 008 proteins from the Swiss-Prot database and 50 011 027 proteins from the TrEMBL database (on 14 July 2015). Swiss-Prot is a collection of entries that are reviewed and manually annotated using a literature search and curator-evaluated computational analysis. TrEMBL is not reviewed in which proteins are annotated computationally. We mapped the proteins in TTdata to both Swiss-Prot and TrEMBL via one-by-one matching of sequences sharing 100% sequence identity. Totally, 5849 crystallizable proteins (positive samples) and 4907 non-crystallizable (negative samples) proteins were mapped to the Swiss-Prot database, constituting the Swiss-Prot data set. Additionally, 8491 crystallizable (positive samples) and 21 426 non-crystallizable (negative samples) proteins were mapped to the TrEMBL database, comprising the TrEMBL data set.

Training and benchmark test data sets

We eliminated sequence redundancy (proteins with >25% sequence identity) within crystallizable proteins contained in either Swiss-Prot or TrEMBL, also eliminated that within non-crystallizable proteins contained in each data set. The sequence identity was qualified by using a combination of CD-Hit [ 49] and BLAST [ 44]. Eliminating sequence redundancy within each data set was based on the observation that the proteins with similar sequences could possess distinct CPs [ 2]. Totally, the Swiss-Prot data set contains 2798 crystallizable and 3096 non-crystallizable proteins (denoted as the ‘SP’ data set), while the TrEMBL data set contains 4994 crystallizable and 9794 non-crystallizable proteins (denoted as the ‘TR’ data set).

Either the SP data set or the TR data set was randomly divided into six equally sized subsets. The first five subsets were merged together to form the training data set (denoted as ‘SP_train’ or ‘TR_train’), while the remaining sixth subset worked as the independent test data set (denoted as ‘SP_test’ or ‘TR_test’).

We further eliminated the proteins sharing >25% sequence identity with those used in other predictors. The resulting four data sets were named as ‘SP_train_nr’, ‘SP_test_nr’, ‘TR_train_nr’ and ‘TR_test_nr’, respectively. These data sets can be downloaded from http://nmrcen.xmu.edu.cn/crysf/.

To examine whether the functional features of similar proteins can be used to predict CP, we mapped TTdata-derived sequences to Swiss-Prot and TrEMBL data sets via one-by-one matching of sequences sharing >90% sequence identity. The resultant data sets were named ‘SP0.9’ and ‘TR0.9’, respectively. Hence, each protein in SP0.9 or TR0.9 is associated with one or more orthologous proteins in the Swiss-Prot data set or the TrEMBL data set.


Introduzione

Abnormal bitterness might be associated with dietary danger. In general, hydrolyzed proteins, plant-derived alkaloids and toxins exhibit unpleasant bitter taste. Thus, the bitter taste perception plays a crucial role in protecting animals from poisonous plants and environmental toxins [1]. The taste perception of humans can be categorized into four well-known groups: sweet, bitter, sour and salty, in addition to two controversial groups, i.e. fat taste and amino acid taste [2]. Although, abnormal or extreme bitterness tends to be associated with dietary danger, a number of diverse plant-derived food produce bitterness such as cucumber, pumpkin, zucchini, squash, lettuce, spinach and kale. In addition, many bitter compounds are important drugs or drug candidates encompassing ions, alkaloids, polyphenols, glucosinolates and peptides. Proteolytic hydrolysis of peptides and proteins have been known to make foods unfavorable [3,4]. In this process, caseins are digested into peptides containing bulky hydrophobic groups at their C-terminal region [3]. Hence, the hydrophobic property of the amino acid side chain at the C-terminus can be attributed to its bitterness. The successful identification and characterization of bitter peptides is essential for drug development and nutritional research.

High-throughput experimental approaches for identifying bitter peptides are time-consuming and costly, thus the development of accurate and fast computational methods is in great demand. Particularly, such computational approach is based on quantitative structure–activity relationship (QSAR) modeling. QSAR is a ligand-based approach that seeks to discern the mathematical relationship between various types of descriptors (X) and their investigated biological activity (Y) through the use of machine learning (ML) models [5]. As mentioned in the Organization for Economic Co-operation and Development (OECD) guideline [[6], [7], [8]], the development of robust QSAR models entails the following characteristics: (i) a defined endpoint (ii) an unambiguous algorithm (iii) a defined domain of applicability (iv) appropriate measures of goodness-of-fit, robustness, and predictive ability and (v) a mechanistic interpretation.


Guarda il video: STRUKTUR DAN FUNGSI ASAM AMINO (Agosto 2022).