Integrazione di pre
Biologia delle comunicazioni volume 6, numero articolo: 876 (2023) Citare questo articolo
2369 accessi
4 Altmetrico
Dettagli sulle metriche
L’apprendimento profondo geometrico ha recentemente ottenuto un grande successo nei domini non euclidei e l’apprendimento sulle strutture 3D di grandi biomolecole sta emergendo come un’area di ricerca distinta. Tuttavia, la sua efficacia è in gran parte limitata a causa della quantità limitata di dati strutturali. Nel frattempo, i modelli del linguaggio proteico addestrati su sostanziali sequenze 1D hanno mostrato capacità crescenti su vasta scala in un'ampia gamma di applicazioni. Diversi studi precedenti considerano la combinazione di queste diverse modalità proteiche per promuovere il potere di rappresentazione delle reti neurali geometriche, ma non riescono a presentare una comprensione completa dei loro benefici. In questo lavoro, integriamo la conoscenza appresa da modelli di linguaggio proteico ben addestrati in diverse reti geometriche all'avanguardia e valutiamo una varietà di parametri di apprendimento della rappresentazione proteica, tra cui la previsione dell'interfaccia proteina-proteina, la valutazione della qualità del modello, la previsione dell'interfaccia proteina-proteina, la valutazione della qualità del modello, Docking proteico del corpo rigido e previsione dell'affinità di legame. I nostri risultati mostrano un miglioramento complessivo del 20% rispetto ai valori di base. Forti prove indicano che l'incorporazione della conoscenza dei modelli del linguaggio proteico migliora la capacità delle reti geometriche con un margine significativo e può essere generalizzata a compiti complessi.
Le macromolecole (ad esempio proteine, RNA o DNA) sono essenziali per i processi biofisici. Sebbene possano essere rappresentati utilizzando rappresentazioni a dimensione inferiore come sequenze lineari (1D) o grafici di legami chimici (2D), una forma più intrinseca e informativa è la geometria tridimensionale1. Le forme 3D sono fondamentali non solo per comprendere i meccanismi fisici d'azione, ma anche per rispondere a una serie di domande associate alla scoperta di farmaci e alla progettazione molecolare2. Di conseguenza, enormi sforzi nella biologia strutturale sono stati dedicati a ricavare informazioni dalle loro conformazioni3,4,5.
Con i rapidi progressi delle tecniche di deep learning (DL), rappresentare e ragionare sulle strutture delle macromolecole nello spazio 3D è stata una sfida interessante. In particolare, diversi tipi di informazioni 3D, comprese le lunghezze dei legami e gli angoli diedri, svolgono un ruolo essenziale. Per codificarli, sono state proposte numerose reti neurali di grafici geometrici 3D (GGNN) o CNN6,7,8,9, che contemporaneamente raggiungono diverse proprietà cruciali della geometria euclidea come l'equivarianza E(3) o SE(3). e simmetria. In particolare, sono costituenti essenziali del geometric deep learning (GDL), un termine generico che generalizza le reti a domini euclidei o non euclidei10.
Nel frattempo, la prevista crescita del sequenziamento promette dati senza precedenti sulla diversità delle sequenze naturali. L'abbondanza di sequenze di amminoacidi 1D ha stimolato un crescente interesse per lo sviluppo di modelli del linguaggio proteico su scala evolutiva, come le serie di ESM11,12,13 e ProtTrans14. Questi modelli del linguaggio proteico possono acquisire informazioni sulle strutture secondarie e terziarie e possono essere generalizzati in un'ampia gamma di applicazioni a valle. Per essere espliciti, è stato recentemente dimostrato che hanno forti capacità di scoprire strutture proteiche12, prevedere l'effetto della variazione di sequenza sulla funzione11, apprendere il ripiegamento inverso15 e molti altri scopi generali13.
Con il fruttuoso progresso nei modelli del linguaggio proteico, sempre più studi hanno considerato di migliorare la capacità dei GGNN sfruttando la conoscenza di tali modelli del linguaggio proteico12,16,17. Questo non è banale perché rispetto all’apprendimento sequenziale, le strutture 3D sono molto più difficili da ottenere e quindi meno diffuse. Di conseguenza, conoscere la struttura delle proteine porta a una quantità ridotta di dati di addestramento. Ad esempio, il database SAbDab18 ha semplicemente 3.000 strutture anticorpo-antigene senza duplicati. Il database SCOPe19 contiene 226.000 strutture annotate, mentre il database SIFTS20 comprende circa 220.000 strutture enzimatiche annotate. Questi numeri sono ordini di grandezza inferiori alle dimensioni dei set di dati che possono ispirare importanti scoperte nella comunità del deep learning. Al contrario, mentre la Protein Data Bank (PDB)21 possiede circa 182.000 strutture di macromolecole, database come Pfam22 e UniParc23 contengono rispettivamente più di 47M e 250M di sequenze proteiche.