Le projet Rosetta@home

par **Loe** Sam 3 Juin 2006 - 17:03

Prédiction et représentation des Structures Macromoléculaires et interactions

# Introduction
# Représentation de la Structure des Proteines
# Représentation des Interactions entre protéines
# Prédiction de la structure des Proteines
# Prédiction des Interactions entre proteines
# développement du modèle physique
# plans pour le Futur

Introduction

Le but de notre recherche actuelle est le développement d'un modèle d'interaction intra et intermoleculaire amélioré, et d'utiliser ce modèle pour imaginer et concevoir des structures macromoléculaires et leurs interactions. Ces applications de prévision et de conception, lesquelles peuvent avoir de fait un grand intérêt en biologie, mais aussi fournir des tests rigoureux et objectifs qui améliorent le modèle et accroissent la compréhension fondamentale.

Nous utilisons un programme informatique appelé Rosetta pour executer les calculs des protéines et leur visualisation. Au coeur de Rosetta, il y a de nombreuses fonctions pour le calcul des énergies d'interaction à l'intérieur et entre les macromolécules, ainsi que des méthodes pour trouver la plus petite strucutre d'énergie pour une séquence d'acide aminé (prédiction de strucutre protéinaire) ou un complexe protéine-protéine., et la plus petite séquence énergétique d'acide aminé pour une protéine ou un complexe protéine-protéine (conception d'une protéine). La réaction à partir des tests de prévision et de conception était continuellement utilisé pour améliorer les fonctions de calcul et la recherche d'algorithmes. Le développement d'un programme de calcul qui contrarient ces divers problèmes était un avantage considérable : Premièrement, les différentes applications fournissent des tests complémentaires pour le modèle physique de sous-couche ( La physique/chimie physique fondamentale est, bien sûr, la même dans tous les cas); Deuxièmement, Beaucoup de problèmes d'actualité, comme la représentation de la colonne protéinaire flexible et l'arrimage protéine-protéine avec la flexibilité de la colonne, entraîne une combinaison de différentes méthodes d'optimisation.

Représentation de la strucutre des protéines

Il y a quelques années, nous avons utilisé notre méthode de conception de protéines informatisée pour stabiliser de façon critique quelques petites protéines en redessinant chaque élément de leurs séquences, pour retracer la conformation de la chaîne principale des protéines, pour convertir une protéine monomérique vers une variante par translocation de brins, et pour thermostabiliser une enzyme. un point culminant fut le retraçage du cheminement de la pliure de la protéine G, une petite protéine contenant deux béta-hairpins (épingle à cheveux) séparées par une alpha-helix (hélice). Dans la présente protéine naturelle, la première épingle est interrompue et la seconde est formée à l'étape du taux limite de pliage. Dans une variante retracée dans laquelle la première épingle est stabilisée de façon significative et la seconde déstabilisée, l'ordre des évènements est renversé : La première épingle est formée est la seconde interrompue dans l'état de transition du pliage. La capacité de redessiner convenablement les cheminements des pliures des protéines montre que notre compréhention des déterminantes des pliures de protéines a avancé considérablement.

Le projet Rosetta@home Research_fig1

Figure 1: Traçage de protéines et d'interactions protéines-protéines avec une précision haute résolution. Comparaison de traçage de modèles et de structure en cristal entre (à gauche) une interface 'novel' représentant une endonucléase avec les nouvelles spécifications des clivages ADN, et (à droite) le 'de novo' représentant la protéine TOP7.

Récemment, une création particulièrement intéressante de protéines originales avec des structures tri-dimensionnelles arbitrairement choisies a été établie. Nous avons développé une stratégie générale de calcul pour créer ces structures de protéine qui incorpore la flexibilité de la chaine principale dans l'optimisation de la séquence spiralée. Ceci a été accompli par intégration ab initio de prédiction des structure des protéines, le raffinement de l'énergie au niveau atomique, et le traçage des séquences dans Rosetta. La procédure a été utilisée pour dessiner une protéine de 93 éléments appelée TOP7 avec une séquence et une topologie originales. TOP7 fut trouvée comme étant monomérique et pliée, et la structure en cristal aux rayons X de TOP7 est extraordonairement similaire (RMSD = 1,2 Amgström; Voir la partie droite de la figure 1) au modèle traçé. La représentation d'un nouveau pli de protéine globulaire, et la correspondance intime de la structure du cristal avec le modèle tracé a de grandes implications pour la visualisation de protéine et la prédiction de structure de protéines, et ouvre la porte à l'exploration de larges territoires de l'univers de protéines non encore observées dans la nature.

Représentation des Interactions Protéine-Protéine

Pour étendre ces méthodes aux interactions protéine-protéine, et particulièrement pour le retraçage des spécificités d'interaction, nous avons choisi le complexe de haute affinité entre colicin E7 DNase et ces inhibiteur d'immunité des protéines analogues comme un programme modèle. Nous avons utilisé le modèle physique décrit ci-dessus et une modification de notre stratégie de calcul de traçage basé sur la recherche de rotamères pour générer une paire inhibiteur DNase de protéines originales, prévue pour interagir étroitement avec une autre, mais pas avec des protéines de type délirant. Les protéines complexes désignées ont des affinités subnanomolaires, sont fonctionnelles et spécifiquement in vivo, et ont plus d'un ordre d'ampleur de différence d'affinité entre les paires analogues et non analogues in vitro. Cette approche doit être appicable pour la représentation des paires de protéines interactives avec des spécificités originales pour esquisser et réinventer les réseaux d'interaction des protéines dans les cellules vivantes.

En collaboration avec les groupes de recherche de Barry Stoddart et Ray Monnat ( Fred Hutchinson Cancer Research Center), nous avons généré une endonucléase artificielle et hautement spécifique par fusion de domaines d'hébergement d'endonucléases I-DmoI et I-CreI? à travers l'optimisation de calcul d'une nouvelle interface domaine-domaine entre ces protéines normalement non interactives. L'enzyme résultante, l'E-DreI? (Engineered I-DmoI/I-CreI?), relie une longue et chimérique zone ciblée ADN avec des affinités nanomolaire, le séparant de façon précise à un taux équivalent de ses parents naturels. Nous sommes à présent en train d'essayer de générer de nouvelles endonucléases par extension de notre méthodologie de représentation des interfaces acide nucléique-protéine pour retracer l'interface ADN-protéine.

Dans ces deux systèmes, il a été possible de déterminer les structures en cristal aux rayons X des complexes désignés. Comme dans le cas TOP7, les structures actuelles sont très proches des modèles représentés (figure 1, côté gauche), ce qui valide la précision de notre approche du modelage haute résolution.

par **Loe** Sam 3 Juin 2006 - 17:04

Prediction de la structure des Proteines

L'image de pliage de protéines qui a motivée notre approche pour la prédiction des structures tertiaires des protéines ab initio, c'est celle d'interactions locales influencant des séquences en faveur de maillons de la chaîne pour échantillonner des ensembles distincts de structures locale, et celles d'interactions non locales qui sélectionnent les plus basses structures tertiaires d'énergie libre à partir de beaucoup de conformations compatibles avec ces influences locales. En implémentant la stratégie suggérée par cette image, nous utilisons différents modèles pour traiter les interactions locales et non locales. Plutôt que de tenter un modèle physique pour les relations séquence-structure locales, nous nous tournons vers la base de donnée des protéines et utilisons la répartition des structures adoptées par séquences courtes (moins de 10 éléments en longueur) dans les structures tri-dimentionnelles connues comme une approximation de la répartition des structures échantillonnées par peptides isolés avec les séquences correspondantes.

Les interactions non locales primaires considérées sont mortellement hydrophobes, électrostatiques, liés à l'hydrogène par la chaîne principale, et d'un volume exclusif. Les structures qui ont une concordance simultanée avec à la fois la séquence de structure locale influente et les interactions non locales, sont générées en utilisant la recuite simulée pour minimiser l'énergie d'interaction non locale dans l'espace défini par les répartitions des structures locales.

Le projet Rosetta@home Research_fig2

Figure 2: Prédictions de structure aveugle de CASP3 et CASP4.

A : A gauche, structure en cristal de la transcription du facteur lié à l'ADN 'MarA?' ; à droite, notre meilleur modèle moumis dans CASP3. Malgré beaucoup de détails incorrect, la pliure globale est prédite avec suffisamment d'exactitude pour permettre des apercus à l'intérieur du mode de liaison de l'ADN.

B : A gauche, la structure en cristal du bactériocine AS-48 ; au milieu, notre meilleur modèle soumis dans CASP4 ; à droite, une protéine apparentée à une autre structurée et fonctionnelle (NK-lysin) identifiée en utilisant ce modèle dans une recherche basée sur la structure de la banque de donnée des protéines (PDB). La similarité structurelle et fonctionnelle n'est pas reconnaissable en utilisant les méthodes de comparaison séquentielles (l'identification entre les deux séquences est seulement de 5 pour cent).

C : A gauche, une structure en cristal du second domaine de MutS? ; au milieu, notre meilleur modèle pour ce domaine soumis dans CASP4 ; à droite, une protéine structurellement proche (RuvC?) avec une fonction apparentée reconnue en utilisant le modèle d'une recherche basée sur la structure issu de la PDB. La similitude n'était pas reconnus en utilisant les méthodes de comparaison séquentielle ou de reconnaissance de pliure.

Rosetta a été testé aux expériences bisannuelles du CASP (Assises Critiques de la Prédiction de Structures) dans lesquelles les prédicteurs ? sont mis au défi de prédéterminer "à l'aveugle" les structures adoptées par les séquences de protéines, celles-ci ayant été définies mais pas encore publiées. Depuis CASP3 en 1998, Rosetta a continuellement été la meilleure méthode de calcul pour les prédictions ab initio comme cela a été rapporté par des observateurs indépendants. Dans l'expérience CASP4, par exemple, Rosetta a été testé sur 21 protéines. Les prédictions pour ces protéines, dont les similitudes dans les lacunes de séquence détectables avec des protéines avec une structure déterminée précédemment , furent d'une précision et cohérence encore sans précédent. (Quelques exemples sont présentés Figure 2.) D'excellentes prédictions ont aussi été faites lors des expériences de CASP5 et CASP6. Encouragés par ces résultats prometteurs, nous avons généré des modèles pour toutes les famille de macro-protéines dont la longueur est composées de moins de 150 acides aminés.

Le projet Rosetta@home Research_fig3

Figure 3: La première finalisation d’une résolution de niveau atomique d’une prédiction aveugle de structure ab initio – CASP6 T281. La méthodologie de raffinement haute résolution décrite dans le texte a produit un modèle à1,5 Angström RMSD près de la structure en cristal (à gauche), avec les aspects du paquetage de la chaîne latérale originelle (à droite).

Un des points forts de CASP6 était la prédiction du premier 'de novo' aveugle qu'a utilisé notre méthodologie d'amélioration haute résolution pour atteindre une exactitude proche de la haute résolution. La séquence relativement courte (76 éléments) nous permet d'appliquer notre méthodologie d'amélioration atome par atome non seulement pour les séquences originelles, mais aussi pour les séquences par beaucoup analogues. Le centre du groupe d'énergie le plus bas des structures se déplace pour être remarquablement fermé pour les structures natives (1,5 Angström, Figure 3). Le protocole d'amélioration haute résolution réduit le RMSD de 2,2 à 1,5 Angström, et le jeu de chaînes latérales dans un comportement assez ressemblant à l'original dans le centre des protéines (Figure 3, partie droite).

Nous avons étendu la stratégie de prédiction ab initio de structure de Rosetta au problème de l'utilisation de données expérimentales limitées pour de générer des modèles de protéines. Par incorporation de déplacements chimiques, d'informations NOE, et plus récemment d'informations dipolaire couplées dans la procédure de génération de structures de Rosetta, nous avons été capable de générer bien plus de modèles exacts qu'avec la seule prédiction ab initio de structures, ou lors de l'utilisation des mêmes données limitées avec la méthodologie de génération de structure par résonnance magnétique nucléaire (NMR) conventionnelle. c'est développement récent passionnant que la procédure de Rosetta puisse alors exploiter des données NMR non attribuées et de là contourner la difficulté et l'étape fastidieuse de l'affectation du spectre NMR.

La méthode de prédiction de structure ab initio de Rosetta, Celle de détermination de structure NMR basée sur Rosetta, et la nouvelle pour la représentation comparative qui utilise l'approche 'de novo' de Rosetta, afin de modéliser une partie d'une structure (Longues boucles primaires) qui ne pouvait pas l'être à partir d'une base précise sur un modèle de structure analogue, ont toutes été implémentées dans un serveur public appelé Robetta
( Robetta). Ce serveur, qui a un constant Backlog d'utilisateurs à travers le monde, était l'un des meilleurs serveurs à la ronde entièrement automatisé de prédiction de structure dans les tests CASP5 et CASP6.

Prédiction des Interactions Protéine-Protéine

Depuis de nombreuses années nous avons travaillé sur le perfectionnement de la structure protéique, un vrai défi du fait d'un grand nombre de degrés de liberté. Nous avons été intéressés par l'arrimage entre les protéines parce que, en admettant que les deux partenaires ne subissent pas de changement de configuration de façon significative durant l'arrimage, l'espace à chercher -les six degrés de liberté de l'axe protéique en plus des degrés de liberté de la chaine latérale- est beaucoup plus petit. Bien qu'important en lui même, ce problème est une bonne marche à gravir vers un plus épineux problème qu'est le perfectionnement de la structure.

Nous avons développé une nouvelle méthode afin de prévoir les complexes protéiques à partir de coordonnées de composants monomères non liés. Cette méthode utilise une recherche à Monte Carlo en basse résolution et corps rigides, suivie par une optimisation simultanée du déplacement de la chaîne principale et des conformations des chaînes latérales, avec la procédure de minimisation de Monte Carlo et le modèle physique utilisé dans notre travail de prédiction des structures en haute résolution. L'optimisation simultanée des chaînes latérales et des degrés de liberté des corps rigides contraste avec la plupart des autre approches actuelles,lesquels modélisent l'assemblage protéine-protéine comme un problème de corps rigide de forme identique, avec les chanes latérales tenues fixées. Nous avons récemment amélioré la méthode (RosettaDock?) en développant l'algorithme qui alloue un échantillonnage efficace aux conformations des chaînes latérales hors rotamères durant l'assemblage.

Le projet Rosetta@home Research_fig4

Figure 4: Résultats d'assemblage protéine-protéine avec CAPRI (Evaluation judicieuse des interactions prédites). Superposition des structures compexes de protéine prédites (en bleu) et aux rayons X (en rouge et orange). En vert, une chaîne latérale pour laquelle la conformation a été correctement prédite pour transformer la formation du complexe. Dans la partie du haut, le complexe entier. Dans la partie du bas, des détails de l'interface. En plus de l'orientation du corps rigide, les conformations de la plupart des chaînes latérales sont correctement prédites.

La puissance RosettaDock? a été mis en valeur dans le récent assemblage protéine-protéine aveugle de CAPRI, qui fut trouvé en décembre 2004. Dans CAPRI, les predicteurs ont donné les structures de deux protéines connues pour former un complexe, et pariés qu'ils allaient prédirent la structure de ce complexe. Les prédictions de RosettaDock? pour les cibles sans conformation de chaîne principale significative furent frappantes, comme montré dans la figure 4. Non seulement les orientation du corps rigide de deux partenaires furent proche de la perfection, mais également presque toute l'interface des chaines latérales fut modélisée trés précisément. Ces modèles corrects ressortent clairement comme d'énergie moindre que tous les autres modèles que nous avons généré, ce qui suggère que la fonction potentielle est suffisemment précis.

Ces résultats prometteurs suggèrent que la méthode devrait bientôt être utilisable pour générer de modèles d'importants complexes biologiques à partir des structures des composants isolés, et suggérer plus généralement que la modélisation haute résolution de structures et interactions est de portée inférieure. Un but clair pour notre travail de prédiction de structure monomérique est d'approcher le niveau de précision de ces modèles.

Améliorations du modèle physique

Notre approche courante pour améliorer les fonctions d'énergie implique une combinaison de calculs de chimie quantique sur des modèles simples de composants, de méthodes issues des la mécanique moléculaire traditionelle, et de l'analyse structurelles de proteine. Nous avons utilisé une telle approche pour développer une liaison hydrogène améliorée. Un résultat particulièrement notable est que la dépendance de l'orientation de la liaison hydrogène en chimie quantique des dimères formamide est remarquablement similaire à celle visible dans les liaisons hydrogène de type chaine latérale-chaine latérale des structures des protéines mais différente de celle des champs de force de la mécanique moléculaire courante, laquelle néglige le caractère covalent de la liaison hydrogène. Le retour d'informations provenant des prédictions et des calculs de conception ont insufflé un élan continu et montré la direction pour améliorer la fonction d'énergie; par exemple, des inadéquations dans notre traitement des interactions protéine-protéine ont amené au développement récent d'un modèle des rotamères pour les liaisons hydrogènes en solution aqueuse.

Plans pour le futur

Nos méthodes de prédiction et de représentation ont maintenant abouties au point où ils peuvent être appliqués à d'importants problèmes biologiques. Après des années de travail en modélisation haute résolution, les prédictions rigoureuses de résolution atomique de structures de complexes dans CAPRI (figure 4), les prédictions de 1,5 Angstrôm de novo dans CASP6 (figure 3), et les accords étroits entre TOP7 (figure 1 , à droite) et l'interface de représentation de modèle protéine-protéine avec les structures en cristal par rayon X sont particulièrement encourageant. Ces résultats suggèrent que la modélisation haute résolution commence à fonctionner.

Dans les quelques années à venir, Nous avons pour but d'améliorer et d'étendre nos méthodes. Nous sommes particulièrement focalisés sur l'amélioration de la précision des prédiction de structure haute résolution (Lesquelles seront demandées si les modèles sont par la suite utilisés de façon générale). Pour accomplir ceci, nous travaillerons à l'amélioration du modèle de sous couche physique et de la méthodologie d'échantillonnage. Nous sommes donc en train de développer les méthodes pour prédire et représenter les spécificités d'interaction ADN-protéines, et d'étendre notre méthodologie de représentation des protéines pour le traçage des enzymes qui catalysent les réactions qui ne le sont pas actuellement par les protéines naturelles.

Visitez notre site officiel http://www.bakerlab.org pour plus d'informations incluant la liste de nos publications d'activités. (en anglais)

(Source: la team Alliance Francophone pour la traduction)

Le projet Rosetta@home

Le projet Rosetta@home

Re: Le projet Rosetta@home