Prédiction de la structure des protéines

La prévision de la structure des protéines est l'inférence de la structure tridimensionnelle d'une protéine à partir de sa séquence d'acides aminés, c'est-à-dire la prédiction de son pliage et de sa structure secondaire et tertiaire de sa structure primaire. La prédiction de la structure est fondamentalement différente du problème inverse de la conception des protéines. La prédiction de la structure protéique est l'un des objectifs les plus importants poursuivis par la bioinformatique et la chimie théorique; Elle est très importante en médecine (par exemple, dans la conception de médicaments) et en biotechnologie (par exemple, dans la conception de nouvelles enzymes). Tous les deux ans, la performance des méthodes actuelles est évaluée dans l'expérience CASP (Évaluation critique des techniques de prédiction des protéines). Une évaluation continue des serveurs Web de prédiction de la structure des protéines est réalisée par le projet communautaire CAMEO3D.

Constituent amino-acids can be analyzed to predict secondary, tertiary and quaternary protein structure.

Structure et terminologie des protéines

Les protéines sont des chaînes d'acides aminés réunis par des liaisons peptidiques. De nombreuses conformations de cette chaîne sont possibles du fait de la rotation de la chaîne autour de chaque atome de carbone (Cα). Ce sont ces changements de conformation qui sont responsables des différences dans la structure tridimensionnelle des protéines. Chaque acide aminé de la chaîne est polaire, c'est-à-dire qu'il a séparé des régions chargées positives et négatives avec un groupe C = O libre, qui peut agir comme accepteur de liaison hydrogène et un groupe NH, qui peut agir comme donneur de liaison hydrogène. Ces groupes peuvent donc interagir dans la structure protéique. Les 20 acides aminés peuvent être classés selon la chimie de la chaîne latérale qui joue également un rôle structurel important. La glycine occupe une position particulière, car elle possède la plus petite chaîne latérale, un seul atome d'hydrogène, et donc peut augmenter la flexibilité locale dans la structure protéique. La cystéine, d'autre part, peut réagir avec un autre résidu cystéine et ainsi former une liaison croisée stabilisant la structure entière.

Bond angles for ψ and ω

La structure protéique peut être considérée comme une séquence d'éléments structurels secondaires, tels que des hélices α et des feuilles β, qui constituent ensemble la configuration tridimensionnelle globale de la chaîne protéique. Dans ces structures secondaires, des motifs réguliers de liaisons H sont formés entre des acides aminés voisins, et les acides aminés ont des angles Φ et ω similaires.

La formation de ces structures neutralise les groupes polaires sur chaque acide aminé. Les structures secondaires sont étroitement emballées dans le cœur de protéine dans un environnement hydrophobe. Chaque groupe latéral d'acides aminés a un volume limité à occuper et un nombre limité d'interactions possibles avec d'autres chaînes latérales proches, une situation qui doit être prise en compte dans la modélisation moléculaire et les alignements[1].

Hélice α

L'hélice α est le type le plus abondant de structure secondaire dans les protéines. L'hélice α est constituée de 3,6 acides aminés par tour avec une liaison H formée entre chaque quatrième résidu; La longueur moyenne est de 10 acides aminés (3 tours) ou 10 Å mais varie de 5 à 40 (1,5 à 11 tours). L'alignement des liaisons H crée un moment dipolaire pour l'hélice avec une charge positive partielle résultante à l'extrémité aminée de l'hélice. Comme cette région a des groupes NH2 libres, elle interagira avec des groupes chargés négativement tels que des phosphates. La localisation la plus courante des hélices α est à la surface des noyaux de protéines, où elles fournissent une interface avec le milieu aqueux. Le côté tourné vers l'intérieur de l'hélice a tendance à avoir des acides aminés hydrophobes et le côté extérieurs des acides aminés hydrophiles latéraux. Ainsi, chaque tiers de quatre acides aminés le long de la chaîne aura tendance à être hydrophobe, un motif qui peut être facilement détecté. Dans le motif à leucine, un motif récurrent de leucines sur les côtés opposés de deux hélices adjacentes est très prédictif du motif. Un tracé de roue hélicoïdale peut être utilisé pour montrer ce motif répété. D'autres hélices α enterrées dans le noyau de protéine ou dans des membranes cellulaires ont une distribution plus élevée et plus régulière d'acides aminés hydrophobes et sont fortement prédictives de telles structures. Les hélices exposées à la surface ont une proportion plus faible d'acides aminés hydrophobes. La teneur en acides aminés peut être prédictive d'une région α-hélicoïdale. Les régions riches en alanine (A), acide glutamique (E), leucine (L) et méthionine (M) et plus pauvres en proline (P), Glycine (G), tyrosine (Y) et serine (S) tendent à former une hélice a. La proline déstabilise ou casse une hélice a mais peut être présente dans des hélices plus longues, formant un virage.

Une hélice alpha avec des liaisons hydrogène (points jaunes)

Feuillets β

Les feuillets β sont formés par des liaisons H entre une moyenne de 5-10 acides aminés consécutifs dans une partie de la chaîne avec un 5 à 10 autres acides aminés plus loin dans la chaîne. Les régions d'interaction peuvent être adjacentes, avec une courte boucle entre elles, ou éloignée, avec d'autres structures entre elles. Chaque chaîne peut courir dans le même sens pour former une feuille parallèle, chaque autre chaîne peut fonctionner dans le sens chimique inverse pour former une feuille anti-parallèle, ou les chaînes peuvent être parallèles et anti-parallèles pour former une feuille mélangée. Le collage est différent dans les configurations parallèles et anti-parallèles. Chaque acide aminé dans les brins intérieurs de la feuille forme deux liaisons H avec des acides aminés voisins, alors que chaque acide aminé sur les brins extérieurs ne forme qu'une liaison avec un brin intérieur. En regardant à travers la feuille perpendiculairement aux brins, les brins plus éloignés sont tournés légèrement dans le sens contraire des aiguilles d'une montre pour former une torsion gauchère. Les atomes de Cα alternent au-dessus et au-dessous de la feuille dans une structure plissée, et les groupes latéraux R des acides aminés alternent au-dessus et au-dessous des plis. Les angles Φ et Ψ des acides aminés en feuilles varient considérablement dans une région de la parcelle de Ramachandran. Il est plus difficile de prédire l'emplacement des feuilles β que des hélices α. La situation s'améliore quelque peu lorsque la variation des acides aminés dans les alignements de séquences multiples est prise en compte.

Coudes

Les coudes sont des régions d'une chaîne protéique qui sont (1) entre des hélices α et des feuilles β, (2) de différentes longueurs et des configurations tridimensionnelles, et (3) sur la surface de la structure. Des boucles en épingle à cheveux qui représentent un tour complet dans la chaîne polypeptidique joignant deux brins ß antiparallèles peuvent être aussi courtes que deux acides aminés de longueur. Les coudes interagissent avec l'environnement aqueux environnant et d'autres protéines. Puisque les acides aminés dans les boucles ne sont pas contraints par l'espace et l'environnement comme le sont les acides aminés dans la région centrale, et n'ont pas d'effet sur l'agencement des structures secondaires dans le noyau, plus de substitutions, d'insertions et de délétions peuvent se produire. Ainsi, dans un alignement de séquence, la présence de ces caractéristiques peut être une indication d'une boucle. Les boucles ont également tendance à avoir des acides aminés chargés et polaires et sont fréquemment une composante des sites actifs.

Enroulements

Une région de structure secondaire qui n'est pas une hélice α, une feuille β ou une spire reconnaissable est communément appelée enroulement.

Classification des protéines

Les protéines peuvent être classées en fonction de la structure et de la similitude des séquences. Pour la classification structurale, les tailles et les agencements spatiaux des structures secondaires décrites dans le paragraphe ci-dessus sont comparés dans des structures tridimensionnelles connues. La classification basée sur la similitude de séquence était historiquement la première à être utilisée. Initialement, la similarité basée sur des alignements de séquences entières a été effectuée. Plus tard, les protéines ont été classées sur la base de l'apparition de motifs d'acides aminés conservés. Des bases de données qui classent les protéines par un ou plusieurs de ces schémas sont disponibles. En considérant les schémas de classification des protéines, il est important de garder plusieurs observations à l'esprit. Premièrement, deux séquences de protéines entièrement différentes provenant d'origines évolutives différentes peuvent se plier dans une structure similaire. Inversement, la séquence d'un gène ancien pour une structure donnée peut avoir divergé considérablement dans différentes espèces tout en conservant les mêmes caractéristiques structurelles de base. Reconnaître toute similarité de séquence restante dans de tels cas peut être une tâche très difficile. Deuxièmement, deux protéines qui partagent un degré significatif de similarité de séquence, soit l'une avec l'autre, soit avec une troisième séquence, partagent également une origine évolutive et devraient également partager certaines caractéristiques structurelles. Toutefois, la duplication des gènes et les réarrangements génétiques au cours de l'évolution peuvent donner lieu à de nouvelles copies de gènes, qui peuvent ensuite évoluer en protéines avec une nouvelle fonction et une nouvelle structure.

Termes les plus couramment utilisés

Les termes les plus couramment utilisés pour les relations évolutives et structurelles entre les protéines sont énumérés ci-dessous. De nombreux termes supplémentaires sont utilisés pour divers types de caractéristiques structurelles trouvées dans les protéines. Des descriptions de ces termes peuvent être trouvées sur le site Web de la CATH, le site Web de la Classification structurelle des protéines (SCOP) et un tutoriel Glaxo-Wellcome sur le site Web de Swiss Bioinformatics Expasy.

site actif

Une combinaison localisée de groupes latéraux d'acides aminés au sein de la structure tertiaire (tridimensionnelle) ou quaternaire (sous-unité de protéine) qui peut interagir avec un substrat chimiquement spécifique et qui fournit à la protéine une activité biologique. Les protéines de séquences d'acides aminés très différentes peuvent se plier dans une structure qui produit le même site actif.

architecture

Les orientations relatives des structures secondaires dans une structure tridimensionnelle sans considérer si elles partagent ou non une structure de boucle similaire.

plier

Un type d'architecture qui a également une structure de boucle conservée.

Blocs

Un modèle de séquence d'acides aminés conservé dans une famille de protéines. Le motif comprend une série de correspondances possibles à chaque position dans les séquences représentées, mais il n'y a pas de positions insérées ou supprimées dans le motif ou dans les séquences. En revanche, les profils de séquence sont un type de matrice de notation qui représente un ensemble de motifs semblables qui comprend des insertions et des suppressions.

classe

Terme utilisé pour classer les domaines protéiques selon leur contenu structurel secondaire et leur organisation. Quatre classes ont été initialement reconnues par Levitt et Chothia (1976), et plusieurs autres ont été ajoutées dans la base de données SCOP. Trois classes sont données dans la base de données CATH: principalement-α, principalement-β, et α-β, la classe α-β comprenant les structures alternantes α / β et α + β.

cœur

La partie d'une molécule de protéine repliée qui comprend l'intérieur hydrophobe des hélices α et des feuilles β. La structure compacte rassemble les groupes latéraux d'acides aminés dans une proximité suffisamment proche pour qu'ils puissent interagir. Lors de la comparaison des structures protéiques, comme dans la base de données SCOP, core est la région commune à la plupart des structures qui partagent un pli commun ou qui sont dans la même superfamille. Dans la prédiction de structure, le noyau est parfois défini comme l'arrangement de structures secondaires qui est susceptible d'être conservé pendant le changement évolutionnaire.

Domaine (contexte de séquence)

Un segment d'une chaîne polypeptidique qui peut se replier dans une structure tridimensionnelle indépendamment de la présence d'autres segments de la chaîne. Les domaines distincts d'une protéine donnée peuvent interagir de manière extensive ou peuvent être joints seulement par une longueur de chaîne polypeptidique. Une protéine avec plusieurs domaines peut utiliser ces domaines pour des interactions fonctionnelles avec différentes molécules.

Famille (contexte de séquence)

Un groupe de protéines de même fonction biochimique qui sont identiques à plus de 50 % lorsqu'elles sont alignées. Cette même coupure est encore utilisée par la Protein Information Resource (PIR). Une famille de protéines comprend des protéines ayant la même fonction dans différents organismes (séquences orthologues) mais peut également inclure des protéines dans le même organisme (séquences paralogues) dérivées de duplication de gènes et de réarrangements. Si un alignement de séquences multiples d'une famille de protéines révèle un niveau commun de similarité sur toute la longueur des protéines, PIR se réfère à la famille comme une famille homéomorphique. La région alignée est appelée domaine homéomorphe, et cette région peut comprendre plusieurs domaines d'homologie plus petits qui sont partagés avec d'autres familles. Les familles peuvent être subdivisées en sous-familles ou regroupées en superfamilles en fonction des niveaux respectifs de similitude des séquences. La base de données SCOP rapporte 1296 familles et la base de données CATH (version 1.7 bêta), rapporte 1846 familles.

Lorsqu'on examine plus en détail les séquences de protéines ayant la même fonction, on constate qu'elles partagent une grande similitude de séquence. Ils sont évidemment membres de la même famille selon les critères ci-dessus. Cependant, d'autres sont trouvés qui ont très peu, voire insignifiant, la similitude de séquence avec d'autres membres de la famille. Dans de tels cas, la relation familiale entre deux membres de la famille distants A et C peut souvent être démontrée en trouvant un membre de famille supplémentaire B qui partage une similarité significative avec A et C. Ainsi, B fournit un lien de connexion entre A et C. Une autre approche Est d'examiner les alignements éloignés pour les matchs très conservés.

À un niveau d'identité de 50 %, les protéines sont susceptibles d'avoir la même structure tridimensionnelle, et les atomes identiques dans l'alignement de séquence seront également superposer dans environ 1 Å dans le modèle structurel. Ainsi, si la structure d'un membre d'une famille est connue, une prédiction fiable peut être faite pour un deuxième membre de la famille, et plus le niveau d'identité est élevé, plus la prédiction est fiable. La modélisation structurale des protéines peut être réalisée en examinant à quel point les substitutions d'acides aminés s'intègrent dans le noyau de la structure tridimensionnelle.

Repli

Un repli est similaire au motif structurel, il comprend une plus grande combinaison d'unités structurelles secondaires dans la même configuration. Ainsi, les protéines partageant le même pli ont la même combinaison de structures secondaires qui sont reliées par des boucles similaires. Un exemple est le pli de Rossmann comprenant plusieurs hélices α alternées et brins β parallèles. Dans les bases de données SCOP, CATH et FSSP, les structures protéiques connues ont été classées en niveaux hiérarchiques de complexité structurelle avec le pli comme niveau de classification de base.

Domaine homologue (contexte de séquence)

C'est un modèle de séquence étendu, généralement trouvé par des méthodes d'alignement de séquences, qui indique une origine évolutive commune parmi les séquences alignées. Un domaine d'homologie est généralement plus long que des motifs. Le domaine peut inclure toute une séquence de protéine donnée ou seulement une partie de la séquence. Certains domaines sont complexes et composés de plusieurs domaines d'homologie plus petits qui se sont joints pour former un plus grand au cours de l'évolution. Un domaine qui couvre une séquence entière est appelé le domaine homéomorphique par PIR (Protein Information Resource).

Module

C'est une région de motifs d'acides aminés conservés comprenant un ou plusieurs motifs et considérée comme une unité fondamentale de structure ou de fonction. La présence d'un module a également été utilisée pour classer les protéines en familles.

Motif de protéine (contexte de séquence)

C'est un modèle conservé d'acides aminés qui se trouve dans deux ou plusieurs protéines. Dans le catalogue PROSITE, un motif est un motif d'acide aminé qui se trouve dans un groupe de protéines qui ont une activité biochimique similaire, et qui est souvent près du site actif de la protéine. Des exemples de base de données de motifs de séquence sont le catalogue PROSITE et la base de données Stanford Motifs[2].

Motif (contexte structurel)

C'est une combinaison de plusieurs éléments structurels secondaires produits par pliage de sections adjacentes de la chaîne polypeptidique en une configuration tridimensionnelle spécifique. Un exemple est le motif hélice-boucle-hélice. Les motifs structuraux sont également appelés structures super-secondaires et plis.

Matrice de notation

C'est une matrice de notation spécifique à la position (contexte de séquence, également connu sous le nom de poids ou matrice de notation): qui représente une région conservée dans un alignement de séquences multiples sans lacunes. Chaque colonne de matrice représente la variation trouvée dans une colonne de l'alignement de séquence multiple. La matrice de notation spécifique à la position 3D (contexte structurel) représente la variation d'acides aminés trouvée dans un alignement de protéines qui appartiennent à la même classe structurelle. Les colonnes de matrice représentent la variation d'acides aminés trouvée à une position d'acide aminé dans les structures alignées.

Structure primaire

C'est une linéaire d'acides aminés d'une protéine, qui chimiquement est une chaîne polypeptidique composée d'acides aminés rejoints par des liaisons peptidiques.

Profil (contexte de séquence)

C'est une matrice de notation qui représente un alignement de séquences multiples d'une famille de protéines; Le profil est habituellement obtenu à partir d'une région bien conservée dans un alignement de séquences multiples. Le profil est sous la forme d'une matrice avec chaque colonne représentant une position dans l'alignement et chaque ligne l'un des acides aminés. Les valeurs de matrice donnent la probabilité de chaque acide aminé à la position correspondante dans l'alignement. Le profil est déplacé le long de la séquence cible pour localiser les meilleures régions de notation par un algorithme de programmation dynamique. Les écarts sont autorisés pendant l'appariement et une pénalité d'écart est incluse dans ce cas comme un score négatif quand aucun acide aminé n'est apparié. Un profil de séquence peut également être représenté par un modèle de Markov caché, appelé profil HMM (modèle de markov caché). Profil (contexte structurel): une matrice de notation qui représente quels acides aminés doivent bien s'adapter et qui ne devraient pas convenir à des positions séquentielles dans une structure protéique connue. Les colonnes de profil représentent des positions séquentielles dans la structure et les rangées de profil représentent les 20 acides aminés. Comme pour un profil de séquence, le profil structurel est déplacé le long d'une séquence cible pour trouver le score d'alignement le plus élevé possible par un algorithme de programmation dynamique. Les écarts peuvent être inclus et recevoir une pénalité. Le score résultant fournit une indication quant à savoir si oui ou non la protéine cible pourrait adopter une telle structure.

La structure tridimensionnelle

C'est la structure tridimensionnelle d'une molécule de protéine comprenant plusieurs chaînes polypeptidiques indépendantes. Les interactions qui se produisent entre les groupes C, O et NH sur les acides aminés dans une chaîne polypeptidique pour former des hélices α, des feuilles ß, des spires, des boucles et d'autres formes, Et qui facilitent le pliage dans une structure tridimensionnelle.

Superfamille

C'est un groupe de familles de protéines de même longueur ou de différentes longueurs qui sont liées par une similarité de séquence distante mais détectable. Les membres d'une superfamille donnée ont donc une origine évolutive commune. À l'origine, Dayhoff définit le seuil pour le statut de superfamille comme étant la chance que les séquences ne soient pas liées de 10 6, sur la base d'un score d'alignement (Dayhoff et al., 1978). Les protéines ayant peu d'identités dans un alignement des séquences mais avec un nombre convaincant commun de caractéristiques structurelles et fonctionnelles sont placées dans la même superfamille. Au niveau de la structure tridimensionnelle, les protéines de la superfamille partagent des caractéristiques structurelles communes telles qu'un pli commun, mais il peut également y avoir des différences dans le nombre et la disposition des structures secondaires. La ressource PIR utilise le terme «superfamille homéomorphes» pour désigner des superfamilles qui sont composées de séquences qui peuvent être alignées de bout en bout, représentant un partage d'un domaine d'homologie de séquence unique, une région de similarité qui s'étend tout au long de l'alignement. Ce domaine peut également comprendre des domaines d'homologie plus petits qui sont partagés avec d'autres familles de protéines et des superfamilles. Bien qu'une séquence de protéine donnée puisse contenir des domaines trouvés dans plusieurs superfamilles, indiquant ainsi une histoire évolutive complexe, les séquences seront assignées à une seule superfamille homéomorphique basée sur la présence de similarité dans un alignement de séquence multiple. L'alignement de la superfamille peut également comprendre des régions qui ne s'alignent ni à l'intérieur ni aux extrémités de l'alignement. En revanche, les séquences dans la même famille s'alignent bien tout au long de l'alignement.

Structure supersecondaire

Terme ayant une signification similaire pour un motif structurel. La structure tertiaire est la structure tridimensionnelle ou globulaire formée par l'assemblage ou le pliage des structures secondaires d'une chaîne polypeptidique.

Structure secondaire

Le fond de cette section est à vérifier (décembre 2016).
Améliorez-le ou discutez des points à vérifier. Si vous venez d’apposer le bandeau, merci d’indiquer ici les points à vérifier.

La prédiction de la structure secondaire est un ensemble de techniques en bio-informatique qui visent à prédire la structure locale de la protéine basée uniquement sur la connaissance de leur acide aminé Séquence. Pour les protéines, une prédiction consiste à assigner des régions de la séquence d'acides aminés comme probables hélices alpha, brin bêta s (souvent notées comme des conformations «étendues») (Biochimie) | Le succès d'une prédiction est déterminé en le comparant aux résultats de l'algorithme DSSP (protéine) (ou similaire, par exemple STRIDE (protéine), appliqué à la Structure cristalline de la protéine. Des algorithmes spécialisés ont été développés pour la détection de motifs spécifiques bien définis tels que hélices transmembranaires et bobines hélicoïdales dans des protéines.

Les meilleures méthodes modernes de prédiction de la structure secondaire dans les protéines atteignent une précision d'environ 80 %[3]. Cette précision élevée permet l'utilisation des prédictions comme amélioration de la caractéristique reconnaissance du pli et ab initio prédiction de la structure des protéines, classification des motifs structuraux, et raffinement de alignement de séquences. L'exactitude des méthodes actuelles de prédiction de la structure secondaire des protéines est évaluée chaque semaine par des benchmarks hebdomadaires tels que LiveBench et EVA.

Structure tertiaire

Le rôle pratique de la prédiction de la structure des protéines est maintenant plus important que jamais. Des quantités massives de données de séquence de protéines sont produites par des efforts de séquençage d'ADN à grande échelle modernes tels que le Human Genome Project. En dépit des efforts communautaires de génomique structurale, la production de structures de protéines déterminées expérimentalement - typiquement par une cristallographie de rayons X ou une spectroscopie RMN coûteuse et coûteuse - est très en retard par rapport à la production de séquences de protéines.

La prédiction de la structure des protéines demeure une entreprise extrêmement difficile et non résolue. Les deux principaux problèmes sont le calcul de l'énergie libre de protéines et la recherche du minimum global de cette énergie. Une méthode de prédiction de structure de protéine doit explorer l'espace des structures de protéines possibles qui est astronomiquement grand. Ces problèmes peuvent être partiellement contournés dans des procédés de modélisation "comparative" ou d'homologie et de reconnaissance de pli, dans lesquels l'espace de recherche est élagué par l'hypothèse que la protéine en question adopte une structure proche de la structure déterminée expérimentalement d'une autre protéine homologue. D'autre part, les méthodes de prédiction de structure de protéine de novo ou ab initio doivent résoudre explicitement ces problèmes. Les progrès et les défis de la prédiction de la structure des protéines ont été examinés à Zhang 2008[4].

modélisation des protéines ab initio ou de novo

Méthodes basées sur l'énergie et sur les fragments

Les méthodes de modélisation des protéines ab initio ou de novo cherchent à construire des modèles protéiques tridimensionnels «à partir de zéro», c'est-à-dire basés sur des principes physiques plutôt que (directement) sur des structures préalablement résolues. Il existe de nombreuses procédures possibles qui tentent d'imiter le repliement des protéines ou d'appliquer une méthode stochastique pour rechercher des solutions possibles (c'est-à-dire l'optimisation globale d'une fonction énergétique appropriée). Ces procédures ont tendance à nécessiter de vastes ressources informatiques et n'ont donc été réalisées que pour des protéines minuscules. Pour prédire la structure de la protéine de novo pour de plus grandes protéines, il faudra de meilleurs algorithmes et de plus grandes ressources informatiques comme celles fournies par les puissants supercalculateurs (tels que Blue Gene ou MDGRAPE-3) ou par ordinateur distribué (comme Folding @ home, Human Proteome Folding Project and Rosetta @ Home). Bien que ces barrières de calcul soient vastes, les avantages potentiels de la génomique structurale (par des méthodes prédites ou expérimentales) font de la prédiction de la structure ab initio un domaine de recherche actif [26].

En 2009, une protéine de 50 résidus pourrait être simulée atome par atome sur un supercalculateur pendant 1 milliseconde [27]. À partir de 2012, un échantillonnage comparable à l'état stable pourrait être effectué sur un bureau standard avec une nouvelle carte graphique et des algorithmes plus sophistiqués [28]. Un temps de simulation beaucoup plus important peut être atteint en utilisant la modélisation à grain grossier. [29] Covariation évolutive pour prédire les contacts 3D

Comme le séquençage est devenu plus courant dans les années 1990, plusieurs groupes ont utilisé des alignements de séquences de protéines pour prédire des mutations corrélées et on espérait que ces résidus coevolués pourraient être utilisés pour prédire la structure tertiaire (en utilisant l'analogie aux contraintes de distance des procédures expérimentales comme la RMN). L'hypothèse est que lorsque les mutations de résidus simples sont légèrement délétères, des mutations compensatoires peuvent se produire pour rétablir les interactions résidus-résidus. Ces premiers travaux ont utilisé ce que l'on appelle des méthodes locales pour calculer des mutations corrélées à partir de séquences protéiques, mais elles ont souffert de fausses corrélations indirectes qui résultent du traitement de chaque paire de résidus comme indépendant de toutes les autres paires [30] [31] [32]

En 2011, une approche statistique différente, et cette fois globale, a démontré que les résidus prévus coevolved étaient suffisants pour prédire le pli 3D d'une protéine, en fournissant assez de séquences disponibles (> 1 000 séquences homologues sont nécessaires). La méthode EVfold n'utilise pas de modélisation d'homologie, de segmentation ou de fragments de structure 3D et peut être exécutée sur un ordinateur personnel standard même pour des protéines avec des centaines de résidus. La précision des contacts prévus à l'aide de cette approche et des approches connexes a maintenant été démontrée sur de nombreuses structures connues et des cartes de contact, [34] [35] [36], y compris la prédiction des protéines transmembranaires non résolus expérimentalement.

Modélisation comparée des protéines

La modélisation comparée des protéines utilise des structures préalablement résolues comme points de départ ou modèles. Ceci est efficace car il apparaît que bien que le nombre de protéines réelles soit vaste, il existe un ensemble limité de motifs structurels tertiaires auxquels la plupart des protéines appartiennent. Il a été suggéré qu'il y a seulement environ 2 000 plis protéiques distincts dans la nature, bien qu'il y ait plusieurs millions de protéines différentes.

Ces méthodes peuvent également être divisées en deux groupes: [26]

Modélisation d'homologie

Est basé sur l'hypothèse raisonnable que deux protéines homologues partageront des structures très semblables. Puisque le pli d'une protéine est conservé plus évolutivement que sa séquence d'acides aminés, une séquence cible peut être modélisée avec une précision raisonnable sur un modèle très éloigné, à condition que la relation entre la cible et le gabarit puisse être discernée par alignement de séquence. Il a été suggéré que le principal goulet d'étranglement dans la modélisation comparée découle des difficultés d'alignement plutôt que des erreurs dans la prédiction de la structure étant donné un alignement bien connu [38]. Sans surprise, la modélisation par homologie est la plus précise lorsque la cible et le modèle ont des séquences similaires.

Enfilage de protéines

L'enfilage de protéine est une méthode de modélisation qui scanne la séquence d'acides aminés d'une structure inconnue contre une base de données de structures résolues. Dans chaque cas, une fonction de notation est utilisée pour évaluer la compatibilité de la séquence avec la structure, produisant ainsi des modèles tridimensionnels possibles. Ce type de procédé est également connu sous le nom de reconnaissance de pliage 3D-1D en raison de son analyse de compatibilité entre des structures tridimensionnelles et des séquences de protéines linéaires. Ce procédé a également donné lieu à des procédés effectuant une recherche de repliement inverse en évaluant la compatibilité d'une structure donnée avec une grande base de données de séquences, prédisant ainsi quelles séquences ont le potentiel de produire un pli donné.

Structure quaternaire

L'amarrage macromoléculaire est la modélisation informatique de la structure quaternaire de complexes formés par plusieurs macromolécules biologiques en interaction. Les modélisations les plus courantes étant celles des complexes protéine-protéine et protéine-acide nucléique.

Voir aussi

Articles connexes

  • Complexe biomoléculaire, tout complexe biologique de protéines, d'ARN, d'ADN (contient parfois des lipides et des glucides)
  • Docking (moléculaire), petite molécule d'amarrage aux protéines
  • Enfilage, décrit l'une des techniques de modélisation de la structure des protéines, par analogie avec une structure existante.

Liens externes

Bibliographie

  • (en) K. Majorek, L. Kozlowski, M. Jakalski, J. M. Bujnicki et J. Bujnicki (dir.), Prediction of Protein Structures, Functions, and Interactions, Chichester, John Wiley & Sons, Ltd., , 39–62 p. (ISBN 978-0-470-51767-3, DOI 10.1002/9780470741894.ch2, lire en ligne), « Chapter 2: First Steps of Protein Structure Prediction »
  • D. Baker et A. Sali, « Protein structure prediction and structural genomics », Science, vol. 294, no 5540, , p. 93–96 (PMID 11588250, DOI 10.1126/science.1065659)
  • LA. Kelley et MJ. Sternberg, « Protein structure prediction on the Web: a case study using the Phyre server », Nat Protoc, vol. 4, no 3, , p. 363–71 (PMID 19247286, DOI 10.1038/nprot.2009.2)
  • A. Kryshtafovych et K. Fidelis, « Protein structure prediction and model quality assessment », Drug Discov Today, vol. 14, nos 7–8, , p. 386–93 (PMID 19100336, DOI 10.1016/j.drudis.2008.11.010)
  • X. Qu, R. Swanson, R. Day et J. Tsai, « A guide to template based structure prediction », Curr Protein Pept Sci, vol. 10, no 3, , p. 270–85 (PMID 19519455)
  • PR. Daga, RY. Patel et RJ. Doerksen, « Template-based protein modeling: recent methodological advances », Curr Top Med Chem, vol. 10, no 1, , p. 84–94 (PMID 19929829, DOI 10.2174/156802610790232314)
  • A. Fiser, « Template-based protein structure modeling », Methods Mol Biol, vol. 673, , p. 73–94 (ISBN 978-1-60761-841-6, PMID 20835794, PMCID 4108304, DOI 10.1007/978-1-60761-842-3_6)
  • D. Cozzetto et A. Tramontano, « Advances and pitfalls in protein structure prediction », Curr Protein Pept Sci, vol. 9, no 6, , p. 567–77 (PMID 19075747, DOI 10.2174/138920308786733958)
  • Nayeem A, Sitkoff D, Krystek S Jr, Sitkoff et Krystek Jr, « A comparative study of available software for high-accuracy homology modeling: From sequence alignments to structural models », Protein Sci, vol. 15, no 4, , p. 808–24 (PMID 16600967, PMCID 2242473, DOI 10.1110/ps.051892906)

Notes et références

  1. (en) Mount DM, Bioinformatics : Sequence and Genome Analysis, vol. 2, Cold Spring Harbor Laboratory Press, (ISBN 0-87969-712-1).
  2. JY. Huang et DL. Brutlag, « La base de données EMOTIF », Nucleic Acids Res, vol. 29, no 1, , p. 202-04 (PMID 11125091, DOI 10.1093 / nar / 29.1.202).
  3. W. Pirovano et J. Heringa, « Prédiction de la structure secondaire des protéines », Méthodes Mol Biol, méthodes en Biologie Moléculaire, vol. 609, , p. 327-48 (PMID 20221928, DOI 10.1007 / 978-1-60327-241-4_19).
  4. (en) Zhang Y., « Progress and challenges in protein structure prediction », Current Opinion in Structural Biology, vol. 18, no 3, , p. 342–8 (PMID 18436442, PMCID 2680823, DOI 10.1016/j.sbi.2008.02.004).
  • Portail de la biologie cellulaire et moléculaire
Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.