![]() |
|
|
|
La recherche de similitude entre séquences est un élément
fondamental qui constitue souvent la première étape des
analyses de séquences. Elle permet de révéler des
régions proches dans leur séquence primaire en se basant
sur le principe de parcimonie, c'est-à-dire en considérant
le minimum de changements en insertion, suppression, ou substitution qui
séparent deux séquences. On peut apprendre ainsi, par association,
des informations importantes sur la structure, la fonction ou l'évolution
des biomolécules. Cette méthode est largement utilisée
dans les recherches de motifs à travers une séquence, dans
la caractérisation de régions communes ou similaires entre
deux ou plusieurs séquences, dans la comparaison d'une séquence
avec l'ensemble ou sous-ensemble des séquences d'une base de données,
ou bien encore dans l'établissement d'un alignement multiple sur
lequel sont basées les analyses d'évolution moléculaire.
Nous décrirons dans ce chapitre les principes fondamentaux qui
sont indispensables à la compréhension de ces outils en
illustrant nos propos par un certain nombre de programmes couramment utilisés
dans le domaine. 1.1 Les principes de la détermination d'un score
Pour qualifier et quantifier la similitude entre séquences, un
score est calculé. Celui-ci peut mesurer soit le rapprochement,
soit l'éloignement des séquences pour refléter ce
qui les sépare. Ce score repose sur un système qui permet
d'attribuer un score élémentaire pour chaque position lorsque
les séquences sont éditées l'une sous l'autre (Figure
7). Le score élémentaire est un élément
d'une matrice de scores qui rend compte de tous les états possibles
en fonction de l'alphabet utilisé dans la description des séquences.
Ainsi, pour les acides nucléiques, la matrice d'identité
ou unitaire est principalement employée (Figure
8a). Elle rend compte de l'identité des résidus
pour chacune des positions de la comparaison, on parle ainsi de bon ou
de mauvais appariement ou bien de bonne ou mauvaise association. Ce critère
qui permet déjà d'établir des ressemblances ne suffit
pas toujours pour révéler au mieux les similitudes entre
séquences. Très rapidement, on s'est aperçu qu'une
insertion ou une délétion (on admettra ici le franglais)
d'une ou plusieurs bases pouvait améliorer le score d'une comparaison
et ainsi faire davantage ressortir les zones identiques ou très
proches. Ces brèches (en anglais gap) que l'on impose aux séquences
sont évidemment pénalisantes dans le calcul du score. Si
l'on considère que le score donne le rapprochement entre deux séquences,
on peut résumer celui-ci par l'équation suivante : (1)
où se est un score élémentaire et sp une pénalité d'insertion ou de délétion. Deux remarques
s'imposent. La première est que le score est fonction de la longueur
de la zone de similitude que l'on considère, c'est à dire
que plus la longueur est grande, plus le score est élevé.
La deuxième est que l'on peut nuancer le calcul en donnant plus
ou moins d'importance aux pénalités et aux associations
possibles entre résidus. Ainsi, le poids d'une insertion peut être
plus ou moins fort par rapport à une mauvaise association. On voit
déjà très bien ici que par le biais de ces deux éléments
fondamentaux, on pourra privilégier une situation plutôt qu'une
autre, c'est-à-dire avoir des comparaisons de séquences
avec peu ou beaucoup d'insertions-délétions. On retrouvera
bien sûr ce type d'éléments sous forme de paramètre
dans les programmes de comparaison.
Du fait de la pauvreté de l'alphabet que représentent les
bases qui composent les molécules d'ADN, Il existe peu de matrices
nucléiques. La plus utilisée est certainement la matrice
d'identité sous toutes ses formes (matrice unitaire ou unitaire
inverse). Il existe néanmoins d'autres matrices où certaines
associations peuvent être privilégiées par rapport
à d'autres. On peut distinguer par exemple les purines et les pyrimidines
pour en déduire une matrice qui pénalise davantage les transversions
que les transitions (Figure 8b).
Ou bien on peut augmenter le nombre d'éléments de l'alphabet
en regroupant les nucléotides, par exemple par paire, pour en déduire
ensuite une matrice qui attribue des scores en fonction du nombre commun
de nucléotides présent dans les groupes.
Si un système basé uniquement sur l'identité donne
une sensibilité satisfaisante pour les acides nucléiques,
celui-ci devient moins approprié pour les séquences protéiques.
Si l'on considère qu'un acide aminé peut être substitué
à un autre en fonction de certaines propriétés sans
que la structure ou la fonctionnalité d'une protéine soit
grandement altérée, on peut classer les acides aminés
en familles et obtenir ainsi un système de scores qui rende compte
de l'affinité des résidus protéiques entre eux. Les
matrices de scores qui en découlent permettront d'augmenter la
fiabilité des recherches de similitudes protéiques. Une
des premières matrices à utiliser ce principe a été
celle déduite de la dégénérescence du code
génétique (Fitch, 1966).
Les scores élémentaires ont été alors déterminés
en fonction du nombre commun de nucléotides présents dans
les codons des acides aminés, ce qui revient à considérer
le minimum de changements nécessaires en bases pour convertir un
acide aminé en un autre. Depuis de nombreuses matrices ont été
créées et l'on peut classer celles-ci en deux catégories.
La première est celle qui regroupe plutôt les matrices issues d'études
montrant le caractère de substitution des acides aminées
au cours de l'évolution et la deuxième est basée
plus particulièrement sur les caractéristiques physico-chimiques
des acides aminés. Nous présenterons ici les matrices les
plus couramment utilisées sans donner de liste exhaustive de toutes
celles qui ont été déterminées. 1.3.1 Les matrices protéiques liées à l'évolution Les matrices de type PAM, la matrice de mutation de Dayhoff Elles sont sans aucun doute celles qui ont été les plus utilisées dans les programmes de comparaison de séquences protéiques. Elles représentent les échanges possibles ou acceptables d'un acide aminé par un autre lors de l'évolution des protéines (Dayhoff et al., 1978). Elles ont été déduites de l'étude de 71 familles de protéines (de l'ordre de 1300 séquences) très semblables (moins de 15% de différence) que l'on pouvait facilement aligner. De ces alignements, une matrice de probabilité a été calculée où chaque élément de la matrice donne la probabilité qu'un acide aminé A soit remplacé par un acide aminé B durant une étape d'évolution. Cette matrice de probabilité de mutation correspond en fait à une substitution acceptée pour 100 sites durant un temps d'évolution particulier, c'est à dire une substitution qui ne détruise pas l'activité de la protéine. On parle ainsi d'une 1PAM (Percent Accepted Mutations) matrice. Si l'on multiplie la matrice par elle-même un certain nombre de fois, on obtient une matrice XPAM qui donne des probabilités de substitution pour des distances d'évolution plus grande. Pour être plus facilement utilisable dans les programmes de comparaison de séquences, chaque matrice XPAM est transformée en une matrice de similitudes PAM-X que l'on appelle matrice de mutation de Dayhoff. Cette transformation est effectuée en considérant les fréquences relatives de mutation des acides aminés et en prenant le logarithme de chaque élément de la matrice. Des études de simulation ont montré que la PAM-250 semble optimale pour distinguer des protéines apparentées de celles possèdant des similarités dues au hasard (Schwartz et Dayhoff, 1979). C'est pourquoi, la matrice PAM-250 est devenue la matrice de mutation standard de Dayhoff.
Cette matrice est basée sur un échantillon assez large et
représente assez bien les probabilités de substitution d'un
acide aminé en un autre suivant que cette mutation engendre ou
pas des changements dans la structure ou la fonctionnalité des
protéines. Néanmoins, elle présente un certain nombre
d'inconvénients. Principalement, elle considère que les
points de mutation, c'est-à-dire les positions d'échange
des acides aminés sont équiprobables au sein d'une même
protéine (George et al., 1990).
Or, on sait que ceci n'est pas vrai et qu'une protéine peut présenter
plusieurs niveaux de variabilité. De plus, l'ensemble des protéines
utilisé en 1978 n'est pas entièrement représentatif
des différentes classes de protéines connues. Ainsi l'échantillon
de 1978 était composé essentiellement de petites molécules
solubles très différentes des protéines membranaires
ou virales que l'on peut étudier aujourd'hui. Ce constat a conduit
à une réactualisation de la matrice (Jones et al., 1992)
en considérant 16 130 séquences issues de la version 15
de Swissprot, ce qui correspond à 2 621 familles de protéines.
Cette étude a permis de prendre davantage en compte les substitutions
qui étaient mal représentées en 1978. Les matrices de type BLOSUM (BLOcks SUbstitution Matrix)
Une approche différente a été réalisée
pour mettre en évidence le caractère de substitution des
acides aminés. Alors que les matrices de type PAM dérivent
d'alignements globaux (cf. la recherche d'alignements optimaux) de protéines
très semblables, ici le degré de substitution des acides
aminés a été mesuré en observant des blocs
d'acides aminés issus de protéines plus éloignées.
Chaque bloc est obtenu par l'alignement multiple sans insertion-délétion
de courtes régions très conservées (cf. la base BLOCK).
Ces blocs sont utilisés pour regrouper tous les segments de séquences
ayant un pourcentage d'identité minimum au sein de leur bloc. On
en déduit des fréquences de substitution pour chaque paire
d'acides aminés et l'on calcule ensuite une matrice logarithmique
de probabilité dénommée BLOSUM (BLOcks SUbstitution
Matrix). A chaque pourcentage d'identité correspond une matrice
particulière. Ainsi la matrice BLOSUM60 est obtenue en utilisant
un seuil d'identité de 60%. Henikoff et Henikoff, (1992)
ont réalisé un tel traitement à partir d'une base
contenant plus de 2000 blocs. 1.3.2 Les matrices protéiques liées aux caractéristiques physico-chimiques
Les matrices liées à l'évolution regroupent assez
clairement les propriétés chimiques et structurales des
acides aminés. Néanmoins, dans certains cas elles ne suffisent
pas toujours pour révéler au mieux certaines caractéristiques
physico-chimiques communes à deux protéines. C'est pourquoi
des matrices basées essentiellement sur ces propriétés
ont été déterminées. Les plus courantes sont
celles basées sur le caractère hydrophile ou hydrophobe
des protéines et sur leur structure secondaire ou tertiaire. On
peut citer parmi celles-ci, la matrice d'hydrophobicité basée
sur des mesures d'énergie libre de transfert de l'eau à
l'éthanol des acides aminés (Levitt, 1976)
ou la matrice de structure secondaire basée sur la propension d'un
acide aminé à être dans une conformation donnée
(Levin et al., 1986). Plus
récemment l'augmentation du nombre de structures tridimensionnelles
déterminées, a permis d'établir des matrices basées
sur la comparaison de ces structures. Ces matrices peuvent être
utilisées pour comparer des protéines relativement éloignées.
Parmi celles- ci, nous pouvons citer la matrice établie par Risler
et al. (1988) obtenue par
la superposition des structures 3-D de 32 protéines réunies
en 11 groupes de séquences très voisines et la matrice de
Johnson et Overington (1993)
développée à partir de l'étude de 235 structures
protéiques regroupées en 65 familles de protéines
pour lesquelles on connaissait au moins la structure tridimensionnelle
de trois séquences. 1.3.3 Le choix d'une matrice protéique Il existe maintenant de nombreuses matrices et il est souvent difficile de savoir laquelle doit être utilisée dans les différents programmes de comparaison de séquences protéiques, car de toute évidence, la sensibilité des méthodes dépend aussi de la qualité des matrices. Les premières études comparatives sur l'utilisation de différentes matrices (pour exemple, Feng et al., 1985 ; Taylor, 1986 ; Argos, 1987 ; Risler et al., 1988) montraient déjà qu'il n'existe pas de matrice idéale. Ces études mettaient en évidence, par exemple, que la matrice PAM250 de Dayhoff donne un poids trop important à l'identité et n'est pas bien adaptée à la comparaison de protéines très distantes car elle ne renferme pas suffisamment d'informations structurales. C'est pourquoi, l'utilisation de matrices différentes selon le type de similarité recherché a commencé à être suggérée (Collins et al., 1988). Ainsi, dans une étude sur les matrices de type PAM, Altschul (1991) conseille pour les méthodes d'alignements locaux (cf. la recherche d'alignements optimaux, les alignements globaux et locaux), la matrice PAM40 pour retrouver des alignements courts avec des protéines très semblables et les matrices PAM120 et PAM250 pour des alignements plus longs et de plus faible ressemblance. Il préconise également l'utilisation de la PAM120 lorsque l'on ne connaît pas a priori le degré de ressemblance de deux séquences comme c'est le cas par exemple dans les programmes de recherche de similitudes avec les banques de données. Des études plus récentes indiquent que les matrices mises au point ces dernières années sont généralement plus performantes que celle établies par Dayhoff en 1978, en particulier parce qu'elles sont construites à partir d'un nombre beaucoup plus important de données. Ainsi Henikoff et Henikoff (1993) ont évalué plusieurs matrices en utilisant le programme BLAST de recherche de similitude sans insertion- délétion. Leur étude a établit que les matrices dérivées directement des comparaisons de séquences ou des comparaisons de structure sont supérieures à celles qui sont extrapolées du modèle d'évolution de Dayhoff. En particulier ils concluent que la matrice BLOSUM 62 permet d'obtenir les meilleurs résultats. Néanmoins, Pearson (1995), dans une étude comparative de différentes méthodes de recherche avec les bases de données a pu montrer l'importance de l'algorithme et de son paramètrage dans l'utilisation des matrices de substitution. Ainsi, les matrices de type PAM déterminées à partir de données récentes comme celles de Jones et al. (1992) peuvent donner des résultats comparables à ceux obtenus avec les meilleures matrices de type BLOSUM (62 ou 50 par exemple). Récemment, Vogt et al, (1995) ont testé également un grand nombre de matrices de substitution d'acides aminés pour tenter de les évaluer en fonction des méthodes de comparaison de séquences protéiques et des systèmes de pénalité d'insertion-délétion utilisés. S'il apparaît une relative similarité dans les résultats pour les fortes ressemblances entre séquences, les conclusions de cette étude montrent que l'ensemble des matrices donne de meilleurs résultats avec les alignements globaux et que leurs performances peuvent varier très significativement selon le système de pénalité d'insertion-délétion que l'on choisit (cf. la recherche d'alignements optimaux, le traitement des insertions et des délétions). Cette étude révèle également, à l'issue de différentes combinaisons de matrices, d'algorithmes et de pénalité, que la matrice établie par Gonnet et al. (1992) est celle qui donne les meilleurs résultats. Cette dernière a été construite à partir d'une base de données protéique de 8 344 353 acides aminés ou chaque séquence a été comparée à l'ensemble des séquences de la banque. Tous les alignements significatifs recensés servent ensuite à générer une matrice avec une distance PAM de 250. Dans cette étude, Vogt et ses collaborateurs retrouvent également dans les cinq matrices les plus performantes, les BLOSUM 50 et 62 ainsi que la matrice de structure tertiaire de Johnson et Overington (1993) et une matrice de Benner et al. (1994) qui en fait est de nature très similaire à celle de Gonnet. La synthèse de toutes ses études montre que l'évaluation des matrices est très liée aux méthodes d'expertise utilisées et que leur usage est fortement corrélé aux types d'algorithme et de paramètrage utilisés. En conclusion, il apparaît tout de même que les matrices plutôt basées sur les comparaisons de séquences (comme celle de Gonnet et al., 1992 ; ou les BLOSUM, Henikoff et Henikoff, 1992) ou sur des structures tridimensionnelles (Johnson et Overington, 1993) semblent donner plus souvent de meilleurs résultats que celles basées principalement sur le modèle de Dayhoff, même réactualisé (Jones et al.,1992). Ainsi, la dernière version d'Octobre 1995 du programme FASTA de recherche avec les banques propose par défaut non plus la matrice PAM250 standard de Dayhoff mais la matrice BLOSUM50. © CITI2, DSI 1997
|