Cours de Bioinformatique
(la recherche de similitudes entre séquences)

 


II. LA RECHERCHE DE SIMILITUDES ENTRE SEQUENCES BIOLOGIQUES

  1. LES SYSTEMES DE SCORES

  2. LES ALGORITHMES ET LES PROGRAMMES DE COMPARAISON DE SEQUENCES

LA RECHERCHE DE SIMILITUDES ENTRE SEQUENCES

           La recherche de similitude entre séquences est un élément fondamental qui constitue souvent la première étape des analyses de séquences. Elle permet de révéler des régions proches dans leur séquence primaire en se basant sur le principe de parcimonie, c'est-à-dire en considérant le minimum de changements en insertion, suppression, ou substitution qui séparent deux séquences. On peut apprendre ainsi, par association, des informations importantes sur la structure, la fonction ou l'évolution des biomolécules. Cette méthode est largement utilisée dans les recherches de motifs à travers une séquence, dans la caractérisation de régions communes ou similaires entre deux ou plusieurs séquences, dans la comparaison d'une séquence avec l'ensemble ou sous-ensemble des séquences d'une base de données, ou bien encore dans l'établissement d'un alignement multiple sur lequel sont basées les analyses d'évolution moléculaire. Nous décrirons dans ce chapitre les principes fondamentaux qui sont indispensables à la compréhension de ces outils en illustrant nos propos par un certain nombre de programmes couramment utilisés dans le domaine.
 

1. LES SYSTEMES DE SCORES

1.1 Les principes de la détermination d'un score

           Pour qualifier et quantifier la similitude entre séquences, un score est calculé. Celui-ci peut mesurer soit le rapprochement, soit l'éloignement des séquences pour refléter ce qui les sépare. Ce score repose sur un système qui permet d'attribuer un score élémentaire pour chaque position lorsque les séquences sont éditées l'une sous l'autre (Figure 7). Le score élémentaire est un élément d'une matrice de scores qui rend compte de tous les états possibles en fonction de l'alphabet utilisé dans la description des séquences. Ainsi, pour les acides nucléiques, la matrice d'identité ou unitaire est principalement employée (Figure 8a). Elle rend compte de l'identité des résidus pour chacune des positions de la comparaison, on parle ainsi de bon ou de mauvais appariement ou bien de bonne ou mauvaise association. Ce critère qui permet déjà d'établir des ressemblances ne suffit pas toujours pour révéler au mieux les similitudes entre séquences. Très rapidement, on s'est aperçu qu'une insertion ou une délétion (on admettra ici le franglais) d'une ou plusieurs bases pouvait améliorer le score d'une comparaison et ainsi faire davantage ressortir les zones identiques ou très proches. Ces brèches (en anglais gap) que l'on impose aux séquences sont évidemment pénalisantes dans le calcul du score. Si l'on considère que le score donne le rapprochement entre deux séquences, on peut résumer celui-ci par l'équation suivante :

          (1)

se est un score élémentaire et sp une pénalité d'insertion ou de délétion.

Deux remarques s'imposent. La première est que le score est fonction de la longueur de la zone de similitude que l'on considère, c'est à dire que plus la longueur est grande, plus le score est élevé. La deuxième est que l'on peut nuancer le calcul en donnant plus ou moins d'importance aux pénalités et aux associations possibles entre résidus. Ainsi, le poids d'une insertion peut être plus ou moins fort par rapport à une mauvaise association. On voit déjà très bien ici que par le biais de ces deux éléments fondamentaux, on pourra privilégier une situation plutôt qu'une autre, c'est-à-dire avoir des comparaisons de séquences avec peu ou beaucoup d'insertions-délétions. On retrouvera bien sûr ce type d'éléments sous forme de paramètre dans les programmes de comparaison.
 

1.2 Les matrices nucléiques

           Du fait de la pauvreté de l'alphabet que représentent les bases qui composent les molécules d'ADN, Il existe peu de matrices nucléiques. La plus utilisée est certainement la matrice d'identité sous toutes ses formes (matrice unitaire ou unitaire inverse). Il existe néanmoins d'autres matrices où certaines associations peuvent être privilégiées par rapport à d'autres. On peut distinguer par exemple les purines et les pyrimidines pour en déduire une matrice qui pénalise davantage les transversions que les transitions (Figure 8b). Ou bien on peut augmenter le nombre d'éléments de l'alphabet en regroupant les nucléotides, par exemple par paire, pour en déduire ensuite une matrice qui attribue des scores en fonction du nombre commun de nucléotides présent dans les groupes.
 

1.3 Les matrices protéiques

           Si un système basé uniquement sur l'identité donne une sensibilité satisfaisante pour les acides nucléiques, celui-ci devient moins approprié pour les séquences protéiques. Si l'on considère qu'un acide aminé peut être substitué à un autre en fonction de certaines propriétés sans que la structure ou la fonctionnalité d'une protéine soit grandement altérée, on peut classer les acides aminés en familles et obtenir ainsi un système de scores qui rende compte de l'affinité des résidus protéiques entre eux. Les matrices de scores qui en découlent permettront d'augmenter la fiabilité des recherches de similitudes protéiques. Une des premières matrices à utiliser ce principe a été celle déduite de la dégénérescence du code génétique (Fitch, 1966). Les scores élémentaires ont été alors déterminés en fonction du nombre commun de nucléotides présents dans les codons des acides aminés, ce qui revient à considérer le minimum de changements nécessaires en bases pour convertir un acide aminé en un autre. Depuis de nombreuses matrices ont été créées et l'on peut classer celles-ci en deux catégories. La première est celle qui regroupe plutôt les matrices issues d'études montrant le caractère de substitution des acides aminées au cours de l'évolution et la deuxième est basée plus particulièrement sur les caractéristiques physico-chimiques des acides aminés. Nous présenterons ici les matrices les plus couramment utilisées sans donner de liste exhaustive de toutes celles qui ont été déterminées.
 

1.3.1 Les matrices protéiques liées à l'évolution

           Les matrices de type PAM, la matrice de mutation de Dayhoff

           Elles sont sans aucun doute celles qui ont été les plus utilisées dans les programmes de comparaison de séquences protéiques. Elles représentent les échanges possibles ou acceptables d'un acide aminé par un autre lors de l'évolution des protéines (Dayhoff et al., 1978). Elles ont été déduites de l'étude de 71 familles de protéines (de l'ordre de 1300 séquences) très semblables (moins de 15% de différence) que l'on pouvait facilement aligner. De ces alignements, une matrice de probabilité a été calculée où chaque élément de la matrice donne la probabilité qu'un acide aminé A soit remplacé par un acide aminé B durant une étape d'évolution. Cette matrice de probabilité de mutation correspond en fait à une substitution acceptée pour 100 sites durant un temps d'évolution particulier, c'est à dire une substitution qui ne détruise pas l'activité de la protéine. On parle ainsi d'une 1PAM (Percent Accepted Mutations) matrice. Si l'on multiplie la matrice par elle-même un certain nombre de fois, on obtient une matrice XPAM qui donne des probabilités de substitution pour des distances d'évolution plus grande. Pour être plus facilement utilisable dans les programmes de comparaison de séquences, chaque matrice XPAM est transformée en une matrice de similitudes PAM-X que l'on appelle matrice de mutation de Dayhoff. Cette transformation est effectuée en considérant les fréquences relatives de mutation des acides aminés et en prenant le logarithme de chaque élément de la matrice. Des études de simulation ont montré que la PAM-250 semble optimale pour distinguer des protéines apparentées de celles possèdant des similarités dues au hasard (Schwartz et Dayhoff, 1979). C'est pourquoi, la matrice PAM-250 est devenue la matrice de mutation standard de Dayhoff.

           Cette matrice est basée sur un échantillon assez large et représente assez bien les probabilités de substitution d'un acide aminé en un autre suivant que cette mutation engendre ou pas des changements dans la structure ou la fonctionnalité des protéines. Néanmoins, elle présente un certain nombre d'inconvénients. Principalement, elle considère que les points de mutation, c'est-à-dire les positions d'échange des acides aminés sont équiprobables au sein d'une même protéine (George et al., 1990). Or, on sait que ceci n'est pas vrai et qu'une protéine peut présenter plusieurs niveaux de variabilité. De plus, l'ensemble des protéines utilisé en 1978 n'est pas entièrement représentatif des différentes classes de protéines connues. Ainsi l'échantillon de 1978 était composé essentiellement de petites molécules solubles très différentes des protéines membranaires ou virales que l'on peut étudier aujourd'hui. Ce constat a conduit à une réactualisation de la matrice (Jones et al., 1992) en considérant 16 130 séquences issues de la version 15 de Swissprot, ce qui correspond à 2 621 familles de protéines. Cette étude a permis de prendre davantage en compte les substitutions qui étaient mal représentées en 1978.
 

           Les matrices de type BLOSUM (BLOcks SUbstitution Matrix)

           Une approche différente a été réalisée pour mettre en évidence le caractère de substitution des acides aminés. Alors que les matrices de type PAM dérivent d'alignements globaux (cf. la recherche d'alignements optimaux) de protéines très semblables, ici le degré de substitution des acides aminés a été mesuré en observant des blocs d'acides aminés issus de protéines plus éloignées. Chaque bloc est obtenu par l'alignement multiple sans insertion-délétion de courtes régions très conservées (cf. la base BLOCK). Ces blocs sont utilisés pour regrouper tous les segments de séquences ayant un pourcentage d'identité minimum au sein de leur bloc. On en déduit des fréquences de substitution pour chaque paire d'acides aminés et l'on calcule ensuite une matrice logarithmique de probabilité dénommée BLOSUM (BLOcks SUbstitution Matrix). A chaque pourcentage d'identité correspond une matrice particulière. Ainsi la matrice BLOSUM60 est obtenue en utilisant un seuil d'identité de 60%. Henikoff et Henikoff, (1992) ont réalisé un tel traitement à partir d'une base contenant plus de 2000 blocs.
 

1.3.2 Les matrices protéiques liées aux caractéristiques physico-chimiques

           Les matrices liées à l'évolution regroupent assez clairement les propriétés chimiques et structurales des acides aminés. Néanmoins, dans certains cas elles ne suffisent pas toujours pour révéler au mieux certaines caractéristiques physico-chimiques communes à deux protéines. C'est pourquoi des matrices basées essentiellement sur ces propriétés ont été déterminées. Les plus courantes sont celles basées sur le caractère hydrophile ou hydrophobe des protéines et sur leur structure secondaire ou tertiaire. On peut citer parmi celles-ci, la matrice d'hydrophobicité basée sur des mesures d'énergie libre de transfert de l'eau à l'éthanol des acides aminés (Levitt, 1976) ou la matrice de structure secondaire basée sur la propension d'un acide aminé à être dans une conformation donnée (Levin et al., 1986). Plus récemment l'augmentation du nombre de structures tridimensionnelles déterminées, a permis d'établir des matrices basées sur la comparaison de ces structures. Ces matrices peuvent être utilisées pour comparer des protéines relativement éloignées. Parmi celles- ci, nous pouvons citer la matrice établie par Risler et al. (1988) obtenue par la superposition des structures 3-D de 32 protéines réunies en 11 groupes de séquences très voisines et la matrice de Johnson et Overington (1993) développée à partir de l'étude de 235 structures protéiques regroupées en 65 familles de protéines pour lesquelles on connaissait au moins la structure tridimensionnelle de trois séquences.
 

1.3.3 Le choix d'une matrice protéique

           Il existe maintenant de nombreuses matrices et il est souvent difficile de savoir laquelle doit être utilisée dans les différents programmes de comparaison de séquences protéiques, car de toute évidence, la sensibilité des méthodes dépend aussi de la qualité des matrices. Les premières études comparatives sur l'utilisation de différentes matrices (pour exemple, Feng et al., 1985 ; Taylor, 1986 ; Argos, 1987 ; Risler et al., 1988) montraient déjà qu'il n'existe pas de matrice idéale. Ces études mettaient en évidence, par exemple, que la matrice PAM250 de Dayhoff donne un poids trop important à l'identité et n'est pas bien adaptée à la comparaison de protéines très distantes car elle ne renferme pas suffisamment d'informations structurales. C'est pourquoi, l'utilisation de matrices différentes selon le type de similarité recherché a commencé à être suggérée (Collins et al., 1988). Ainsi, dans une étude sur les matrices de type PAM, Altschul (1991) conseille pour les méthodes d'alignements locaux (cf. la recherche d'alignements optimaux, les alignements globaux et locaux), la matrice PAM40 pour retrouver des alignements courts avec des protéines très semblables et les matrices PAM120 et PAM250 pour des alignements plus longs et de plus faible ressemblance. Il préconise également l'utilisation de la PAM120 lorsque l'on ne connaît pas a priori le degré de ressemblance de deux séquences comme c'est le cas par exemple dans les programmes de recherche de similitudes avec les banques de données.

           Des études plus récentes indiquent que les matrices mises au point ces dernières années sont généralement plus performantes que celle établies par Dayhoff en 1978, en particulier parce qu'elles sont construites à partir d'un nombre beaucoup plus important de données. Ainsi Henikoff et Henikoff (1993) ont évalué plusieurs matrices en utilisant le programme BLAST de recherche de similitude sans insertion- délétion. Leur étude a établit que les matrices dérivées directement des comparaisons de séquences ou des comparaisons de structure sont supérieures à celles qui sont extrapolées du modèle d'évolution de Dayhoff. En particulier ils concluent que la matrice BLOSUM 62 permet d'obtenir les meilleurs résultats. Néanmoins, Pearson (1995), dans une étude comparative de différentes méthodes de recherche avec les bases de données a pu montrer l'importance de l'algorithme et de son paramètrage dans l'utilisation des matrices de substitution. Ainsi, les matrices de type PAM déterminées à partir de données récentes comme celles de Jones et al. (1992) peuvent donner des résultats comparables à ceux obtenus avec les meilleures matrices de type BLOSUM (62 ou 50 par exemple).

          Récemment, Vogt et al, (1995) ont testé également un grand nombre de matrices de substitution d'acides aminés pour tenter de les évaluer en fonction des méthodes de comparaison de séquences protéiques et des systèmes de pénalité d'insertion-délétion utilisés. S'il apparaît une relative similarité dans les résultats pour les fortes ressemblances entre séquences, les conclusions de cette étude montrent que l'ensemble des matrices donne de meilleurs résultats avec les alignements globaux et que leurs performances peuvent varier très significativement selon le système de pénalité d'insertion-délétion que l'on choisit (cf. la recherche d'alignements optimaux, le traitement des insertions et des délétions). Cette étude révèle également, à l'issue de différentes combinaisons de matrices, d'algorithmes et de pénalité, que la matrice établie par Gonnet et al. (1992) est celle qui donne les meilleurs résultats. Cette dernière a été construite à partir d'une base de données protéique de 8 344 353 acides aminés ou chaque séquence a été comparée à l'ensemble des séquences de la banque. Tous les alignements significatifs recensés servent ensuite à générer une matrice avec une distance PAM de 250. Dans cette étude, Vogt et ses collaborateurs retrouvent également dans les cinq matrices les plus performantes, les BLOSUM 50 et 62 ainsi que la matrice de structure tertiaire de Johnson et Overington (1993) et une matrice de Benner et al. (1994) qui en fait est de nature très similaire à celle de Gonnet.

           La synthèse de toutes ses études montre que l'évaluation des matrices est très liée aux méthodes d'expertise utilisées et que leur usage est fortement corrélé aux types d'algorithme et de paramètrage utilisés. En conclusion, il apparaît tout de même que les matrices plutôt basées sur les comparaisons de séquences (comme celle de Gonnet et al., 1992 ; ou les BLOSUM, Henikoff et Henikoff, 1992) ou sur des structures tridimensionnelles (Johnson et Overington, 1993) semblent donner plus souvent de meilleurs résultats que celles basées principalement sur le modèle de Dayhoff, même réactualisé (Jones et al.,1992). Ainsi, la dernière version d'Octobre 1995 du programme FASTA de recherche avec les banques propose par défaut non plus la matrice PAM250 standard de Dayhoff mais la matrice BLOSUM50.

© CITI2, DSI 1997          

DSI bioinfo
PLAN
ChapitreII
Suite cours