Cours de Bioinformatique
      Christian Fondrat (DSI, Direction des Systèmes d'Information de l'université Paris V)


INTRODUCTION

I. LES BANQUES DE SEQUENCES BIOLOGIQUES

  1. HISTORIQUE
  2. LES BANQUES GENERALISTES
  3. LES BANQUES SPECIALISEES
  4. LA DIFFUSION ET L'UTILISATION DES BANQUES DE DONNEES
  5. CONCLUSION

II. LA RECHERCHE DE SIMILITUDES ENTRE SEQUENCES

    1. LES SYSTEMES DE SCORES
    2. LES ALGORITHMES ET LES PROGRAMMES DE COMPARAISON DE SEQUENCES

BIBLIOGRAPHIE


INTRODUCTION

De toute évidence, l'informatique est devenue un apport fondamental à la biologie moléculaire. Les moyens informatiques sont naturellement utilisés pour le stockage ou la gestion des données mais également pour l'interprétation de ces données. En absence d'expériences, le traitement informatique des séquences peut par exemple déceler la fonction biologique potentielle d'un gène par la recherche de critères spécifiques (signaux, structures secondaires ou tertiaires...) ou par la recherche de similitudes entre séquences. Pour l'analyse des données expérimentales que représentent les séquences biologiques, cet apport informatique concerne principalement quatre aspects.
 

 - Le premier est la compilation et l'organisation des données avec essentiellement la création de bases de données. Certaines ont pour vocation de réunir le plus d'informations possible sans expertise particulière de l'information déposée alors que d'autres sont spécialisées dans un domaine considéré avec l'intervention d'experts. Ces dernières bases sont généralement construites autour de thèmes précis comme l'ensemble des séquences d'une même espèce ou les facteurs de transcription. Incontestablement, toutes ces banques de données constituent une source de connaissance d'une grande richesse que l'on peut exploiter dans le développement de méthodes d'analyse ou de prédiction.

 - Le deuxième aspect concerne les traitements systématiques que l'on peut effectuer sur les séquences afin de repérer ou de caractériser une fonctionnalité ou un élément biologique intéressant. Ces programmes représentent les traitements couramment utilisés dans l'analyse des séquences comme l'identification de phases codantes sur une molécule d'ADN ou la recherche de similitudes d'une séquence avec l'ensemble des séquences d'une base de données.

 - Le troisième aspect est celui qui permet d'élaborer des stratégies pour apporter des connaissances biologiques supplémentaires que l'on pourra ensuite intégrer dans des traitements standard. On peut donner comme exemples la mise au point de nouvelles matrices de substitution des acides aminés, la détermination de l'angle de courbure d'un segment d'ADN en fonction de sa séquence primaire, ou encore la détermination de critères spécifiques dans la définition de séquences régulatrices.

 - Enfin, le quatrième aspect est celui de l'évaluation des différentes approches citées précédemment dans le but de les valider. Très souvent, tous ces aspects se confondent ou sont étroitement imbriqués pour donner naissance à un ensemble d'outils, d'études ou de méthodes qui convergent vers un but commun que l'on appelle l'analyse informatique des séquences.
 

Il est maintenant facile et courant d'effectuer certaines opérations plus ou moins complexes à l'aide de logiciels plutôt que manuellement. Pourtant, ces pratiques ne sont pas toujours systématiques car il est souvent difficile pour certains utilisateurs de savoir quel programme utiliser en fonction d'une situation biologique déterminée ou d'exploiter les résultats fournis par une méthode. C'est pourquoi ce document contient la présentation d'un certain nombre d'outils ou de méthodes couramment utilisés et reconnus dans l'analyse informatique des séquences. Cependant, cette présentation ne constitue en aucun cas un exposé exhaustif de tout ce qui existe.
 

Ce document se compose de deux chapitres.

Dans le premier chapitre, les banques de données de séquences sont présentées en essayant de montrer leur diversité et leur richesse ainsi que les orientations des dernières années dans la conception et la présentation des données dues essentiellement à l'évolution des moyens informatiques.

Dans le deuxième chapitre, les principaux algorithmes de recherche de similitudes entre séquences sont exposés. Pour cela, on s'attachera tout d'abord à donner les définitions et les concepts fondamentaux sur lesquels s'appuient la plupart des outils informatiques employés dans ce domaine. Puis on illustrera ces propos par deux aspects particulièrement utilisés dans l'analyse des séquences qui sont les recherches de similitudes dans les bases de données et l'identification de motifs spécifiques dans les séquences.

  Mai 1997
Christian Fondrat (DSI Direction des systèmes d'information de l'université René Descartes) ©CITI2,DSI,1997.