Index et thésaurus | booléens | proximité | fréquence | priorités | troncature | veille électronique
Les index (ou lexique) et les thésaurusL'indexation est la phase de l'analyse documentaire qui permet d'affecter au document un ou plusieurs termes significatifs.
Il existe plusieurs outils documentaires pour choisir les termes significatifs :
l'index ou le lexique de descripteurs (on parle également de mots-clefs) : ce sont des listes alphabétique de termes contrôlés. Le documentaliste-indexeur tirera de cette liste les descripteurs qui reflètent le mieux les concepts de l'article.
si les descripteurs sont organisés de manière hiérarchique (terme générique décliné en plusieurs termes spécifiques) avec des renvois d'équivalence -synonyme de- et d'association - voir aussi -, on parle de thésaurus. Ex : le Mesh® utilisé dans Medline®.
Exemple d'Index ou Lexique
(MeSH en français, INSERM) :ABCES ABDOMINAL
ABCES CERVEAU
ABCES MUSCLE PSOAS
ABCES PARODONTAL
Exemple de Thésaurus :
Terme générique ABCES
Termes spécifiques ...ABCES ABDOMINAL
.......ABCES FOIE
..........ABCES AMBIEN FOIE
...ABCES CERVEAU
...ABCES MUSCLE PSOAS
...ABCES PARODONTAL
Voir aussi EMPYEME
On parle alors de recherche en langage contrôlé, en opposition à la notion de recherche en langage libre ou mot libre ou texte libre.
La recherche en langage libre utilise les mots du langage courant et sert à interroger les champs Titre et Résumé.
Et cela grâce à des logiciels d'indexation automatique de type plein texte (full text) qui travaillent principalement au niveau de la forme en retenant les chaînes de caractères séparées par des espaces à l'exception des mots vides (c'est-à-dire des mots sans signification propre comme les articles définis et indéfinis) qui constituent ainsi des index de termes non contrôlés.
On peut donc effectuer une recherche bibliographique en utilisant les descripteurs d'un langage contrôlé et en complétant la recherche par une requête en mot libre.![]()
Il existe des outils documentaires qui permettent d'affiner, d'orienter une recherche afin d'éviter le "bruit" (l'obtention de données hors sujet lors d'une interrogation) ou, au contraire le "silence" (l'obtention d'un nombre insuffisant de notices par rapport au nombre pertinent de réponses qu'on aurait dû obtenir).
L'usage des opérateurs booléens ou logiques (ET, OU, SAUF) est indispensable pour lier des termes à rechercher et écrire des équations de recherche selon une logique mathématique (algèbre de Boole).
ET/AND (intersection) : pour obtenir les notices comportant la présence simultanée des mots-clefs recherchés.
Exemple: adolescent ET anorexie
A = ensemble des adolescents
B = ensemble des personnes souffrant d'anorexie
A ET B = ensemble des adolescents soufffrant d'anorexie
OU/OR (union) : pour obtenir les notices comportant au moins l'un des descripteurs recherchés.
Exemple: convulsion OU épilepsie
A = ensemble des personnes souffrant de convulsions
B = ensemble des personnes souffrant d'épilepsie
A OU B = ensemble des personnes soufffrant de convulsions ou d'épilépsie
SAUF/NOT (exclusion) : sert à éliminer les notices incluant le mot-clef rejeté.
Exemple: alcoolisme SAUF personne âgée
A = ensemble des personnes souffrant d'alcoolisme
B = ensemble des personnes âgées
A SAUF B = ensemble des personnes soufffrant d'alcoolisme qui ne sont pas des personnes âgées
![]()
Les opérateurs de proximité
Les opérateurs de proximité (ADJ, NEAR, NEARx, WITH, FOLLOWED BY, SAME selon les bases de données) sont des opérateurs qui permettent de retrouver deux termes dans un même champ ou une même phrase. Certains opérateurs sont assez précis pour que l'on puisse choisir le nombre de mots entre les deux termes recherchés et l'ordre de ces mots.
les opérateurs de proximité sont utilisés essentiellement pour la recherche en texte libre dans les champs Titre et Résumé.
Ex : la requête "Dyslexie NEAR Enfant in AB" retrouve les notices qui contiennent dyslexie et enfant dans le champ Résumé sans notion d'ordre.
ils sont conseillés pour trouver les expressions.
Ex : la requête "Micro ADJ Ordinateur" retrouve les notices qui contiennent le terme Micro suivi immédiatement d'Ordinateur (très utile pour les expressions).
Ex : la requête "Guide NEAR3 Paris" retrouve les notices qui contiennent les deux termes dans une limite de trois mots consécutifs dans une même phrase.
les opérateurs de proximité peuvent être aussi employés pour les recherches sur les noms d'auteur qui sont souvent entrés avec des variantes.
Ex : la requête "SMITH NEAR3 J*" retrouve John Smith, John Scott Smith, John S Smith etc.
Attention : le nom et le mode de fonctionnement exacts de ces opérateurs varient d'une base à l'autre. Il est conseillé de consulter le mode d'emploi de la base de données interrogée.
![]()
Certaines interfaces d'interrogation proposent un opérateur de fréquence (FREQn) pour spécifier le nombre d'occurrence d'un terme dans un champ.
C'est très utile pour la recherche en mots libres dans le champ Résumé : blood pressure.ab/freq=5 pour rechercher les notices dont le résumé (ab) comporte au moins 5 fois le terme "blood pressure".
![]()
Les priorités entre opérateurs
Si vous utilisez plus d'un opérateur booléen ou de proximité dans une requête, sachez qu'ils opérent dans un ordre pré-établi qui varie selon les bases.
de manière générale, l'ordre des opérateurs booléen est le suivant :
OR
AND
NOT
Et ils opèrent de la gauche vers la droite
les opérateurs de proximité peuvent s'intercaler entre les opérateurs booleéns.
Ex : pain NEAR20 morphine AND ganglia OR tumor lesion
1. Le système commence par chercher les articles contenant "ganglia", "tumor" ou "lesion" (OR a priorité)
2. Puis, il cherche les articles contenant le terme "pain" à au maximum 20 mots de "morphine" (NEAR a priorité devant AND)
3. Ensuite, seuls les articles contenant à la fois les deux étapes précédentes sont sélectionnées (AND opère en dernier).
pour changer les priorités entre opérateurs, vous pouvez utiliser des parenthèses. Les opérateurs entre parenthèses opèrent avant ceux situés en dehors des parenthèses.
Ex : (genes OR chromosomes NEAR5 splicing) OR cloning
1. Le système recherche tout d'abord les articles contenant "genes" ou "chromosomes" quand ils sont situés à 5 mots de splicing.
2. Ensuite,il cherche les articles "cloning".![]()
Les troncatures
L'usage des troncatures permet en remplaçant un ou plusieurs caractères de trouver les mots au singulier ou au pluriel, d'autres mots de la même famille. (ex : robot* retrouve robot, robots, robotique, robotisé).
Les symboles varient selon les logiciels: *, ?, +, $.
Certains logiciels font la diffèrence entre une troncature illimitée, qui remplace aussi bien un seul caractère qu'une chaîne de caractères et une troncature limitée à un seul caractère (wildcard, joker). (ex. de troncature illimité : cat* retrouve catatonique, cats... ; et ex. de troncature limité : M?cdonald retrouve à la fois Macdonald et Mcdonald).
La veille électronique ou DSI (Diffusion Sélective de l'Information)
La veille électronique est l'une des expression utilisée pour désigner tout système informatisé qui permet de se tenir au courant des dernières publications dans son domaine de recherche ou dans sa revue préférée de manière simple et automatisée.
Le principe reste le même: sauvegarder une requête que ce soit sous forme d'équation de mots-clefs, de combinaison de plusieurs recherches, de liste de revues, etc. pour pouvoir relancer l'interrogation à sa convenance ou de façon régulière. Un certain nombre d'utilitaires de veille électronique vous propose de recevoir systématiquement les résultats des nouvelles recherches dans votre boîte aux lettres électronique.
On parle aussi de Profil de recherche ou encore d'Alerte.