Préparer ses cours à l'aide d'Internet:
Initiation à la recherche sur la toile

Piet Desmet

Internet, le réseau des réseaux, constitue incontestablement un réservoir de ressources d'une très grande richesse. On y trouve toutes sortes de documents: des textes, des catalogues, des livres ou des revues électroniques, des annuaires, des images, des logiciels, des sons, des vidéos, etc.

Le revers de la médaille est que l'internaute peu expérimenté a parfois le sentiment de "chercher une aiguille dans une botte de foin". Le but de ce module est de formuler quelques conseils pratiques qui devraient vous aider à naviguer plus efficacement à travers la toile mondiale. Après avoir clarifié la structure d'une adresse Web (1.), nous vous présenterons quelques outils de recherche, à savoir les listes synthétiques ou "webliographies" (2.), les annuaires ou répertoires, les moteurs de recherche et les métachercheurs (3.) ainsi que les portails (4.). Nous terminerons cette présentation par quelques conseils pratiques qui devraient vous permettre d'effectuer des recherches efficaces (5.)

Reste à préciser que si l'on trouve de tout sur Internet, on n'y trouve pas nécessairement tout! Dans certains cas, le recours à des ressources documentaires traditionnelles reste donc indispensable.

1. Les adresses

1.0.

Une "adresse Web" (ou "adresse URL" ou "URL" (f)) contient un ensemble de données permettant d'avoir accès à l'information d'Internet quand on utilise un navigateur Web.

URL signifie "Uniform (ou Universal) Resource Locator", et définit une sorte d'itinéraire (Locator), menant aux données recherchées (Resource), identique (Uniform) dans toutes les parties du monde et exploitable par tous les logiciels Web ou navigateurs (les plus connus étant Internet Explorer et Netscape Communicator).

1.1. La structure d'une adresse

La structure d'une adresse URL peut paraître complexe à première vue.
Voici un certain nombre d'adresses:
http://www.bonjourdefrance.com (Bonjour de France, journal pour apprendre le français)
http://www.clf.gouv.qc.ca (Conseil de la langue française)
http://www.education.gouv.fr (Ministère de l'Éducation nationale)
http://www.arts.kuleuven.be/weboscope
http://www.olf.gouv.qc.ca/ressources/termino/ressling.html
http://www.kulak.ac.be/kulak/kulaklogo.gif

En fait, on peut comparer la composition d'une URL à la façon dont les fichiers sont organisés sur votre ordinateur personnel. En donnant à votre ordinateur des commandes du type: c\my documents\recherche.doc ou c:\program files\eudora\eudora.exe, il peut identifier directement l'endroit où se trouve le fichier en question. En introduisant une URL dans votre navigateur, vous donnez une commande analogue: vous demandez à votre navigateur de charger un fichier qui se trouve dans tel ou tel répertoire de tel ou tel ordinateur, rattaché au réseau.

Ces adresses se composent toujours des parties suivantes:

  1. le protocole (= liste de conventions qui précisent la méthode d'accès au document recherché):

  2. le protocole HTTP (HyperText Transport Protocol) est utilisé pour transférer des documents hypertextes ou hypermédias entre un serveur Web et un client Web. Il n'est d'ailleurs pas obligatoire de reprendre l'indication http:// dans le champ de saisie du navigateur (LOCATION (Netscape) – ADDRESS (Explorer)).
    Si ce protocole est de loin le plus courant, il existe bien d'autres protocoles, notamment le protocole FTP (File Transfer Protocol), qui permet de télécharger des données (des fichiers) d'un ordinateur à un autre.
     
  3. le nom du serveur (= l'ordinateur hôte (angl. host) qui abrite en principe plusieurs sites). Ce nom commence souvent par www (World Wide Web) et se termine par l'indication du domaine, qui dévoile la nationalité du serveur ou la nature des informations présentées sur ce serveur:

  4. .com = site commercial
    .edu = site éducatif américain
    .gov = gouvernement américain
    .ac.be. = université belge

    .fr = site français
    .be = site belge
    .ca = site canadien
    .ch = site suisse
    .uk = site anglais
    Le nom du serveur se termine par une barre oblique.

  1. le chemin d'accès au document:

  2. Cette partie est facultative. Lorsque le chemin d'accès n'est pas précisé, la barre oblique qui termine le nom du serveur est facultative elle aussi.
    Le chemin d'accès précise le nom du dossier (ou répertoire) dans lequel la page (ou fichier) se trouve et le nom exact de la page même.
    Le nom d'une page standard se termine par l'extension .htm ou .html.
    Lorsque l'adresse se termine par .gif ou .jpg, il s'agit d'une image.
    Les fichiers sonores ou audiovisuels se terminent par différentes extensions, notamment .wav
    Le tilde (~ = alt-0-126) sert souvent à indiquer qu'il s'agit d'un site personnel sur un serveur. De tels sites ont tendance à disparaître plus vite et la qualité des informations fournies doit être vérifiée à fond.

1.2. Comment identifier l'adresse d'un site?

L'adresse du site où vous vous trouvez est indiquée de plusieurs façons:
  1. Elle figure tout d'abord dans le champ de saisie LOCATION (Netscape) ou ADDRESS (Explorer).
  2. La barre d'état en bas de l'écran vous indique progressivement les différentes opérations que l'ordinateur exécute. Si vous mettez le pointeur sur un lien hypertexte, le pointeur se transforme en une petite main et l'adresse de la page est affichée dans la barre d'état.
  3. En cliquant sur le bouton droit de la souris, on pet activer un petit menu. Il suffit de sélectionner la commande VIEW INFO (Netscape) ou PROPERTIES (Explorer) pour obtenir l'adresse. Vous aurez en même temps l'adresse des images éventuelles.

1.3. Les erreurs dans une adresse

On ne peut se permettre aucune erreur en introduisant l'adresse dans le champ de saisie. C'est pourquoi il est fortement conseillé de copier et de coller les adresses à partir d'une liste de signets (Netscape) ou favoris (Explorer) plutôt que de les retaper.

Il vous arrivera assez régulièrement de tomber sur une adresse qui ne fonctionne plus. Parfois, il s'agit d'une panne temporaire du serveur. Il se peut aussi que la page recherchée ait changé d'adresse. À ce moment-là, on peut toujours raccourcir l'adresse d'une section, c'est-à-dire jusqu'à la barre oblique précédente. On peut continuer cette opération jusqu'à ce que l'adresse ne contienne plus que le protocole et le nom du serveur. Sinon, on doit avoir recours à un moteur de recherche (cf. ci-dessous) pour retrouver la nouvelle adresse du site en question. Finalement, il n'est pas exclu que l'adresse contienne l'une ou l'autre erreur. Voici quelques suggestions:

1.4. Testez vos connaissances

(basé sur: http://www.siu.edu/~aatf/self/test.html)

1.4.1. Étudiez les adresses suivantes et puis répondez aux questions.

  1. http://www.cia.gov/
  2. http://abu.cnam.fr/BIB/auteurs/nervalg.html
  3. ./cola/dfll/mwall.html
  4. http://www.culture.fr/gypda.htm
  5. http://www.cortland.edu/www/flteach/civ/
  6. http://www.culture.fr/lumiere/documents/files/oeuvres/David.gif
  7. http://www.fgov.be/
  8. http://prope.insa-lyon.fr/~aasselin/zik/

 

Questions
  1. Lequel(s) de ces sites se trouve(nt) en France?
  2. Lequel(s) de ces sites se trouve(nt) en Belgique?
  3. Lequel de ces sites appartient à une université américaine?
  4. Lequel de ces sites est un site officiel du gouvernement américain?
  5. Lequel de ces sites est un site personnel?
  6. Quelle adresse renvoie à une image?
  7. Quelle adresse n'est pas un site Web?

1.4.2. Devinez l'adresse des sites suivants.

Pour certains sites (relativement bien connus), il devrait être possible de deviner soi-même l'adresse à base des informations données ci-dessus.
  1. le site de Perrier
  2. le site de la SNCB
  3. le site de l'UCL
  4. le site de futuroscope
  5. le site de UCLA (University of California Los Angeles)

2. Les listes synthétiques ou "webliographies"

Une liste synthétique ou "webliographie" offre un choix de sites autour d'une thématique particulière. La sélection est faite par des spécialistes du domaine et les sites sont présentés à travers un classement thématique. Souvent les liens hypertextes sont accompagnés d'un bref commentaire informatif et/ou évaluatif.

Pour le FLE, il existe entre-temps plusieurs dizaines de listes synthétiques, qui émanent de facultés universitaires, d'associations de profs ou d'enseignants individuels. Il est évidemment impossible de les présenter toutes dans le cadre de cette présentation-ci. Nous nous permettons de renvoyer à la rubrique "recherche" de notre propre liste synthétique (cf. ci-dessous) qui présente un classement géographique des principales listes pour le FLE.

° Belgique: liste de Hans Leroy

° Belgique: Virtuele Landen - La douce France (CLT Louvain)

° Belgique: Bopotheek

Bopotheek

° Belgique: le weboscope

Le weboscope est un site qui fournit un inventaire critique des ressources disponibles sur Internet pour la didactique du FLE et s'adresse donc à tout enseignant qui se propose de faire un emploi judicieux d'Internet dans ses cours de français.

Les premières rubriques du site couvrent les quatre compétences, à savoir

lire (journaux, magazines, littérature, bandes dessinées, etc.),
écrire (correspondance entre classes, exercices de composition, IRC, etc.),
écouter (journal parlé, télévision, chansons, etc.) et
parler (exercices de conversation, programmes d'échange, etc.).
Vient ensuite le domaine des connaissances, regroupant
la grammaire (descriptions grammaticales, conjugaison automatique, exercices),
le vocabulaire (dictionnaires, listes de vocabulaire, exercices) et
la civilisation (francophonie, histoire, tourisme, etc.).
Le dernier domaine du weboscope contient des matériaux supplémentaires (préparations de cours, exercices, didacticiels, etc.), des pistes pour la recherche d'informations (moteurs de recherche, listes synthétiques, etc.), et quelques rubriques pour les utilisateurs qui aimeraient s'informer davantage sur les nouvelles technologies.

Weboscope

° France: Noé – un site pour les profs

° France: FrancoFil

° États-Unis: Le Quartier français du Village planétaire

Le Quartier français du Village planétaire

° Etats-Unis: Clicnet

3. Annuaires, moteurs de recherche et métachercheurs

On désigne souvent les outils de recherche sous le terme générique de "moteurs de recherche". Toutefois, il y a lieu en principe de distinguer entre les annuaires thématiques, les moteurs de recherche et les métachercheurs. Une recherche efficace passe d'ailleurs quasi inévitablement par la consultation de ces différents types d'outils de recherche. Certains sites combinent d'ailleurs un annuaire thématique avec un moteur de recherche. Pour une liste des principaux outils, nous renvoyons à la rubrique "recherche" du weboscope ou à la matrice de recherche de Herman Van Uytven de la K.U.Leuven.

3.1. Les annuaires ou répertoires

Les annuaires (ou répertoires/guides) thématiques répartissent les sites Web suivant une classification thématique. Ils sont réalisés "à la main" par des équipes qui cataloguent l'information. Contrairement aux listes synthétiques, ces annuaires ne se limitent pas à un seul domaine. Des rédacteurs répertorient et parfois commentent des sites et les présentent par grandes catégories thématiques organisées hiérarchiquement. L'un des annuaires les plus connus est sans aucun doute Yahoo! (Yet Another Hierarchical Officious Oracle), dont il existe également une variante régionale Yahoo! France. Un autres annuaire utile, consacré exclusivement au Web francophone, est Nomade (75000 sites).
   

Les annuaires thématiques peuvent être consultés en gros de deux façons:

Yahoo! classe les résultats de la façon suivante: Il convient finalement de faire remarquer que les annuaires ont également des limites: Exercice pratique

Servez-vous de Yahoo! France pour trouver:
- des sites sur l'enseignement du français langue étrangère (méthode descendante)
- des sites de la presse francophone (journaux/magazines) (méthode descendante)
- des sites sur la francophonie (méthode ascendante)

Effectuez éventuellement les mêmes recherches à l'aide de l'annuaire Nomade.
Comparez les résultats des deux annuaires.

3.2. Les moteurs de recherche

Les moteurs de recherche sont entièrement automatisés: des robots parcourent régulièrement les pages Web, et réalisent l'indexation partielle ou totale de leur contenu, constituant ainsi de gigantesques bases de données interrogeables par mots-clés. Voilà pourquoi les moteurs de recherche ont de loin les bases de données les plus importantes et les mieux mises à jour. Parmi les moteurs de recherche les plus importants, on peut citer notamment AltaVista et Google.

Ce type d'outil est particulièrement approprié à la recherche portant sur des termes spécifiques et pointus, des noms propres ou des expressions. Il convient d'ailleurs de formuler sa requête de la façon la plus précise possible (cf. ci-dessous).

Si quasiment tous les moteurs de recherche fonctionnent à partir de mots-clés, il en existe quelques-uns qui permettent de formuler une recherche sous la forme de phrases intégrales (en langage naturel). Ainsi, dans Ask Jeeves, vous pouvez introduire n'importe quelle question... en anglais. Le moteur vous propose différentes reformulations de votre question, à partir desquelles vous pouvez effectuer une recherche.

3.3. Les métachercheurs ou multi-moteurs de recherche

Les métachercheurs fournissent un instantané des résultats fournis par les plus gros moteurs de recherche (une sorte d'écrémage), tout en intégrant les résultats (pour éviter de voir deux fois le même site). Ixquick est un métachercheur avec une interface en français. Parmi les métachercheurs américains les plus connus, on peut citer Search.com, Metacrawler et Mamma.

 
Les métachercheurs donnent une idée des sites que l'on va obtenir, de leur façon de traiter le sujet et un certain nombre d'éléments importants:

En fait, mieux vaut commencer une recherche par la consultation d'un outil de ce type. Il ne faut pas hésiter à effectuer plusieurs recherches avec des termes différents et sur plusieurs métachercheurs. Une fois que l'on a ces points de départ, on peut passer à la recherche sur les moteurs ou sur les annuaires.

4. Les portails

Récemment, on essaie de créer autour des annuaires et/ou des moteurs de recherche existants des sites qui offrent un éventail de services plus large. Ces portails ou portes d'accès au réseau Internet peuvent proposer, par exemple, un service de courrier électronique gratuit, une sélection de moteurs de recherche, de bavardoirs (chatrooms), les actualités, la météo, les cotes de la Bourse, un classement de sites par thèmes (ex: cinéma, voyage, sport), des raccourcis pour les achats en ligne, etc. L'objectif des portails est de devenir le site de démarrage du plus grand nombre d'internautes. Parmi les portails les plus importants dans le monde francophone, on peut citer non seulement Microsoft Network ou MSN et le Netscape Netcenter, mais aussi Club-Internet. De plus, les sites des annuaires comme Yahoo France ou Nomade se profilent de plus en plus comme de véritables portails. Parmi les portails belges, on peut citer notamment AdValvas ou Skynet.

De plus, certaines listes synthétiques ou "webliographies" essaient également d'offrir la plupart des fonctionnalités prévues dans un portail. Un des exemples les plus réussis est sans doute La porte des lettres, un portail sur les lettres et les sites éducatifs en français. Un site aux objectifs quelque peu plus larges est Educlic, le portail des professionnels de l'éducation. Par ailleurs, le site Momes.Net, le portail de la communauté internationale des jeunes francophones, vaut certainement le détour.

5. Comment effectuer une recherche efficace ?

5.1. Conseils généraux

Les deux conséquences d'une mauvaise requête sont les suivantes: Un bon réflexe pour faire des requêtes pertinentes:
N'avoir aucun ou trop de résultats revient dans la pratique à la même chose: ça ne sert à rien. Mieux vaut restreindre un peu trop son champ d'investigation et perdre 20% de sites intéressants, qu'être trop général et en perdre 80%, faute de pouvoir dépouiller tous les résultats.
De toute façon, il est impossible de faire une requête parfaite qui engloberait tous les sites intéressants, ne serait-ce que parce qu'un moteur ne recherche ne possède jamais à lui tout seul toutes les références intéressantes.

5.2. La définition du sujet de sa recherche

L'absence de résultats intéressants à une recherche sur le Web a souvent pour cause une mauvaise définition du sujet de la recherche. On doit pouvoir exprimer le sujet d'une recherche sous plusieurs angles:

5.3. Cerner sa recherche: les opérateurs

Sur les moteurs de recherche généraux, c'est-à-dire ceux ayant de très importantes bases de données, n'importe quelle requête simple retourne plusieurs dizaines de milliers de résultats. Sauf chance exceptionnelle, les sites potentiellement intéressants ayant trait au sujet recherché sont noyés dans des milliers d'informations inutiles. Lorsque c'est possible, l'utilisation d'opérateurs restreint considérablement le champ de la recherche en diminuant le "bruit" (i.e. tous les résultats inutiles générés par une requête).
Il convient de préciser que les tableaux ci-dessous présentent une utilisation théorique des opérateurs. Dans la pratique, chaque moteur de recherche a sa syntaxe propre. Les variations et les spécificités sont indiquées dans les aides de ces moteurs.

5.3.1. Limitation de certains champs

opérateur fonction exemples
title:x Le mot ou la phrase doit être dans le champ titre (ou dans le méta-titre).
Attention: pas d'espace entre title, les deux points et l'expression!
title:grammaire française
title:"musée du louvre"
url:x Le mot doit faire partie de l'adresse du site. url:fle.fr
link:x Cette commande permet de chercher quel site a établi un lien vers cette page. Deux pages liées traitent souvent du même sujet, ou sont au moins complémentaires.  link:www.fle.fr
link:tourdufrancais.vlaanderen.be
image:x Recherche les images dont le nom contient x. image:"Arc de Triomphe"
anchor:x Recherche les pages ayant des boutons ou des liens contenant x dans le texte du lien hypertexte. anchor:dictionnaires
domain:x Recherche les pages appartenant à un domaine déterminé. domain:edu
AND NOT domain:com (permet d'exclure les sites commerciaux)

5.3.2. Recherche de phrases

"x" Recherche les pages contenant littéralement x. "Il est cinq heures. Paris s'éveille"
"vache folle"

Inutile de vous rappeler que cette fonction est particulièrement utile lorsque vous croyez qu'un élève a recopié tel ou tel passage du Web sans citer ses sources!

En utilisant les guillemets, on peut même se servir du Web comme un énorme corpus électronique. On peut y trouver un début de réponse à un certain nombre de questions d'ordre linguistique.
p.ex. "cliquer un lien" (8 pages) vs "cliquer sur un lien" (195 pages)
"une URL" (6412 pages) vs "un URL" (1687 pages)
Que signifie le sigle "AFNOR"?

5.3.3. Troncation

xxx* Le joker (*, angl. wildcard) remplace une suite de caractères (max. 5). Il peut se placer également au milieu du mot. Le joker ne remplace ni les majuscules, ni les chiffres, ni les signes de ponctuation. grammaire* trouve grammaire et grammaires
francopho* trouve francophone, francophones, francophonie, etc.
Dosto*evsk* trouve Dostoïevski, Dostoïevsky, Dostoievski, etc.

5.3.4. Recherche booleacuteenne

x AND y Recherche les pages contenant x ET y "auberge de jeunesse" AND Paris
x OR y Recherche les pages contenant x OU y. Baudelaire OU "Les Fleurs du Mal"
x AND NOT y Recherche les pages contenant x MAIS NON PAS y. festina AND NOT dopage
x NEAR y Recherche les pages dans lesquelles x est éloigné de y d'au plus 10 occurrences. Prince NEAR Philippe
( ) Les parenthèses groupent des actions dopage AND (football OR cyclisme)

Dans certains moteurs de recherche, les expressions booléennes sont remplacées par d'autres signes:
  AND   équivaut à    + ou &
AND NOT équivaut à - ou &!
NEAR équivaut à ^n
OR équivaut à | (= alt-0-124)

Attention: ces signes doivent se placer également devant le premier terme de la recherche, pour avoir le même résultat que les opérateurs booléens classiques.
Ainsi, "auberge de jeunesse" AND Paris équivaut à +"auberge de jeunesse" +Paris et non pas à "auberge de jeunesse" +Paris. Les termes qui ne sont pas précédés d'un signe sont considérés en fait comme étant moins importants pour la recherche en question.

5.3.5. La casse

Majuscules, minuscules et caractères accentués Dans les requêtes, les mots en minuscules équivalent à des mots en minuscules, en majuscules ou en majuscules mélangées
Les majuscules équivalent uniquement à des majuscules.
Même principe pour les accents.
aimé équivaut à Aimé, AIME ou aIMé.

Aimé équivaut à Aimé, AiMé, mais non pas à aimé.

AIME n'équivaut qu'à AIME.

On ne saurait donc sous-estimer l'importance de la casse dans les moteurs de recherche. En règle générale n'utilisez les majuscules que pour chercher un nom propre existant aussi en tant que nom commun. Par exemple, si je recherche des renseignements sur la région de la Champagne, je taperai "Champagne" et non "champagne".

 

6. Bibliographie

Cette présentation se base directement sur les sites et les ouvrages suivants ainsi que sur les manuels de l'utilisateur des outils de recherche:

ABRATE, Jayne. 1999. Utiliser le World Wide Web dans la classe de français : tout pour le débutant et même quelque chose pour l'internaute rusé. http://www.siu.edu/~aatf/self/begin.html
CHIRURGIEN, Estelle. 2001. Comment trouver?: la recherche d'information plaNETaire. Sainte-Foy (Québec): Éditions MultiMondes.
CORDA, Alessandra. 1999. Internet in het talenonderwijs. Bussum: Coutinho.
CREPUQ. 1996. GIRI - Guide d'initiation à la recherche dans Internet. http://www.bibl.ulaval.ca/vitrine/giri.
DAVIES, Nancy. 1999. Activités de français sur Internet. Paris: CLE International.
DE GROOF, Dirk. 1999. Snel en efficiënt zoeken op het Internet. Leuven: Davidsfonds.
ROUSSEAU, Manuel. 1999. Le Manuel de survie du chercheur sur Internet. http://www.multimania.com/mrousseau.
TRUYEN, Fred TOLLENEER, Jan. 1998. Historische Informatiekunde. Beheer van tekstuele data met de Personal Computer. Leuven: Acco.
(Voir aussi: http://fuzzy.arts.kuleuven.ac.be/F207)