les outils de recherche sur Internet et sur le Web
<< 1. qu’est-ce qu’Internet ? | 3. formuler une requête >>
Les problèmes de la recherche de documents sur le web
Le web est enorme
La difficulté provient en partie de la taille du Web et du nombre considérable de documents qui s’y trouvent hébergés, répartis sur de nombreux sites. Il est impossible de connaître le nombe exact de ces sites et de ces documents, qui augmentent de façon exponentielle. Voici quelques chiffres valables en sept. 2005.
Nombre de sites Web : 70 millions.
Nombre de "pages" Web : 20 milliards.
Le Web n’est pas une bibliothèque !
- On entend parfois dire que le Web est une immense encyclopédie ou une immense bibliothèque. Cette image est fausse, tout simplement parce que les documents présents sur le Web ne sont pas indexés ni classés. Une image plus exacte du Web serait celle d’une immense bibliothèque dont tous les ouvrages auraient été éparpillés au hasard en un tas informe (et pour un bon nombre de ces ouvrages les pages elles-mêmes auraient été arrachées et dispersées !).
- Lorsque vous dites que vous “faites une recherche sur le Web”, en réalité vous ne faites pas cette recherche sur le Web lui-même. En effet, il n’est pas possible de faire une recherche sur ou dans le Web directement. Le Web est la totalité des innombrables pages Web qui sont hébergées sur des ordinateurs (ou serveurs) localisés dans le monde entier. Votre navigateur ne peut pas aller fouiller tous ces ordinateurs ou serveurs un par un de par le monde.
- Ce que vous pouvez faire avec votre navigateur, en revanche, c’est accéder aux outils de recherche intermédiaires qui sont disponibles. Vous faites votre recherche dans la base de données ou la collection de sites Web indexés par un moteur de recherche. Cette base n’est qu’une petite partie de la totalité des documents Web existants. Le moteur de recherche répond à votre requête en affichant une liste de liens vers des adresses de pages Web qui semblent y répondre. En cliquant sur les liens vous pouvez accéder aux documents hébergés sur des ordinateurs localisés n’importe où dans le monde.
Le Web invisible
- Notez par ailleurs qu’une grande partie des documents Web existants ne sont pas accessibles par l’intermédiaire des moteurs de recherche. Tous ces documents font partie de ce qu’on appelle le Web invisible.
- Les ressources vers lesquels les hyperliens sont créés dynamiquement pour répondre à une interrogation échappent aux robots d’indexation. En effet, un robot n’est pas capable d’émettre des interrogations pertinentes, aucun hyperlien n’est donc créé lors de sa visite.
Ces ressources constituent de ce qui est parfois appelé le Web invisible ou Web profond. Il s’agit surtout de ressources provenant de bases de données, accessibles à travers une passerelle. Une étude de la firme BrightPlanet a évalué que le Web profond pouvait contenir 500 fois plus de ressources que le Web indexé par les moteurs de recherche.
Searching on the Internet today can be compared to dragging a net across the surface of the ocean. While a great deal may be caught in the net, there is still a wealth of information that is deep, and therefore, missed. The reason is simple: most of the Web’s information is buried far down on dynamically generated sites, and standard search engines never find it. brightplanet.com >>
- le Web invisible, ou profond : Intelligence-center.com >>
Le contenu de cette importante source d’informations qu’est le Web est donc d’un volume considérable, mais mal organisé et difficile d’accès. Heureusement nous disposons d’outils spécialisés pour y effectuer nos recherches.
les moteurs de recherche
Caractéristiques
Un moteur de recherche du Web est un logiciel permettant de retrouver des ressources (pages Web, forums d’utilisateurs, images, vidéo...) associées à des mots-clés. Il est possible d’installer de tels logiciels sur son ordinateur (je recommande par exemple Copernic Agent >>).
Certains sites Web offrent un moteur de recherche comme principale fonctionnalité ; on appelle alors “moteur de recherche” le site lui-même. L’exemple le plus connu de ce type de site-moteur de recherche est Google >>.
Personnalisation
Vous pouvez personnaliser (customize) un certain nombre de paramètres de l’interface du moteur de recherche que vous utilisez.
Par exemple en allant dans les Préférences de Google, vous pouvez :
- choisir la Langue de l’interface ;
- Rechercher les pages Web dans toutes les langues ;
- Rechercher uniquement les pages écrites dans la ou les langues sélectionnées ;
- Indiquer le Nombre de résultats à afficher.
Le moteur de recherche AlltheWeb permet une personnalisation avancée, mais n’offre pas le choix de la langue de l’interface, contrairement à Google (seulement l’anglais). Vous pouvez personnaliser vos raccourcis clavier et même demander un affichage utilisant votre propre feuille de style (si vous savez comment écrire une feuille de style CSS).
sélection de moteurs de recherche
Voici une petite sélection de moteurs de recherche que vous pouvez tester afin d’estimer leur degré d’utilité par rapport au type de recherche que vous effectuez le plus souvent. Ils sont classés en ordre alphabétique.
Ce moteur offre des fonctionnalités pratiques d’affinage par mots-clés et de zoom par catégorie : sur la base des mots rentrés dans la boite de requête, l’internaute se voit proposer plusieurs catégories et sous-catégories. Sur l’exemple ci-dessous on voit qu’à un recherche demandée sur le mot didactique le moteur AOL propose de zoomer sur des concepts proches : Didactique des langues, etc.
Ce moteur est en version de test à la fin de 2004. Il vise plus spécialement les publications scientifiques et universitaires. A essayer absolument ! Voici un extrait de la documentation officielle du site (en anglais uniquement).
Google Scholar enables you to search specifically for scholarly literature, including peer-reviewed papers, theses, books, preprints, abstracts and technical reports from all broad areas of research. Use Google Scholar to find articles from a wide variety of academic publishers, professional societies, preprint repositories and universities, as well as scholarly articles available across the web.
Métamoteur de recherche cartographique. KartOO présente les résultats sous forme d’une carte reliant entre eux les concepts voisins de votre thématique de recherche. Un très bel outil qui permet de visualiser rapidement les sites contenant des documents en lien avec votre thème de recherche. KartOO dispose d’une aide en ligne très bien faite.
MSN Search >> & MSN Search France >>
Lancé le 11 novembre 2004 en version beta. A son lancement, le moteur de Microsoft comprend un index de plus de 5 milliards de documents. On peut choisir parmi 12 langues de recherche.
La nouvelle version de Yahoo! Recherche propose toute une palette d’outils et de services afin de vous aider à trouver tout ce que vous cherchez, plus facilement et plus rapidement que jamais.
Les annuaires
Caractéristiques
- Un annuaire web ou répertoire web est un site Web proposant une liste classée de sites Web. Contrairement aux moteurs de recherche du Web, qui sont alimentés par des robots, de manière automatique, la classification dans les annuaires est réalisée par des êtres humains.
- Le classement se fait typiquement dans une grande arborescence de catégories, censée couvrir tout ou partie des centres d’intérêt des visiteurs. Chaque catégorie contient :
- des sous-catégories concernant des aspects plus pointus d’un sujet donné ;
- des liens accompagnés d’une description plus ou moins sommaire. Ces liens sont des URL pointant vers les ressources relatives à la catégorie dans laquelle elles ont été classées.
- Les annuaires sont généralistes ou spécialisés/thématiques :
- les annuaires généralistes couvrent tous les centres d’intérêt possibles ;
- les annuaires spécialisés/thématiques se penchent exclusivement sur les sites ou les pages web traitant d’un certain sujet, ou destinés à un certain public.
Comment ça marche
Voici un exemple de résultat d’une requête de recherche faite sur Jane Austen dans l’annuaire Yahoo! >> en anglais. Passez la souris sur les zones encadrées en rouge de l’image pour plus d’information.

Passez la souris sur les zones encadrées de rouge pour plus d’information
Moteur ou annuaire ?
Il y a quelques années, certains sites étaient spécialisés en tant que moteur de recherche Web et d’autres en tant qu’annuaire ou répertoire (directory). Maintenant, les sites de moteurs de recherche les plus connus offrent les deux types de fonctionnement (et même davantage). Par exemple Google était un moteur de recherche et Yahoo était un annuaire : l’un et l’autre site offrent maintenant les deux modes de fonctionnement.
Les annuaires spécialisés ou thématiques
En dehors des grands annuaires de recherche sur le Web comme Google ou Yahoo! on trouve des annuaires spécialisés dans des domaines précis. Pour des recherches dans le domaine des lettres et langues, voici une petite liste d’annuaires utiles. Ils sont parfois appelés signets.
Les Signets de la Bibliothèque nationale de France proposent une sélection commentée de ressources accessibles par Internet, choisies par les bibliothécaires de la BnF, qui les classent et tiennent à jour leur description. Ce site de la BNF est un point d’entrée remarquablement bien fait pour toute recherche sur le Web.
Les sites conseillés par le SCD de Rennes 2 >>
Sélection de sites réalisée par les responsables du Service Commun de la Documentation de Rennes 2.
Annuaire anglophone spécialisé dans les ressources Web de type universitaire. Les résultats offrent une garantie de sérieux. Voir en particulier les sections suivantes :
Cultural Diversity & Ethnic Resources >>
Social Sciences & Humanities >>
Vous trouverez ci-dessous une sélection de sites portails, ou sites de liens pour la littérature, l’histoire ou la civilisation allemande, anglaise et espagnole. Merci de me signaler l’existence d’autres sites portails pour la littérature ou la civilisation de ces langues ou pays ou d’autres langues ou pays.
Littérature allemande
Monde anglo-saxon
Portail de Ressources Electroniques pour Anglicistes. Dernière mise à jour: 18 mars 2003.
Littératures de langue anglaise
Made by the U.California, Santa Barbara, English Department. Alan Liu’s superb collection of electronic resources for the humanities.
University of Arkansas at Little Rock >>
U of Arkansas at Little Rock English Dept. website lists search engines and indexes to literature. Scroll down to Literature Sites on Web for links to teaching literature, film and media, etc. Also look at Reference links for on-line dictionary, MLA style guide, biography search engine, science fiction study guides, and more. Other sections of this site include Resources for Writers, Women Writers.
Literary Resources on the Net >>
by Jack Lynch of Rutgers
Irish Studies (le projet Albion) >>
Espagne & Espagnol
Littératures de langue espagnole
Literatura en Internet ¿Qué encontramos en la WWW? >>
Enlaces de Literatura Española anterior a 1939 >>
Les groupes de discussion
En dehors des moteurs de recherche et des annuaires, les groupes de discussion peuvent s’avérer une source utile d’information pour votre recherche.
- La première étape consiste à identifier s’il existe un ou plusieurs groupes de discussion consacrés au sujet de votre recherche ou à l’un des domaines plus vastes auxquels votre sujet peut se rattacher. Pour rechercher l’existence de ces groupes, le mieux consiste à faire une recherche par mots clés sur un moteur de recherche, en choisissant une recherche non pas sur le Web ou dans un Annuaire, mais dans les Groupes.
- Lorsque vous avez identifié un groupe de discussion correspondant à votre sujet de recherche, commencez par lire un certain nombre de messages déjà postés par les membres. Imprégnez-vous des usages du groupe, repérez les choses à faire et ne pas faire, comprenez comment formuler vos propres messages pour avoir des chances d’obtenir une réponse. Evitez les questions trop générales, du genre “I am writing a dissertation about Jane Austen. Who can help me?”
- Quand vous vous sentez prêt et que vous avez une “vraie” question à poser, lancez-vous.
Certains groupes ou forums de discussion ne font pas partie de la catégorie "Groupes de discussion" sur les forums Usenet. Vous pouvez les découvrir par une recherche par mots clés sur un moteur de recherche sur le Web. Par exemple: Jane Austen Forum >>.
Iconographie
Dans le cadre d’une recherche en vue d’un mémoire ou d’une thèse dans le domaine de la civilisation, on procédera à une recherche de documents iconographiques en sélectionnant le mode Image des moteurs de recherche.
Exemple de sujets de mémoires de maitrises soutenus à Rennes 2.
William Blake’s The Marriage of Heaven & Hell, an imaginative war for freedom.
Allo, D. 2001.
- Requête dans Google|Images : William Blake Marriage Heaven Hell.
- Résultat : 83 images dont un bon nombre de reproductions de l’ouvrage de William Blake (vignettes ci-dessous).
![]() |
![]() |
![]() |
---|
L’affiche républicaine durant la Guerre d’Espagne : éléments d’une rhétorique de l’image politique espagnole.
Ayrault, Patricia. 1987.
- Requête dans Google|Images : republica "guerra civil"
- Résultat : 240 images et liens vers des sites consacrés à ce thème.
![]() |
![]() |
![]() |
---|