21/01/2015

Récupérer l’information

Vous allez fouiller le Web pour récupérer :

Il n’est pas interdit d’échanger entre vous des informations : soit des fichiers, soit des adresses de documents.

N’oubliez pas de citer vos sources dans le document final.

Ces documents seront rangés dans votre dossier NOM_PRENOM_TDB5.

Le web invisible

Le nombre de pages indexées par les moteurs est évalué à plus de 1000 milliards. Les moteurs n’indexent pas tout. Le web invisible, c’est l’ensemble des pages qui ne sont pas référencées par un moteur de recherche. Il n’y a pas beaucoup d’études, mais le web visible représenterait 1/4 des pages accessibles.

Pour trouver une page web (et ensuite l’indexer) un moteur de recherche va de page en page soit en suivant les liens, soit en les remontant ; on pourrait croire que cela suffit pour trouver toute page web mais il y a des raisons pour que non.

Raisons de méthode

Raisons dynamiques

Raisons sémantiques

Référence : Bibliothèque nationale de France