Examen probatoire








télécharger 34.86 Kb.
titreExamen probatoire
date de publication11.07.2017
taille34.86 Kb.
typeExam
ar.21-bal.com > droit > Exam

CONSERVATOIRE NATIONAL DES ARTS ET MÉTIERS

CENTRE REGIONAL DE MONTPELLIER




Examen probatoire

du cycle ingénieur C.N.A.M.
Filière : Informatique
Présenté par Arnaud ADELL

Les algorithmes des moteurs de recherche






Soutenu le 7 Mai 2006



- Sommaire -


- Sommaire - 2

Introduction 1

1 -Le Web : 2

1.Historique et Définition 2

2.Architecture du Web 4

3.La recherche d’information 7



Introduction

1 -Le Web :


  1. Historique et Définition


Historique :

L’Internet est né en 1962 aux Etats-Unis de la volonté de l’état américain de posséder un réseau sécurisé capable de résister à n’importe quelle attaque.

En 1969 quatre universités américaines sont reliées au réseau ARPANET1.

En 1984, alors que le réseau compte plus de 1000 machines, l’Europe y est désormais connectée par le biais du CERN2.
Ce n’est que dans le début des années 1990 que le concept de Web est introduit par Tim Berners-Lee (du CERN) et que le nombre d’ordinateurs connectés devient réellement important (plus de 300 000).
Le nombre de machines connectées grandissant et le nombre de pages devenant important, des liens hypertextes donnent la possibilité de passer de l’une à l’autre sans vraiment pouvoir aller rapidement sur une page recherchée.

C’est dans ce contexte que le besoin d’outil de recherche de l’information commence à se faire sentir, bien que en 1990 la structure du web ne soit pas aussi éparpillée et complexe que aujourd’hui.

Caractéristiques :
Le Web (World Wide Web) est un mot anglais signifiant la toile d’araignée. Il tire son nom de la complexe interconnexion des pages mises en lignes sur des sites Web. Le WWW représente une partie des fonctionnalités proposées par le réseau Internet.

Le Web est la partie d’Internet qui interconnecte les pages, il fonctionne avec le protocole de navigation HTTP3 qui établit la communication entre le navigateur (le client) et le serveur Web.

Le langage utilisé pour afficher les pages est le HTML4, il transcrit les pages codes écrites sur le serveur en pages multimédias accessibles depuis le navigateur.

Aujourd’hui Internet est un outil indispensable dans de nombreux milieux professionnels, en plus de compter de plus en plus de pages Web, il est utilisé pour envoyer des mails, télécharger des fichiers via le protocole FTP (File Transfert Protocol) ou encore partager des fichiers (Peer to Peer).

En plus des pages Web commerciales ou informatives on voit apparaître depuis quelques mois les blogs (contraction de Web Log), qui sont des pages personnelles écrites sous la forme d’un bloc-notes, elles sont simples à réaliser grâce à des pages pré formatées.

Après quelques années de démarrage rapide le Web a acquis une grande notoriété dans le monde entier que ce soit dans les milieux professionnels, dans les milieux universitaires ou pour toutes sortes de loisirs. Le nombre de pages devenant de plus en plus important il est intéressant de s’attacher à la structure de cette immense toile.

  1. Architecture du Web

Le Web, souvent associé à une toile d’araignées géante, regroupe de nombreux sites qui eux-mêmes regroupent de nombreuses pages. A première vue on pourrait penser que toutes les pages ont une équiprobabilité d’accès à partir de n’importe quelle machine ou à partir de n’importe quel moteur de recherche. Or on peut apparenter la structure de l’ensemble des pages Web à un nœud papillon5. En effet une étude réalisée à deux reprises en 1999 sur plus de 200 millions de pages et 1,5 milliards de liens a fait ressortir un schéma représentatif de l’interconnexion des pages Web qui seraient séparées en plusieurs zones :

La Zone IN : Les pages qui possèdent des liens sortants vers le noyau SCC. Ces pages ne sont pas accessibles à partir de SCC.

SCC (Strongly Connected Component) : Les pages qui possèdent à la fois des liens entrants venant de IN et des liens sortants pointant vers OUT. Ces pages sont fortement liées entre elles, c'est-à-dire que à partir de n’importe quelle page de SCC on peut (par le biais de un ou plusieurs liens dans SCC) joindre toute autre page de SCC.

OUT : Les pages qui possèdent des liens entrants venant de SCC. Ces pages ne possèdent pas de liens sortant pointant vers SCC.

Les tubes : Ceux sont des liens de la zone IN qui pointent vers OUT sans passer par SCC.

Les vrilles : Cas particuliers de IN et OUT ces pages pointent vers IN ou vers OUT ou sont pointés par des pages de IN ou OUT.

Les composants déconnectés : Ces pages web ne possèdent pas de liens avec le noyau des pages interconnectées, elles ne sont reliées à aucune autre page.



Figure I.2.a : La structure du web en nœud papillon

Remarque : Attention, bien que l’on parle de zones il ne s’agit en aucun cas de zones géographiques, on retrouve des exemples de chaque zone dans n’importe quelle localité.

Zones

Répartition sur le web

IN

21,50%

SCC

27%

OUT

21,50%

Tubes + Vrilles

21,50%

Composants déconnectés

8,30%

Tableau I.2.b : Répartition des zones de la structure du nœud papillon sur le web

La plupart des pages sont donc accessibles sur le Web à partir d’autres pages, et ceci, par l’intermédiaire des liens hypertextes. Malgré cela il reste quelques composants totalement déconnectés de la toile qui sont difficilement accessibles (si on ne connaît pas l’adresse) et qui donc ne seront pas référencés par les moteurs de recherche. En plus de ces pages isolées les pages Web peuvent être séparées en deux catégories : Les pages visibles et les pages non visibles.

  • Les pages visibles sont les pages accessibles directement en tapant l’URL6 dans la barre d’adresse du navigateur ou à partir d’un lien pointé par une autre page du même site ou d’un autre site. Ces pages ne poseront pas de problèmes pour les moteurs de recherche.


  • Les pages non visibles sont les pages qui nécessitent une authentification ou le remplissage d’un formulaire. Dans certains cas (notamment celles qui nécessitent une authentification) elles représentent des pages dont l’auteur ne souhaite pas qu’elle soit accessible.

Face à la complexité et à la diversité des informations et donc des pages existantes sur Internet la recherche d’une information n’est pas aisée. Il est donc important de s’attacher à cette recherche d’information et aux différents éléments mis en jeu pour la faciliter.


  1. La recherche d’information

C’est dans le contexte présenté précédemment que le besoin se fait ressentir de trouver une information sans avoir à naviguer à travers tous les liens existants sur le Web. C’est ainsi que la notion de recherche d’information est née sur Internet. Bien que le nombre de pages disponibles sur la toile tend à stagner ces derniers temps il n’en reste pas moins fortement peuplé de plusieurs milliards dont le classement en sites plus ou moins intéressants et plus ou moins pertinents s’avère très difficile.
C’est donc dans le milieu des années 90 que l’on a vu apparaître les premiers moteurs de recherche, ou plutôt les premiers annuaires. En effet ces annuaires n’étaient pas des moteurs à parts entières car ils étaient gérés par des personnes qui naviguaient sur la toile et qui s’efforçaient de donner une importance et une catégorie à chaque site visité. Ce principe d’indexation des pages de la toile est resté utile pendant de nombreuses années. Une fois indexées les pages sont séparées en plusieurs catégories et disponibles en réponse à des requêtes réalisées à l’aide d’une interface. Bien que la pertinence des résultats soit bien souvent approximative, ces annuaires font tout de même le bonheur des premiers surfeurs du web qui sont à la recherche d’information. Le Web étant un outil totalement nouveau les utilisateurs sont bien souvent contents de la quantité d’information disponibles et ne se plaignent donc pas de la qualité des informations proposées par les moteurs de recherche.
En plus des ces premiers annuaires qui classent les pages visitées en catégories de façon manuelles on voit apparaître les moteurs de recherche qui utilisent les propriétés des pages HTML et notamment des balises META pour connaître le contenu d’une page Web. Il existe au sein d’un même page plusieurs balises méta définissant plusieurs caractéristiques des données.
Exemple de 3 balises META fréquemment utilisées :







  • La première balise comprend simplement le ou les noms des auteurs de la page.

  • La deuxième balise comprend une explication simple en quelques mots (sous forme de phrase) du contenu de la page.

  • La troisième balise comporte une liste de mots séparés par des virgules utiles pour certains moteurs de recherche qui vont s’en servir pour comparer cette liste à la requête du surfeur.



Le Web est désormais disponibles à de nombreux internautes dans le monde entier et le besoin de moteurs de recherche se fait ressentir. C’est pourquoi certaines personnes vont se pencher sur le sujet et proposer des moteurs à base d’algorithmes de plus en plus efficaces.

Conclusion


Bibliographie :

- Fabien Mathieu, Graphes du web, Mesures d’importance à la pageRank, thèse soutenue le 8 décembre 2004.

Sites Internet :

- World Wide Web, Wikipedia l’encyclopédie libre, http://fr.wikipedia.org.

- Philippe YONNET, La structure du web est en forme de noeud papillon, http://www.webmaster-hub.com/publication/article64.html.

- Le dico du net, Dictionnaire en ligne collaboratif Dico du Net, http://www.dicodunet.com/.

Filmographie:

Conférences:

1 Arpanet, acronyme anglais de Advanced Research Projects Agency Network, est le premier réseau à transfert de paquets développé aux États-Unis par la DARPA, le projet fut lancé en 1967 et la première démonstration officielle date d'octobre 1972. Il est le prédécesseur d'Internet. (Définition de wikipedia)

2 CERN, Centre européen de recherche nucléaire

3 HTTP, HyperText Transfert Protocol

4 HTML, HyperText Markup Language.

5 Le graphique en noeud papillon résulte des travaux réalisés par Ravi Kumar, un chercheur du laboratoire d’Almaden, avec l’aide d’Andrei Broder et de Farzin Maghoul, du moteur de recherche Altavista.

6 URL, Uniform Resource Locator est l’adresse réticulaire (adresse dans le réseau) d’une page web.

similaire:

Examen probatoire iconExamen probatoire

Examen probatoire iconExamen probatoire

Examen probatoire iconExamen Probatoire. Dispositifs

Examen probatoire iconExamen de culture générale en arabe et français ou anglais+ examen...

Examen probatoire iconL’examen d’un placenta transmis sans aucune donnée clinique ne peut pas être informatif
...

Examen probatoire iconMatière d’examen = cours oral; ce qui n’a pas été évoqué du tout...
...

Examen probatoire iconExamen #S

Examen probatoire iconExamen

Examen probatoire iconExamen clinique

Examen probatoire iconExamen final








Tous droits réservés. Copyright © 2016
contacts
ar.21-bal.com