Quelles sont les différences des moteurs de recherche Internet et en entreprise
Je me suis lancé dans cet exercice, voici quelques pistes non exhaustives ....
1. La volumétrie
Même si la volumétrie d’un périmètre de recherche est de plus en plus importante en entreprise, on commence à parler d’un ordre de grandeur du Téra, la volumétrie Internet n’a pas de commune mesure avec l’atteinte des 20 milliards de pages indexées.
Les algorithmes d’indexation et de recherche à mettre en place ne sont pas les mêmes. Par exemple, les moteurs de recherche Internet sélectionnent les sites qu’ils indexent :
- Sites indexés complètement ou partiellement
- Fréquence d’indexation de 2 heures à 1 semaine, voire plus pour une bonne partie des sites
L’exhaustivité n’existe pas sur Internet et il est difficile de savoir si une page a été indexée et à quel moment. Alors qu’en interne, on obtient une quasi exhaustivité : exclusion de formats très spécifique et éventuellement de très gros documents par paramétrage.
2. La sécurité
Le moteur de recherche Internet par définition n’indexe et ne recherche pas d’information sécurisée avec des droits différents selon les utilisateurs.
La sécurité est par contre une ossature pour les moteurs de recherche d’entreprise qui se doivent de ne restituer à l’utilisateur que les documents auxquels il a accès d’une autre manière dans l’entreprise. La complexité peut être importante avec plusieurs annuaires d’utilisateurs, plusieurs référentiels de sécurité (Notes, Windows, etc, ...)
3. L’information hétérogène
Si les moteurs de recherche Internet doivent être capables d’indexer plusieurs dizaines de formats de fichier différents, ils n’ont pas à indexer des documents ou informations présents dans des applications diverses de l’entreprise : Base de données, Notes, Vignette, SharePoint, Documentum, outil de publication de contenu, mail, poste de travail de l’utilisateur, etc, ...
4. Les informations structurées
Les moteurs de recherche Internet n’indexent que très peu de méta-données, comme le titre. La date par exemple est une donnée difficile à trouver dans une page Web, et peu de site structurent leurs pages pour ajouter des auteurs ou une information géographique.
Par contre les sites Internet donnent souvent des mots clés et des auteurs au niveau de la première page du site Internet pour le référencer. D’ailleurs l’entité documentaire sur Internet est plus souvent le site que la page, alors qu’en application d’entreprise on parle de document.
Les données de l’entreprise sont beaucoup plus structurées, on sait de quelle site, service ou base de donnée vient le document, souvent le réceptacle de stockage donne une indication d’utilisation fonctionnelle. Une typologie de document peut souvent être déduite : page Web, rapport, etc, …
De plus la date est très souvent lisible et pertinente, enfin certaines bases d’informations contiennent des données structurées : géographie, auteur, mots clés, langues.
Les informations des entreprises multinationales sont souvent structurées par pays avec un lien fort sur la langue des documents.
Enfin certains services dans l’entreprise ont une vocation à traiter et promouvoir de l’information et la structurent afin qu’elle soit accessible et communiquée, comme les ressources humaines ou encore la communication. Ces informations sont donc bien structurées.
Puis un dictionnaire métier ou thésaurus peut être disponible il permet de relier des synonymes, associés ou encore sigles et, utilisé en recherche étendre les termes de la recherche aux termes proches.
On attend d’un moteur de recherche d’entreprise qu’il prenne en compte l’ensemble de ces informations pour la recherche mais aussi la visualisation des résultats qui permettront d’effectuer des choix rapide d’accès à l’information.
5. La pertinence de la recherche
La pertinence reste un critère très subjectif, cependant les critères d’accès à l’information sont différents en entreprise et en recherche Internet, notamment par la prise en compte des points précédents.
Les moteurs de recherche vont privilégier souvent un site plutôt qu’une page, car le site est déjà un élément de réponse. Sauf pour les sites d’actualité et les forums par exemple.
L’exhaustivité n’est pas un objectif de la recherche Internet, mais la meilleure liste primaire de résultats : les 10 premiers. Un des critères utilisés est de rendre pertinent les sites les plus visités, s’y ajoute le nombre de liens pointant vers le site. Ces critères fonctionnent assez bien car ils font un premier filtre et que les sites Web sont formatés pour répondre à ces critères : le référencement.
D’un autre coté en recherche dans l’entreprise, l’utilisateur souhaite aussi l’exhaustivité pour ne pas « louper » un document, mais aussi une pertinence accrue dans la liste primaire de résultats.
Pour y arriver les moteurs se servent des informations structurées et mettent place des algorithmes très sophistiqués prenant en compte différents critères : le nombre d’occurrence par rapport à la longueur des documents, la rareté de certains termes dans l’entreprise, la proximité de termes, la présence ou non de l’ensemble des termes, l’utilisation des pluriels et autres formes fléchies, la traduction de termes, l’utilisation des dictionnaires ou thésaurus.
Puis, ils permettent à l’utilisateur de filtrer sa liste de résultat en un ou deux clics en sélectionnant les critères opportuns : les informations structurées comme date, source, auteur, type, mos clés, etc.
Dans ces deux contextes les moteurs utilisent donc des moyens différents d’accéder à la bonne information, sachant qu’il s’agit toujours de compromis. En effet les moteurs de recherche ne peuvent pas traiter parfaitement tous les cas de part l’utilisation de statistiques et de part leur compréhension du langage écrit limité. Il ne faut pas oublier que les requêtes utilisateurs sont souvent réduites à 1 ou 2 mots donc souvent ambigües.