Moteurs de recherche

 

Eric Debonne, Consultant,  Société SOLACI

 

Contexte, Cas Entreprise

 

Le moteur de recherche Intranet est devenu un centre d’intérêt, fonctionnant d’abord pour les bases documentaires, il s’est ensuite élargi lors de la mise en place d’Intranet global dans l’entreprise.

Une première phase d’équipement a consisté à remplacer des applications en technologies client / serveur ayant un accès à l’information via une hiérarchie de termes pré déterminée et via quelques mots clés à choisir dans une liste.

Le besoin actuel est de faire évoluer une application de recherche existante, car elle ne répond plus aux attentes, de nouveaux outils plus riches fonctionnellement existent et l’utilisation de l’application est devenue courante.

Les entreprises sont des grands comptes, cabinets de conseils ou banques.

Il s’agit d’applications d’accès à l’information d’entreprise caractérisée par :

-        une majorité d’information interne pour un nombre conséquent d’utilisateurs (ordre de grandeur de 10 000 à 30 000)

-        utilisée par un département gérant une information très ciblée d’un minimum de 10 000 documents et représentant une des principales connaissances liées à leur métier.

 

Un des services de quelques centaines d’avocats se base sur l’ensemble de ses expériences afin de répondre mieux et plus rapidement à ses clients dans le cadre des propositions autour de ses différentes prestations. Il s’agit d’un historique de missions de 30 000 à 50 000 documents dont 80% sont rédigés en français et le reste en anglais. Les documents sont gérés dans un environnement GED.

Le service rendu doit permettre avant tout un gain de temps afin de rendre l’activité plus productive.

Dans un autre cas, le moteur de recherche s’applique sur un environnement Intranet afin de permettre une recherche d’information sur l’ensemble des données publiées.

 

Description du besoin métier

Une première application de recherche a été mise en place depuis 2 à 3 ans. Les éléments déclencheurs d’évolutions sont les suivants :

-        Une maintenance difficile,

-        Une architecture technique complexe, qui n’a pas forcément évolué,

-        Une application qui n’a pas été suivie et qui devient obsolète,

-        Une application qui ne correspond plus aux besoins des utilisateurs.

 

A partir de ce constat, une étude de besoins est effectuée en parallèle de la question qui se pose : peut-on conserver les solutions logicielles acquises et est-il pertinent de les comparer avec d’autres ?

Voici quelques uns des besoins les plus souvent exprimés :

-          recherche d’une architecture technique simple,

-          la syntaxe de requête doit être libre,

-          la gestion des dérivés simples est obligatoire,

-          le référentiel terminologique existant doit être ré-utilisé,

-          la qualité des résultats doit être au moins équivalente ou supérieure selon les cas,

-          le logiciel doit prendre en compte les documents anglais pour une recherche en anglais et donner les moyens d’une qualité de résultats au moins équivalente à l’existant en français,

-          la qualité des résultats est aussi importante que la convivialité et les fonctionnalités de l’application permettant un accès facile à l’information,

-          le suivi qualité de l’application devient un point clef pour la pérennisation de l’investissement dans le temps.

 

Description du processus actuel / chaîne de traitement

Les documents sont gérés soit au sein d’un logiciel de GED (par exemple Hummingbird DM, Lotus Notes, Documentum), soit au sein d’une base de données, soit sur disque.

Les fichiers sont indexés par un moteur de recherche accédant aux données.

La recherche est plus ou moins pertinente selon les solutions choisies : chaîne de caractères, mots clés, algorithmes statistiques et/ou linguistiques. La visualisation des documents se fait régulièrement après une conversion en HTML, sinon avec une reprise du format natif. La mise en surbrillance des termes concernés par la recherche est active.

 

Description des problèmes actuels

Absence de suivi de l’application.

L’application installée n’a pas évolué dans la plupart des cas. Il s’ensuit des problèmes de type :

-          maintenance d’une architecture obsolète,

-          pas de compétences pour un paramétrage, une correction ou une évolution,

-          contour de l’application ne répondant plus aux besoins de l’utilisateur : mise à jour des bases documentaires pertinentes, ergonomie,

-          qualité de réponse dépréciée : le référentiel terminologique n’est plus à jour, le paramétrage n’est plus adéquat,

-          pas de prise en compte des retours des utilisateurs,

-          pas de communication d’utilisations.

 

L’application ne permet pas un accès facile et rapide à l’information :

-          moteur d’indexation et de recherche par chaîne de caractères ou mots clés,

-          pas d’utilisation de référentiel terminologique : synonyme, extension des sigles,

-          pas de prise en compte de pluriels, de mots composés 

-          manque de fonctionnalité d’aide à la lecture de la liste de résultats : résumé, extrait,

-          manque d’aide à l’affinage ou reformulation de la requête,

-          manque d’outils de structuration de la liste de résultats : sélection par attributs : type, date, format, auteur, origine….; catégorisation, clusterisation

-          manque d’outils de gestion des informations recherchées et retrouvées (activité post recherche) : requêtes, paniers de documents retrouvés …

 

Analyse

 

Identification du point d'intervention TAL

Voici quelques points sur lesquels le TAL peut s’appliquer :

-          suivi qualité : identification des expressions et des termes les plus souvent utilisés ou nouvellement utilisés lors de la recherche et identification de termes proches dans le corpus de document ;

-          création automatique et utilisation d’un référentiel terminologique ;

-          analyse linguistique de la requête et des documents lors de l’indexation ;

-          complément de qualité par l’analyse de la pertinence des résultats avant l’affichage ;

-          suivi qualité et aide à la lecture de la liste de résultats : extraction de termes : noms de personnes, sociétés, chiffre, action du domaine (achats, ventes par exemple) …

-          analyse des retours des utilisateurs : demandes fréquentes, éléments d’indice de satisfaction ;

-          structuration de la liste de résultats : clusterisation, catégorisation automatique ;

-          ajout d’un résumé ou d’un extrait des documents dans la liste de résultats ;

-          correction des fautes de la requête.

 

 

Description du traitement TAL appliqué

Les technologies TAL peuvent être utilisées seules mais sont souvent couplées à des algorithmes statistiques :

-          analyseurs linguistiques de requêtes,

-          extraction linguistique de contenu de document : suivi qualité, résumé, analyse de la liste de résultats, indexation linguistique,

-          Text Mining pour la création automatique d’un référentiel terminologique, extraction de données spécifiques : nom de personnes, de sociétés …, clusterisation, catégorisation.

 

Description du gain qualitatif / quantitatif attendu

Le gain qualitatif attendu lors de l’utilisation de ces technologies est un accès plus simple et rapide à l’information : l’application présente des résultats plus précis et est capable de trier, structurer, expliciter les résultats afin de visualiser les différentes informations disponibles dans le contexte de l’utilisateur.

 

Déploiement et mise en oeuvre

Dans le contexte d’entreprises visées, la technologie TAL n’est pas une valeur ajoutée en tant que technologie mais pour le service rendu dans l’environnement de recherche. Les composants TAL sont donc soit une base du logiciel mis en œuvre, soit utilisés par des fonctionnalités du logiciel.

Le plus couramment, seule la gestion du référentiel terminologique est visible par l’équipe projet client car cette fonctionnalité nécessite des interventions de documentalistes ou d’experts métiers de l’entreprise lors de la mise en œuvre et du suivi de l’application.

 

Évaluation ROI

Coûts et délais de mise en œuvre

Si l’on considère les fonctionnalités utilisant une technologie TAL, le calcul du ROI correspondant à l’apport de cette technologie n’est pas souvent visualisable. En effet, pour une application de recherche globale, il s’agit de l’existence ou non d’un outil d’accès à l’information.

Pour les fonctionnalités directement issues du TAL, il s’agit de gain de temps de recherche, d’exhaustivité, de complétude et de précision de l’information retrouvée. Ces apports sont mesurables dans des environnements où l’utilisateur dispose d’un temps compté et facturé, comme ce peut être le cas d’un avocat. Mais dans d’autres environnements, il faut mesurer le gain de temps obtenu par utilisateur et estimer le coût de ce temps, ce qui est particulièrement complexe.

Cependant, l’étude initiale du besoin lié à l’application doit révéler le ou les services répondants aux plus fortes valeurs ajoutées de l’application dans son contexte d’utilisation. Ces services sont plus facilement mesurables par le responsable du projet client.

La mise en œuvre doit prendre en compte la charge de travail en amont, s’il y a constitution d’un référentiel terminologique, la charge lors de la mise en œuvre et la maintenance de ce référentiel. Ces tâches peuvent s’effectuer par un service externe.

Différents niveau d’investissements peuvent être effectués selon la particularité du projet : d’une approche très automatisée à une approche très personnalisée par une compétence humaine. Ce choix s’effectue selon les besoins à forte valeur ajoutée identifiés, le public concerné (experts ou non), les documents concernés (métier précis ou Intranet global) et l’apport d’un pourcentage de qualité supplémentaire.

La charge de suivi qualité globale (dont les aspects TAL) de l’application est un des centre d’intérêt des entreprises concernées.

 

Retours Utilisateurs

Les retours utilisateurs sont de plus liés à l’utilisation et la fréquence d’utilisation de l’application.