Hugues de Mazancourt
|
Mots clefs |
Fourniture de contenu en ligne |
|
Fournisseur de la solution |
Lingway |
|
Client |
Interex (www.interex.fr) |
Société de services d’aide à l’exportation française (plus de 5 000 entreprises clientes). La société gère un site Web portail présentant un contenu « interne » structuré comme suit :
1. des fiches « pays » décrivant l’activité économique, les principales formalités, les écueils à l’exportation pour la quasi totalité des pays du monde,
2. des fiches décrivant les foires et salons, ainsi que les organisations professionnelles dans le monde,
3. des fiches « opportunités et tendances », rédigées par les analystes en interne, qui décrivent les tendances économiques pour un produit ou secteur d’activité dans un pays (ou groupe de pays),
4. des fiches « études de marché », qui sont collectées par les analystes depuis des sites publics (gouvernementaux ou autres).
De plus, le portail présente un contenu « externe » qui est le résultat d’une surveillance de 2 000 sites ciblés par la société et utiles dans le contexte d’une étude sur l’export (sites de douanes, de marketing, d’économie en général pour un pays ou un secteur donné).
Le renouvellement du contenu interne est d’environ 50 fiches « opportunités et tendances » et 50 études de marché par semaine. Le contenu externe évolue au rythme de ses éditeurs et recense environ 600 000 pages.
Le site portail compte environ 25 000 visiteurs par mois. Il diffuse des alertes à ses abonnés (service payant), avec le même type de recherche que pour la consultation du site.
Le besoin est de fournir un portail simple d’accès aux divers contenus. Si un certain nombre d’éléments (fiches pays, par exemple), peuvent être présentés avec des techniques standard de portail, une fonction de recherche intelligente est nécessaire pour les autres (cf. ci-dessous). Le site est à la fois fournisseur de revenus en tant que tel (certains contenus sont payants) et un point d’entrée vers des services spécialisés proposés par la société.
Le contenu interne est remis à jour une fois par semaine par les analystes de la société. Le contenu externe est mis à jour par un « crawling » régulier des 2 000 sites. L’ensemble des données est stocké dans une base relationnelle. Une interface simple permet d’entrer ces données. Elles sont périodiquement transférées sur le serveur, dans une base de données.
Une fonction de recherche avancée est nécessaire pour mettre en valeur les contenus à la fois externe et interne. En effet, le contenu, même riche, est d’un volume relativement « petit » comparé aux grandes bases de données commerciales ou au Web. On se heurte donc aux problèmes classiques de bruit et (surtout) de silence lors d’une interrogation par mots-clés.
De plus, comme le contenu est bilingue (français et anglais, mais anglais à 80%), l’utilisateur doit faire plusieurs requêtes en fonction des documents interrogés, éventuellement toutes dans des langues différentes de la sienne, dans la mesure où le site existe en version francophone, néerlandophone ou anglophone.
On va donc opter pour un système qui enrichisse les requêtes de synonymes et mots proches à partir d’un dictionnaire général avec une orientation « business » et éventuellement augmenté de terminologie spécifique, doté de capacités multilingues (« cross-language »).
La solution TAL, du point de vue de l’utilisateur, n’intervient qu’au travers de la fonction « rechercher » du portail. Elle est la plus transparente possible.
Dans les faits, les contenus textuels sont indexés via le système TAL qui fournit également la solution de recherche dans ces contenus.
La fonction d’alerte utilisera la même recherche (avec un filtre sur la date des documents).
- enrichissement de requête
- expansion à d’autres langues,
- détection de la langue des documents (au moment de l’indexation),
- « crawling » et conversion de formats (technologies sans lesquelles les solutions TAL ne peuvent être mises en place).
Le gain qualitatif s’exprime en précision ou rappel sur les documents obtenus par la recherche. Typiquement, sur ce type d’applications, le gain va jusqu’à multiplier par 5 ces indicateurs. L’objectif de recette du projet était 80% de précision à 10 réponses sur un corpus de requêtes pré-établi (par rapport au contenu interne).
Le gain quantitatif s’évalue par la qualité des réponses et aussi par le fait que le système utilise une seule requête pour interroger des documents dans diverses langues. Une requête sur les « machines agricoles » trouvera des documents anglais parlant de « harvester ».
Une fonction de « dialogue » permet à l’utilisateur de voir comment sa requête a été enrichie et de raffiner les termes utilisés pour la recherche.
L’interrogation est appelée sous la forme d’un Web Service, qui renvoie les éléments nécessaires (identifiants de documents ou mots utilisés pour la recherche). L’intégration dans le site (développé en ASP) est donc particulièrement souple et aisée.
La synchronisation des données vers le système d’indexation se fait par ftp, chaque nuit.
- analyse syntaxico-sémantique de la requête,
- désambiguïsation sémantique,
- expansion via un dictionnaire multilingue,
- interrogation de la base documentaire avec la requête enrichie,
- utilisation de techniques de recherche linguistique dans des classifications pour identifier le secteur d’activité (dans la nomenclature du client) à partir de cette même requête.
Investissement : coût de la
licence du produit + intégration de la fonction de recherche dans le portail (simple).
L’administration est très simple (synchronisation des fonds) et n’a pas entraîné de surcoût.
Les gains s’expriment en qualité
de recherche.
Pour la société, le fait de
disposer d’une interrogation cross-language va lui permettre d’ouvrir des sites
présentant le même fonds documentaire dans d’autres pays.
Pas de retour direct de la part
de la société. De plus, le service s’est ouvert avec une nouvelle version du
portail qui comprenait d’autres améliorations sur le fond et le contenu.
Il est donc difficile de mesurer l’impact de la technologie TAL elle-même.
Toutefois, un bon indicateur est que le service est passé, après quelques mois d’activité, d’un mode « gratuit avec inscription » à un mode « payant », ce qui implique que le nombre de clients et la qualité du service étaient suffisants pour faire accepter de le faire payer.