Portail 

Hugues de Mazancourt

 

Mots clefs

Fourniture de contenu en ligne

Fournisseur de la solution

Lingway

Client

Interex (www.interex.fr)

 

Contexte, Cas Entreprise

 

Société de services d’aide à l’exportation française (plus de 5 000 entreprises clientes). La société gère un site Web portail présentant un contenu « interne » structuré comme suit :

1.      des fiches « pays » décrivant l’activité économique, les principales formalités, les écueils à l’exportation pour la quasi totalité des pays du monde,

2.      des fiches décrivant les foires et salons, ainsi que les organisations professionnelles dans le monde,

3.      des fiches « opportunités et tendances », rédigées par les analystes en interne, qui décrivent les tendances économiques pour un produit ou secteur d’activité dans un pays (ou groupe de pays),

4.      des fiches « études de marché », qui sont collectées par les analystes depuis des sites publics (gouvernementaux ou autres).

 

De plus, le portail présente un contenu « externe » qui est le résultat d’une surveillance de 2 000 sites ciblés par la société et utiles dans le contexte d’une étude sur l’export (sites de douanes, de marketing, d’économie en général pour un pays ou un secteur donné).

 

Le renouvellement du contenu interne est d’environ 50 fiches « opportunités et tendances » et 50 études de marché par semaine. Le contenu externe évolue au rythme de ses éditeurs et recense environ 600 000 pages.

Le site portail compte environ 25 000 visiteurs par mois. Il diffuse des alertes à ses abonnés (service payant), avec le même type de recherche que pour la consultation du site.

 

Description du besoin métier

 

Le besoin est de fournir un portail simple d’accès aux divers contenus. Si un certain nombre d’éléments (fiches pays, par exemple), peuvent être présentés avec des techniques standard de portail, une fonction de recherche intelligente est nécessaire pour les autres (cf. ci-dessous). Le site est à la fois fournisseur de revenus en tant que tel (certains contenus sont payants) et un point d’entrée vers des services spécialisés proposés par la société.

 

Description du processus actuel / chaîne de traitement

 

Le contenu interne est remis à jour une fois par semaine par les analystes de la société. Le contenu externe est mis à jour par un « crawling » régulier des 2 000 sites. L’ensemble des données est stocké dans une base relationnelle. Une interface simple permet d’entrer ces données. Elles sont périodiquement transférées sur le serveur, dans une base de données.

 

Description des problèmes actuels

 

Une fonction de recherche avancée est nécessaire pour mettre en valeur les contenus à la fois externe et interne. En effet, le contenu, même riche, est d’un volume relativement « petit » comparé aux grandes bases de données commerciales ou au Web. On se heurte donc aux problèmes classiques de bruit et (surtout) de silence lors d’une interrogation par mots-clés.

De plus, comme le contenu est bilingue (français et anglais, mais anglais à 80%), l’utilisateur doit faire plusieurs requêtes en fonction des documents interrogés, éventuellement toutes dans des langues différentes de la sienne, dans la mesure où le site existe en version francophone, néerlandophone ou anglophone.

 

Analyse

 

On va donc opter pour un système qui enrichisse les requêtes de synonymes et mots proches à partir d’un dictionnaire général avec une orientation « business » et éventuellement augmenté de terminologie spécifique, doté de capacités multilingues (« cross-language »).

 

Identification du point d'intervention TAL

 

La solution TAL, du point de vue de l’utilisateur, n’intervient qu’au travers de la fonction « rechercher » du portail. Elle est la plus transparente possible.

Dans les faits, les contenus textuels sont indexés via le système TAL qui fournit également la solution de recherche dans ces contenus.

La fonction d’alerte utilisera la même recherche (avec un filtre sur la date des documents).

 

Description de la technologie TAL applicable

 

-          enrichissement de requête

-          expansion à d’autres langues,

-          détection de la langue des documents (au moment de l’indexation),

-          « crawling » et conversion de formats (technologies sans lesquelles les solutions TAL ne peuvent être mises en place).

 

Description du gain qualitatif / quantitatif attendu

 

Le gain qualitatif s’exprime en précision ou rappel sur les documents obtenus par la recherche. Typiquement, sur ce type d’applications, le gain va jusqu’à multiplier par 5 ces indicateurs. L’objectif de recette du projet était 80% de précision à 10 réponses sur un corpus de requêtes pré-établi (par rapport au contenu interne).

Le gain quantitatif s’évalue par la qualité des réponses et aussi par le fait que le système utilise une seule requête pour interroger des documents dans diverses langues. Une requête sur les « machines agricoles » trouvera des documents anglais parlant de    « harvester ».

Une fonction de « dialogue » permet à l’utilisateur de voir comment sa requête a été enrichie et de raffiner les termes utilisés pour la recherche.

 

 

Déploiement et mise en œuvre

 

Évolution de la chaîne de traitement

 

L’interrogation est appelée sous la forme d’un Web Service, qui renvoie les éléments nécessaires (identifiants de documents ou mots utilisés pour la recherche). L’intégration dans le site (développé en ASP) est donc particulièrement souple et aisée.

La synchronisation des données vers le système d’indexation se fait par ftp, chaque nuit.

 

Description du traitement TAL appliqué

 

-          analyse syntaxico-sémantique de la requête,

-          désambiguïsation sémantique,

-          expansion via un dictionnaire multilingue,

-          interrogation de la base documentaire avec la requête enrichie,

-          utilisation de techniques de recherche linguistique dans des classifications pour identifier le secteur d’activité (dans la nomenclature du client) à partir de cette même requête.

 

Évaluation ROI

 

Coûts et délais de mise en œuvre

 

Investissement : coût de la licence du produit + intégration de la fonction de recherche dans le portail (simple).

L’administration est très simple (synchronisation des fonds) et n’a pas entraîné de surcoût.

 

Gains fonctionnels / opérationnels

 

Les gains s’expriment en qualité de recherche.

Pour la société, le fait de disposer d’une interrogation cross-language va lui permettre d’ouvrir des sites présentant le même fonds documentaire dans d’autres pays.

 

Retours Utilisateurs

 

Pas de retour direct de la part de la société. De plus, le service s’est ouvert avec une nouvelle version du portail qui comprenait d’autres améliorations sur le fond et le contenu. Il est donc difficile de mesurer l’impact de la technologie TAL elle-même.

Toutefois, un bon indicateur est que le service est passé, après quelques mois d’activité, d’un mode « gratuit avec inscription » à un mode « payant », ce qui implique que le nombre de clients et la qualité du service étaient suffisants pour faire accepter de le faire payer.