L’accès efficace aux contenus et connaissances des entreprises est un enjeu de tous les jours. Les investissements pour répondre à ces enjeux sont nombreux et souvent dispersés : moteurs de recherche, portails, intranets, systèmes de gestion documentaire, outils de text-mining, outils d’aide à la traduction, bases de connaissances, etc.
L’efficacité de ces solutions repose en grande partie sur l’utilisation de terminologies métier propre à l’entreprise permettant de définir, classer, filtrer et naviguer dans les contenus et les connaissances de l’entreprise.
1. Qu’est ce qu’une terminologie métier ?
Une terminologie métier est l’ensemble des mots ou expressions métiers désignant les différents concepts gérés dans une entreprise ou une organisation.
De manière plus précise, les mots ou expressions choisis pour désigner chaque concept dans une langue sont déclinés dans les différentes langues utilisées par l’entreprise ou l’organisation. Chaque terme peut faire l’objet d’une description plus ou moins complète comprenant le genre du mot, une définition, une image descriptive, un acronyme, des synonymes, des exemples d’utilisation dans différents textes.
Une terminologie métier constitue le socle pour toutes les organisations ultérieures de la terminologie de l’entreprise en fonction d’objectifs spécifiques comme l’assistance à la recherche, à la classification ou au filtrage des contenus dans les portails.
D’un point de vue opérationnel, une terminologie peut être organisée de différentes manières et prendre différentes formes comme nous allons le voir dans les paragraphes suivants.
2. Les différentes formes de terminologies
Il existe 4 grandes formes de terminologie : les listes contrôlées, les thésaurus, les taxonomies et les ontologies.
2.1 Listes contrôlées
Listes contrôlées, listes d’autorité, notices d’autorités, ou bien encore référentiels, tous ces termes font référence à la même notion, c'est-à-dire à des listes de mots ou expressions désignant des entités nommées : noms d’entreprises, de personnes, de produits, de lieux géographiques, de périodes historiques, de médicaments, de molécules…
Chaque liste comprend des objets de même nature avec pour chaque objet un niveau de détail pouvant aller du terme à utiliser pour désigner l’objet (”BNP Paribas” et non “Banque Nationale de Paris”), à une description détaillée de l’objet comprenant ses acronymes, synonymes, traductions, définition, autres type d’identification (N° insee, EAN, ISBN…).
Les listes contrôlées rendent différents types de service et sont plus particulièrement utiles :
- aux solutions de text mining pour identifier les entités nommées trouvées dans les textes et connaitre leur nature ;
- aux moteurs de recherche pour l’indexation des contenus et l’extension des recherches en fournissant un dictionnaire de métadonnées ainsi que les différentes désignations possibles de l’objet dans les documents ;
- aux outils de traduction qui éviteront ainsi de proposer une traduction à des noms propres.
2.2 Thésaurus
Les thésaurus sont une organisation hiérarchique de termes généralement nommés descripteurs. Une organisation hiérarchique des termes permet de passer du général au particulier (activité nautique > kayak, canoë, aviron) ou de relier des termes connexes (association du terme « alcool » au terme « alcoolisme »).
L’organisation des concepts dans un thésaurus est toujours spécifique à un métier ou un type d’utilisation. Dans des domaines complexes tels que la médecine de très nombreux thésaurus sont utilisés en fonction des différents contextes d’utilisation ou des différentes spécialisations de la médecine.
Les thésaurus existants ont généralement été conçus pour la l’indexation des contenus dans un environnement de gestion documentaire. Aussi, leur organisation ne permet pas toujours de les utiliser tel quel pour l’extension des recherches.
2.3 Taxonomies
Dans le domaine de la gestion du contenu, le mot de taxonomie est utilisé pour désigner un plan de classement ad hoc comme l’illustre le schéma suivant.

Ce type de taxonomie ou plan de classement composé d’une seule hiérarchie repose sur un modèle de plan de classement indiquant le contenu des différentes branches et les référentiels utilisés pour chaque niveau (thématique, lieux, liste client, liste projet, typologie des documents…).
Le terme de taxonomies peut également désigner un ou plusieurs listes hiérarchiques de sujets permettant de filtrer le contenu dans un site web ou un intranet. On parlera alors de taxonomies de navigation.
Le schéma suivant présente l’exemple de taxonomies de navigation dans un site e-commerce :
Types de produits
- Electroménager
- Hi-fi
- Ordinateur
- …
Marques
Utilisations
- Entreprise
- Profession libérale
- Familiale
Les taxonomies de navigation sont généralement créées à partir de la terminologie métier de l’entreprise, parfois adaptée à la cible clientèle, et de listes de référence (noms de marques, noms de produits). Les taxonomies de navigation ont comme objectifs d’offrir un système simple et clair de filtrage des contenus en utilisant plusieurs axes.
2.4 Ontologies
La notion d’ontologie recouvre la plupart des notions décrites ci-dessus. L’ontologie a pour objectif dans un domaine métier donné, de disposer d’un ensemble de concepts métiers non ambigus et de leur organisation par des relations hiérarchiques ou des relations sémantiques. Une ontologie métier s’inscrit dans une modélisation qui permet de définir les classes de concepts (termes, personnes, projets, molécules, hébergements…), leurs attributs descriptifs (nom, acronyme, définition, taille, âge, date de début, localisation…) ainsi que les types de relations sémantiques pouvant les relier (est un sous concept de, travaille avec, est une filiale de, a une interaction médicamenteuse avec…). Une ontologie bien réalisée permet d’effectuer des inférences, par exemple « trouver les sociétés produisant des molécules ayant une interaction médicamenteuse avec un des produits de la société X ».
En raison de ses capacités de modélisation de différentes organisations de termes, les ontologies offrent une grande souplesse pour gérer :
- des ressources terminologiques organisées sous forme de listes de référence, de thésaurus… ;
- des taxonomies de classification ou de navigation ;
- des représentations des connaissances en reliant les concepts métiers par des relations sémantiques ;
- des relations d’équivalence ou de correspondance entre des référentiels devant être alignés pour des besoins d’interopérabilité.
3. Utilisation des terminologies
La gestion et l’utilisation d’une terminologie métier permet de rendre de nombreux services :
- assistance à la rédaction de documents ;
- aide à la recherche et à l’accès à l’information ;
- aide à la compréhension de l’information ;
- organisation de l’information ;
- extraction de connaissances et classification des contenus.
L’ensemble de ces points vont être détaillés.
3.1 Assistance à la rédaction de documents
La rédaction de documents techniques, contractuelles, marketing nécessite l’utilisation d’un vocabulaire d’entreprise cohérent, stable et multilingue.
La gestion d’une terminologie d’entreprise permet de mettre à disposition des auteurs la liste des termes préférentiels, avec leur définition, leurs traductions, leurs synonymes ainsi que des références d’utilisation.
La terminologie peut également être utilisée pour alimenter des logiciels de correction orthographique et des outils de text mining capable d’assister directement l’auteur lors de la rédaction de son texte, en proposant les termes préférentiels au lieu du synonyme utilisé et en vérifiant l’orthographe du terme utilisé. Dans le cadre des travaux de traduction, le référentiel de terminologie multilingue assiste directement les traducteurs ou alimente les logiciels d’assistance à la traduction.
3.2 Aide à la recherche et à l’accès à l’information
Le référentiel terminologique de l’entreprise intervient de plusieurs manières pour assister les utilisateurs dans la recherche et l’accès à l’information en :
- étendant automatiquement leurs recherches à des termes équivalents, il s’agit de l’extension de requête ;
- proposant des axes de filtrage des informations, il s’agit de la recherche à facettes et des taxonomies de navigation ;
- proposant des liens sur des sujets complémentaires ou reliés, il s’agit de l’identification de liens.
3.2.1 Extension de requêtes
Dans le cadre des recherches plein texte les utilisateurs utilisent leur propre vocabulaire sans connaître les termes réellement utilisés dans les documents. Une extension automatique des recherches sur les termes équivalents, les synonymes, les acronymes, les références, les codes ou bien les traductions de l’expression choisie par l’utilisateur permet au moteur de recherche de rendre un résultat complet. L’utilisateur n’a plus à tâtonner pour rechercher désespérément les termes qui ont pu être utilisés pour décrire son sujet de recherche.
Les fonctions d’extension des recherches que l’on trouve dans la majorité des moteurs de recherche repose sur la fourniture régulière au moteur d’une terminologie métier à jour. Les terminologies à fournir au moteur peuvent être des listes de termes comprenant leurs synonymes, acronymes, codification mais aussi leurs traductions. Il est également possible en fournissant une organisation hiérarchique des termes de disposer d’une extension des recherches portant sur des sujets plus précis. Par exemple une recherche sur « activités nautiques » ou « sports nautiques » donnera comme résultat tous les documents parlant de “canoë”, “kayak”, “aviron”.
3.2.2 Recherche à facettes et taxonomies de navigation
L’accès à de grandes quantités de contenus ou produits dans un portail repose souvent sur une mise en place de taxonomies de navigation permettant de filtrer le contenus selon plusieurs axes : axe thématique, axe géographique, type d’utilisation… En s’appuyant sur un référentiel terminologique d’entreprise pour construire ces taxonomies de navigation, l’entreprise s’assure d’une homogénéité des termes utilisés et de leur organisation dans les différentes applications.
Les logiciels de gestion de terminologie d’entreprise permettent une gestion spécifique de ces taxonomies de navigation ainsi que leur publication vers les sites web et portails.
3.2.3 Indentification de liens
Les sujets de recherche des utilisateurs sont souvent connectés à d’autres sujets ou d’autres thématiques de l’entreprise. Une gestion des liens entre les termes et sujets de l’entreprise permet d’offrir des services à valeur ajoutée aux utilisateurs : aide à la recherche, valorisation de produits ou offres connexes, enrichissement automatique de la liste des résultats.
Les logiciels de gestion de terminologies permettent une gestion complète des relations entre les termes et sujet métier au sein d’une base de liens qui alimentera les moteurs de recherche et portail web à partir d’un référentiel unique.
Les solutions de gestion de terminologies basées sur des ontologies permettront de plus d’inférer de nouveaux liens en fonction des demandes des utilisateurs. Elles pourront par exemple trouver les liens entre le navire marchand décrit par l’utilisateur et les réglementations s’appliquant à ce navire précis.
3.3 Support à la compréhension de l’information
Les termes techniques, les acronymes, les codifications utilisées dans les contenus publiés dans les intranets et sites web ne sont pas toujours simples à comprendre pour les employés, clients et partenaires. Pouvoir d’un simple clic de souris disposer d’une explication du terme ou de l’expression utilisé est un service à forte valeur ajoutée. L’utilisation d’un référentiel unique de terminologie contenant toutes les informations explicatives sur les termes, y compris une photo ou un schéma descriptif, permet de mettre ce service à disposition de toutes les applications d’accès aux contenus avec la garantie d’offrir une aide homogène et à jour.
Des outils spécifiques de text mining sont capables à la volée de reconnaître un terme ou une expression dans un texte et d’interroger le référentiel terminologique pour faire apparaître à l’écran une définition complète. Ces outils peuvent être alimentés automatiquement par le gestionnaire de terminologie de l’entreprise.
3.4 Organisation de l’information
Les contenus créés au sein de l’entreprise, les contenus gérés dans les bases de données ou acquis de sources extérieures sont qualifiées et classés par différents attributs ou métadonnées : sujet, projet, produit, client, fournisseur, type de contrat, lieu, auteur, type, droits d’accès, droits de propriété…
Une gestion homogène des contenus et informations nécessite l’utilisation de référentiels communs dans l’entreprise.
Le gestionnaire de terminologie a ici la fonction de dictionnaire de métadonnées, capable de fournir aux différentes applications de gestion des référentiels complets et à jour pour la qualification des informations, ou de fournir aux utilisateurs des services d’aide à l’indexation des contenus.
Les services d’assistance à l’indexation peuvent, entre autres, faire une première analyse automatique du document et proposer à l’utilisateur une liste réduite de termes pour l’indexation de son document en fonction de sa thématique.
3.5 Extraction de connaissances et classification automatique des contenus
Les entreprises utilisent les outils de text mining et de classification automatique pour extraire de l’information de documents non structurés et pour automatiser leur classification. Ces outils linguistiques dépendent étroitement des vocabulaires métiers dont ils disposent pour repérer les informations pertinentes dans les documents. Leur mise à jour régulière avec les terminologies métier de l’entreprise leur permettent de rester pertinents pour identifier des noms de produits, technologies, molécules, concurrents, clients… dans les textes qui leur sont soumis.
3.6 Interopérabilité
L’interopérabilité des systèmes est une problématique essentielle au sein d’une entreprise mais aussi dans ses échanges avec ses partenaires, clients... L’interopérabilité repose à la fois sur mise en forme des informations échangées mais aussi sur l’alignement des référentiels utilisées.
Les logiciels de terminologies permettent en décrivant des référentiels hétérogènes et leurs correspondances, de transcoder automatiquement les contenus entrant et sortant facilitant ainsi l’automatisation des échanges.
4. Conclusion
La création de processus et workflows transversaux faisant appel à de nombreux systèmes d’information, la multiplication des systèmes ouverts et composites basés sur les web services, les besoins d’agrégations de données, le traitement d’informations provenant de sources multiples nécessitent une capacité de représenter les différents référentiels de métadonnées et terminologies de l’entreprise ainsi que leurs équivalences dans les différents systèmes d’information. Les outils de gestion des terminologies et référentiels de métadonnées basés sur les ontologies offrent une souplesse et une richesse suffisante pour gérer cette multiplicité d’information, mais aussi un formalisme rigoureux permettant de disposer d’outils de raisonnement en inférence pour automatiser des processus d’assistance à la recherche et au classement des informations.