EVENEMENTS

OCTOBRE

KnowTech 2008
8 et 9 Octobre 2008 à Francfort
www.knowtech.net

Les journées de l’innovation et de l’intelligence économique
Du 13 au 24 octobre 2008 à Paris

En savoir plus

Rencontres ICC
13 et 14 octobre à Paris
www.icc2008.info

Knowledge Management in Law Firms
Du 14 au 16 octobre à Londres

En savoir plus

Storage Expo 2008
15 et 16 octobre à Londres

www.storage-expo.com

 Web 2.0 EXPO
Du 21 au 23 oct. 2008 à Berlin
www.berlin.web2expo.com

 Fifth International Conference on Knowledge Management
23 et 24 octobre 2008 en Ohio
www.ickm2008.org

ACM 17th Conference on Information and Knowledge Management
Du 26 au 30 octobre en Californie
www.cikm2008.org

Colloque Document électronique
Du 28 au 31 octobre 2008 à Rouen

En savoir plus


NOVEMBRE

Forum IES2008 
Du 19 au 21 novembre à Lyon

En savoir plus

ICT 08
Du 25 au 27 novembre à Lyon
En savoir plus

Rencontre des responsables intranet
Les 19 et 20 novembre à Paris
www.rencontre-intranet.com


DECEMBRE

APQC's Current Event
Visit & Meet the German KM Champions
Du 1er au 5 décembre en Allemagne
En savoir plus

Online Information 2008
Du 2 au 4 décembre à Londres
www.online-information.co.uk

JIEE 08
11 décembre 2008 à Toulouse
En savoir plus

Collecte d'information : Crawlers ou Connecteurs ?

Gilles BALMISSE
Directeur Associé
KnowledgeConsult


IMPRIMER CET ARTICLE

La collecte d’information est une étape fondamentale dans le cycle de la veille. Pour assurer son automatisation, notamment pour exploiter les informations disponibles sur Internet, les logiciels de veille utilisent généralement deux types de technologie : les crawlers et les connecteurs.

Si ces deux technologies semblent proches, leur impact n’est pas le même sur la qualité des résultats de la collecte ainsi que sur les ressources nécessaires au paramétrage…

Qu’est ce qu’un crawler ?

Le terme « Crawler » est issu du monde Internet et du Web en particulier. Il est dérivé du terme « crawl » qui signifie en anglais « rampement » du nom du mouvement d’une araignée qui parcourt sa toile. Le crawl est donc le parcours de la toile du Web par les moteurs de recherche pour aspirer les pages des sites en vue de les indexer.

Dans le monde Internet, on parlera plus volontiers de « spider » ou de robot pour nommer l’automate qui parcourt le Web à la recherche de pages à indexer.

Sur le Web, pour indexer de nouvelles ressources, un robot procède en suivant récursivement les hyperliens trouvés à partir d'une page pivot.

Les crawlers fonctionnent sur un mode de programmation, c'est-à-dire qu’ils scrutent les différentes sources identifiées à des moments bien déterminés. De ce fait, ils ne permettent pas une indexation en temps réel de l’information. Par ailleurs, du fait de leur sollicitation parfois très importante de la bande passante, il est important de planifier leurs actions à des moments où le réseau de l’entreprise n’est pas trop sollicité par les collaborateurs ou les autres applications informatiques.

Qu’est ce qu’un connecteur ?

Un connecteur est un logiciel qui permet de faire le lien entre l’API[1] de la plateforme de recherche d’information et l’API d’une source d’information. Il s’agit d’un ensemble de méthodes d’accès optimisées de manière à pouvoir prendre en compte toutes les spécificités de la source d’information considérée : structure et format de l’information, paramètres de sécurité, etc.

Avec un tel dispositif, la plateforme et la source d’information peuvent communiquer directement et ce de manière riche. C'est-à-dire que la source peut communiquer à la plateforme des informations qui vont bien au-delà des contenus à indexer.

En effet, si la source d’information le permet, un connecteur permet d’indexer l’information en temps réel. Par ailleurs, comme l’ensemble des spécificités de la source d’information est pris en considération, l’indexation peut également s’effectuer sur la structure même de l’information.

Du point de vue de la conception des connecteurs, l’utilisation des API des différents systèmes pour entrer en communication et interagir avec eux n’est pas la seule approche. En effet, un certain nombre d’éditeurs proposent des connecteurs reposant sur l’utilisation de web services. Cependant, il est nécessaire que les différentes applications à intégrer supportent l’utilisation de web services pour être en mesure de faire appel aux fonctionnalités avancées des applications.

Connecteurs versus crawlers

Contrairement aux crawlers qui procèdent de la même manière d’une source à une autre, moyennant éventuellement des paramétrages différents, les connecteurs sont en mesure de prendre en compte les spécificités de chaque source d’information.

Ainsi par exemple dans le cadre d’une collecte d’information en interne, un connecteur Lotus Notes permet pour chaque document d'indexer le contenu de ses métadonnées comme par exemple l'auteur, la date de publication, sa classification particulière, etc. Autant d'informations supplémentaires non accessibles si la plateforme de veille utilisait un crawler paramétré pour Domino pour indexer la base Lotus, c'est-à-dire une indexation HTML.

Malheureusement l’inconvénient majeur de l’approche par connecteur repose sur le fait qu’il est nécessaire de changer de connecteur ou de le paramétrer à nouveau si des modifications interviennent sur la source d’information comme par exemple les montées de version.



[1] Application Programming Interface ou API. Il s’agit d’une Interface de programmation qui définit la manière dont un composant informatique peut communiquer avec un autre.