La
collecte d’information est
une étape fondamentale dans le cycle de la veille. Pour
assurer son
automatisation, notamment pour exploiter les informations disponibles
sur
Internet, les logiciels de veille utilisent
généralement deux types de technologie :
les crawlers et les connecteurs.
Si
ces deux technologies
semblent proches, leur impact n’est pas le même sur
la qualité des résultats de
la collecte ainsi que sur les ressources nécessaires au
paramétrage…
Qu’est
ce qu’un crawler ?
Le
terme « Crawler »
est issu du monde Internet et du Web en particulier. Il est
dérivé du terme
« crawl » qui signifie en anglais
« rampement » du nom du
mouvement d’une araignée qui parcourt sa toile. Le
crawl est donc le parcours
de la toile du Web par les moteurs de recherche pour aspirer les pages
des
sites en vue de les indexer.
Dans
le monde Internet, on
parlera plus volontiers de
« spider » ou de robot pour
nommer
l’automate qui parcourt le Web à la recherche de
pages à indexer.
Sur
le Web, pour indexer de
nouvelles ressources, un robot procède en suivant
récursivement les hyperliens
trouvés à partir d'une page pivot.
Les
crawlers fonctionnent sur
un mode de programmation, c'est-à-dire qu’ils
scrutent les différentes sources
identifiées à des moments bien
déterminés. De ce fait, ils ne permettent pas
une indexation en temps réel de l’information. Par
ailleurs, du fait de leur
sollicitation parfois très importante de la bande passante,
il est important de
planifier leurs actions à des moments où le
réseau de l’entreprise n’est pas
trop sollicité par les collaborateurs ou les autres
applications informatiques.
Qu’est
ce qu’un
connecteur ?
Un
connecteur est un logiciel
qui permet de faire le lien entre l’API[1]
de la plateforme de recherche d’information et
l’API d’une source
d’information. Il s’agit d’un ensemble de
méthodes d’accès optimisées
de
manière à pouvoir prendre en compte toutes les
spécificités de la source
d’information considérée :
structure et format de l’information,
paramètres de sécurité, etc.
Avec
un tel dispositif, la
plateforme et la source d’information peuvent communiquer
directement et ce de
manière riche. C'est-à-dire que la source peut
communiquer à la plateforme des
informations qui vont bien au-delà des contenus à
indexer.
En
effet, si la source
d’information le permet, un connecteur permet
d’indexer l’information en temps
réel. Par ailleurs, comme l’ensemble des
spécificités de la source
d’information est pris en considération,
l’indexation peut également
s’effectuer sur la structure même de
l’information.
Du
point de vue de la
conception des connecteurs, l’utilisation des API des
différents systèmes pour
entrer en communication et interagir avec eux n’est pas la
seule approche. En
effet, un certain nombre d’éditeurs proposent des
connecteurs reposant sur
l’utilisation de web services. Cependant, il est
nécessaire que les différentes
applications à intégrer supportent
l’utilisation de web services pour être en
mesure de faire appel aux fonctionnalités
avancées des applications.
Connecteurs
versus
crawlers
Contrairement
aux crawlers qui
procèdent de la même manière
d’une source à une autre, moyennant
éventuellement
des paramétrages différents, les connecteurs sont
en mesure de prendre en
compte les spécificités de chaque source
d’information.
Ainsi
par exemple dans le
cadre d’une collecte d’information en interne, un
connecteur Lotus Notes permet
pour chaque document d'indexer le contenu de ses
métadonnées comme par exemple
l'auteur, la date de publication, sa classification
particulière, etc. Autant
d'informations supplémentaires non accessibles si la
plateforme de veille
utilisait un crawler paramétré pour Domino pour
indexer la
base Lotus,
c'est-à-dire une indexation HTML.
Malheureusement
l’inconvénient
majeur de l’approche par connecteur repose sur le fait
qu’il est nécessaire de
changer de connecteur ou de le paramétrer à
nouveau si des modifications
interviennent sur la source d’information comme par exemple
les montées de
version.
|