Le moteur de recherche interne est sans doute la fonctionnalité la plus couramment demandée dans un projet web. Et pour cause, tout le monde surfe en utilisant la recherche. Google, Amazon et Facebook en sont des révélateurs, leur réussite s’appuie sur l’efficacité de leur moteur. N’oubliez pas le vôtre.

« Et bien sûr, il faut un moteur de recherche ! ». Combien de briefs se terminent par cette phrase apparemment anodine et pourtant Ô combien lourde de sens.

Quel moteur de recherche interne pour son site web ?

Rechercher parmi les douze pages de votre site vitrine ou parmi les 10 000 documents de base de connaissance, ce n’est pas la même chose.

D'ailleurs, dire que tous les sites ont besoin d’un moteur de recherche est par trop exagéré, mais un très grand nombre tout de même.

Comme toujours lorsqu’il s’agit d’un choix technique, il dépend de la nature du projet et, dans ce cas précis, de ses dimensions qu’elles soient physiques ou fonctionnelles.

La première dimension est la quantité de contenus référencés. Pour quelques dizaines de contenus, l’intégration et l’organisation sur le site doivent suffire à les retrouver. Au-delà une solution de recherche s’impose.

N’intégrez pas un moteur de recherche sur un site de 30 pages… ce n’est pas raisonnable.

La seconde dimension se rapporte à l’homogénéité et la quantité des contenus. Si votre site présente quelques pages et un catalogue produits bien structuré et qualifié, alors un outil de recherche multicritère sera une bonne solution.

S’il s’agit d’un blog professionnel ou d’un wiki de taille raisonnable (quelques milliers de contenus maximum), la solution intégrée du logiciel (CMS le plus souvent) fera l’affaire.

moteur de recherche interne

Les ténors du marché, comme Drupal, Wordpress ou Joomla, proposent des outils basiques, que l’on peut améliorer par adjonction d’extensions. Leur limite est directement liée à la quantité de contenus indexés et le nombre d’utilisateurs. Prévoyez un cache logiciel, surtout si vous avez ajouté des extensions.

Le moteur intégré de votre solution technique (CMS) ou une fonctionnalité spécialisée peut être envisagée pour les sites de faibles dimensions.

Dans tous les autres cas, une solution logicielle spécialisée s’avère nécessaire. Vous devrez alors l’interfacer avec votre solution projet pour proposer une fonction de recherche efficace et pratique à vos utilisateurs, internes et externes.

Il y a trois écoles :

  • les solutions d’éditeurs comme Exalead ou Oracle Endeca
  • les solutions SaaS comme Algolia ou Amazon CloudSearch
  • et les solutions Open Source comme Elastic Search ou Solr.

Les solutions d'éditeurs

Les solutions d’éditeurs marquent le pas depuis quelques années. L’arrêt de Google Search Appliance en est un exemple. Néanmoins, ces solutions peuvent s’inscrire dans une stratégie plus large (ERP, BI, …) et ainsi se justifier en dépit de leur coût élevé.

migration

Les solutions SaaS

Les solutions SaaS sont intéressantes sur deux points. Elles sont relativement simples à intégrer et ajustables en fonction de vos besoins.

Le budget reste contenu allant de quelques dizaines à quelques milliers d’euros par mois en fonction des volumes. Algolia propose même une solution gratuite pour les petits projets plutôt non commerciaux.

algolia-logo-light

Le principal inconvénient se rapporte au modèle SaaS qui place la recherche dans un environnement différent du reste de la solution. Il est ainsi inadapté à un outil interne (non ouvert à l’extérieur).

Les solutions Open Source

Enfin, restent les solutions Open Source, marché détenu pour l’essentiel par Elastic Search et Solr.

Solr, la plus ancienne, a été créée par la fondation Apache – ce qui garantit sa pérennité. Elle s’appuie sur la bibliothèque d’indexation de contenus Lucene, également proposée par la fondation. La solution est pérennité, mais austère. On s’adresse à des spécialistes… uniquement des spécialistes.

N’opposez pas une solution SaaS à une solution Open Source, elles n’ont pas la même vocation.

Elastic Search connaît un succès mérité ces dernières années. Soyons honnêtes, la solution s’adresse aussi à des spécialistes, mais le marketing de distribution – bien maitrisé – permet de la présenter dans une forme compréhensible par un décideur.

L’indexation plein texte s’appuie elle aussi sur Lucene. Au crédit d’Elastic Search on trouve : un cache par segments qui lui confère de bonnes performances sur les données mobiles et une capacité au clustering (c'est-à-dire le partitionnement des données sur plusieurs volumes, voire sites) intégrée.

En pratique une solution Open Source convient bien pour une architecture concentrée sur une plateforme et pour des besoins particuliers nécessitant un investissement en paramétrage voire en développement.

Les fonctionnalités proposées par les différentes solutions n’ont été qu’effleurées jusque-là. Pourtant, l’expérience utilisateur est certes sensible aux performances (vitesse et pertinence) mais aussi à d’autres aspects comme le filtrage des résultats (facettes et assimilés), la mise en évidence des termes et autres données statistiques.

Le tronc commun entre les solutions évoluées, hors les solutions intégrées des CMS donc, est large. Néanmoins, en fonction de vos besoins précis, vous pouvez avoir à considérer une solution plutôt qu’une autre.

Recherche et big data

On a vu que le choix d’une technologie de recherche dépend pour beaucoup du volume et de l’hétérogénéité des données. Les extrêmes en la matière se retrouvent dans le big data.

Les solutions pour travailler dans ce domaine ne sont pas les mêmes essentiellement parce que les démarches et les besoins ne le sont pas non plus.

Dans un système local il s’agit d’identifier un certain nombre de documents qui répondent à des critères de sélection.

Vis-à-vis d’un système big data, il s’agit plutôt d’une démarche d’analyse, comme une recherche de tendance par exemple.

Big-data-3

En tête des solutions mises en œuvre, on trouve les logiciels d’analyse sémantique. Des solutions comme Proxem, Sinequa ou encore Luxid de Temis mis en œuvre pour le ConSoRe d’Unicancer. A l’image de Mondeca, ces sociétés éditent des briques logicielles et en intègrent d’autres afin de proposer des solutions évolutives et adaptées aux besoins de leurs clients.

Parmi les briques intégrées, les solutions d’indexation classiques comme Solr et Elastic Search sont souvent utilisées comme base de travail. Néanmoins, un travail de fond est en cours pour ces solutions dans des centres de recherche universitaire comme celui de Saclay, et des startups comme Q°emotion.

Publié par Adimeo
CEO Adimeo
Retrouvez moi sur :

Un conseil, un projet, un devis ?
Nous repondons a toutes vos questions !

N'hésitez pas à nous contacter pour plus d'informations

Nous contacter

Sur les mêmes sujets