<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=410661216031617&amp;ev=PageView&amp;noscript=1">

Savez-vous que le moteur de recherche interne est l'une des fonctionnalités les plus couramment demandées dans un projet web ? Et pour cause, tout le monde surfe en utilisant la recherche. Google, Amazon et Facebook en sont des révélateurs, leur réussite s’appuie sur l’efficacité de leur moteur. Où en est le vôtre ?

« Et bien sûr, il faut un moteur de recherche ! ». Combien de briefs se terminent par cette phrase apparemment anodine et pourtant Ô combien lourde de sens.

Quel moteur de recherche interne sur un site web ?

Rechercher parmi les douze pages de votre site vitrine ou parmi les 10 000 documents de base de connaissance, ce n’est pas la même chose.

D'ailleurs, dire que tous les sites ont besoin d’un moteur de recherche est par trop exagéré, mais un très grand nombre tout de même.

Comme toujours lorsqu’il s’agit d’un choix technique, il dépend de la nature du projet et, dans ce cas précis, de ses dimensions qu’elles soient physiques ou fonctionnelles.

La première dimension est la quantité de contenus référencés. Pour quelques dizaines de contenus, l’intégration et l’organisation sur le site doivent suffire à les retrouver. Au-delà une solution de recherche s’impose.

Webinar - Les enjeux du moteur de recherche de votre site Web

N’intégrez pas un moteur de recherche sur un site de 30 pages… ce n’est pas raisonnable.

La seconde dimension se rapporte à l’homogénéité et la quantité des contenus. Si votre site présente quelques pages et un catalogue produits bien structuré et qualifié, alors un outil de recherche multicritère sera une bonne solution.

S’il s’agit d’un blog professionnel ou d’un wiki de taille raisonnable (quelques milliers de contenus maximum), la solution intégrée du logiciel (CMS le plus souvent) fera l’affaire.

Un blog professionnel ou un wiki de taille raisonnable se verront attribuer un CMS avec sa solution intégrée.

Les ténors du marché, comme Drupal, Wordpress ou Joomla, proposent des outils basiques, que l’on peut améliorer par adjonction d’extensions. Leur limite est directement liée à la quantité de contenus indexés et le nombre d’utilisateurs. Prévoyez un cache logiciel, surtout si vous avez ajouté des extensions.

Le moteur de recherche intégré de votre solution technique (CMS) ou une fonctionnalité spécialisée peut être envisagée pour les sites de faibles dimensions.

Webinar - Comment choisir entre WordPress et Drupal ?

Dans tous les autres cas, une solution logicielle spécialisée s’avère nécessaire. Vous devrez alors l’interfacer avec votre solution projet pour proposer une fonction de recherche efficace et pratique à vos utilisateurs, internes et externes.

Il y a trois écoles :

Les solutions d'éditeurs

Les solutions d’éditeurs marquent le pas depuis quelques années. L’arrêt de Google Search Appliance en est un exemple. Néanmoins, ces solutions peuvent s’inscrire dans une stratégie plus large (ERP, BI, …) et ainsi se justifier en dépit de leur coût élevé.

ElasticSearch et Solr en tant que solutions

Les solutions SaaS

Les solutions SaaS sont intéressantes sur deux points. Elles sont relativement simples à intégrer et ajustables en fonction de vos besoins.

Le budget reste contenu allant de quelques dizaines à quelques milliers d’euros par mois en fonction des volumes. Algolia propose même une solution gratuite pour les petits projets plutôt non commerciaux.

Logo d'Algolia

Le principal inconvénient se rapporte au modèle SaaS qui place la recherche dans un environnement différent du reste de la solution. Il est ainsi inadapté à un outil interne (non ouvert à l’extérieur).

Les solutions Open Source en tant que moteurs de recherche de site

Enfin, restent les solutions Open Source, marché détenu pour l’essentiel par ElasticSearch et Solr. Par ailleurs, on a rédigé un article plus détaillé sur ces deux solutions.

Solr, la plus ancienne, a été créée par la fondation Apache – ce qui garantit sa pérennité. Elle s’appuie sur la bibliothèque d’indexation de contenus Lucene, également proposée par la fondation. La solution est pérennité, mais austère. On s’adresse à des spécialistes… uniquement des spécialistes.

N’opposez pas une solution SaaS à une solution Open Source, elles n’ont pas la même vocation.

ElasticSearch connaît un succès mérité ces dernières années. Soyons honnêtes, la solution s’adresse aussi à des spécialistes, mais le marketing de distribution – bien maîtrisé – permet de la présenter dans une forme compréhensible par un décideur.

L’indexation plein texte s’appuie elle aussi sur Lucene. Au crédit d’ElasticSearch on trouve : un cache par segments qui lui confère de bonnes performances sur les données mobiles et une capacité au clustering (c'est-à-dire le partitionnement des données sur plusieurs volumes, voire sites) intégrée.

En pratique une solution Open Source convient bien pour une architecture concentrée sur une plateforme et pour des besoins particuliers nécessitant un investissement en paramétrage voire en développement.

Les fonctionnalités proposées par les différentes solutions n’ont été qu’effleurées jusque-là. Pourtant, l’expérience utilisateur est certes sensible aux performances (vitesse et pertinence) mais aussi à d’autres aspects comme le filtrage des résultats (facettes et assimilés), la mise en évidence des termes et autres données statistiques.

Le tronc commun entre les solutions évoluées, hors les solutions intégrées des CMS donc, est large. Néanmoins, en fonction de vos besoins précis, vous pouvez avoir à considérer une solution plutôt qu’une autre.

Recherche et big data

On a vu que le choix d’une technologie de recherche dépend pour beaucoup du volume et de l’hétérogénéité des données. Les extrêmes en la matière se retrouvent dans le big data.

Les solutions pour travailler dans ce domaine ne sont pas les mêmes essentiellement parce que les démarches et les besoins ne le sont pas non plus.

Dans un système local il s’agit d’identifier un certain nombre de documents qui répondent à des critères de sélection.

Vis-à-vis d’un système big data, il s’agit plutôt d’une démarche d’analyse, comme une recherche de tendance par exemple.

Les big data

 

En tête des solutions mises en œuvre, on trouve les logiciels d’analyse sémantique. Des solutions comme Proxem, Sinequa ou encore Luxid de Temis mis en œuvre pour le ConSoRe d’Unicancer. A l’image de Mondeca, ces sociétés éditent des briques logicielles et en intègrent d’autres afin de proposer des solutions évolutives et adaptées aux besoins de leurs clients.

Parmi les briques intégrées, les solutions d’indexation classiques comme Solr et ElasticSearch sont souvent utilisées comme base de travail. Néanmoins, un travail de fond est en cours pour ces solutions dans des centres de recherche universitaire comme celui de Saclay, et des start-ups comme Q°emotion.

Publié par Adimeo

Un conseil, un projet, un devis ?
Nous repondons a toutes vos questions !

N'hésitez pas à nous contacter pour plus d'informations

Nous contacter

Sur les mêmes sujets