TOOLinux

Le journal du Libre

Focus sur la suite Lucene

jeudi 19 mars 2009

Lucene se base sur du texte pour effectuer ses recherches. Tant qu’il est possible d’extraire des données textuelles d’un format XML, OpenDocument, HTML, Word, etc., le document associé peut être indéxé.

Lucene repose sur deux principes majeurs :

  • l’indexation
  • la recherche

L’indexation est le principe de traiter une fois des données en leur donnant de multiple liens, ce qui permet d’accélérer l’opération de recherche. Le concept est assez analogue à l’index terminologique que l’on trouve généralement à la fin d’un livre, qui permet de trouver rapidement les pages qui traitent d’un sujet donné.

La recherche est l’action de regarder des mots dans un index pour trouver des références à des documents lorsqu’ils apparaissent. La qualité d’une recherche est évaluée par le positionnement et la pertinence des résultats. Cependant, d’autres facteurs entrent en compte dans une recherche. La rapidité est un facteur déterminant pour traiter une vaste quantité d’informations. De même, pouvoir supporter des requêtes simples ou complexes, des interrogations de phrases, des caractères, les résultats de positionnement et de tri sont aussi importants qu’une syntaxe facile à prendre en main pour entrer ces requêtes.

De nombreux projets utilisent Lucene comme moteur de recherche, Wikipedia et Open Solaris par exemple.

Liens/Références :

Rémy-Christophe Schermesser