INFORMATION
テクノロジ

Apache Lucene 6.5.0 が公開されました!

Apache Lucene 6.5.0 が 2017 年 3 月 27 日に公開されました。

Apache Lucene は完全に Java で書かれたハイパフォーマンスな全文検索エンジンです。今回行われた主なアップデート内容を以下に記します。

主なアップデート – バグ修正,最適化,機能強化

  • NRTサジェスタの重複排除を実現しました
  • SimpleQueryString がデフォルトであいまい検索に対応
  • IndexWriter の返すフィールド名一覧を可視化
  • DisjunctionScorer が、一致する子クローズの返却をサポート
  • インデクシング時に指定できるブースト値が Deprecatedになりました
  • Term Filter の API 群 ではキャッシュ廃止
  • 通常のクエリよりも複数フィルタ使用時のクエリのキャッシュタイミングを優先
  • BKDReader 使用時に grow メソッドを呼べるようになったことで大量件数ヒットに対応しました
  • PointValues#estimatePointCount が Relation.CELL_INSIDE_QUERY によって高速化しました
  • セグメントがフラッシュ時にソートされ、ソートなしマージが採用するものと同じバルクマージ最適化技術を一部使用することでソート済みインデックスでのマージが大幅に高速化
  • RangeFieldQuery が CROSSES リレーションをサポート
  • IndexOrDocValuesQuery がクエリ実行時に index もしくは docvalues のどちらか最適な方を自動で選択することにより高速化
  • LatLonPointInPolygonQuery が高速化
  • LatLonPointDistanceQuery が距離計算の省略頻度増やすことで高速化
  • ToParentBlockJoinQuery が two-phase iteration の実装で高速化
  • PointRangeQuery が高速化

主なアップデート – 追加された API

FunctionScoreQuery

文書単位の値を使って内部クエリのスコアを修正する FunctionQuery

FunctionMatchQuery

述部に一致する値を持ったすべてのドキュメントを返す FunctionQuery

WordDelimiterGraphFilter

WordDelimiterFilter の GraphFilter 対応版。WordDelimiterFilter は Deprecated

PatternTokenizer

Lucene の RegExp に対応した Tokenizer

リリースの詳細と Lucene ダウンロードについて

すべての新機能および変更点に関しては CHANGES.txt を参照してください。 https://lucene.apache.org/core/6_5_0/changes/Changes.html

現在の最新の Lucene ダウンロードについては下記 URL を参照して下さい。 http://lucene.apache.org/core/mirrors-core-latest-redir.html


KandaSearch

KandaSearch はクラウド型企業向け検索エンジンサービスです。
オープンAPIでカスタマイズが自由にできます。

  • セマンティックサーチ

    人間が理解するように検索エンジンがテキストや画像を理解して検索できます。

  • クローラー

    検索対象文書を収集するWebクローラーが使えます。

  • 簡単操作のUIと豊富なライブラリー

    検索や辞書UIに加え、定義済み専門用語辞書/類義語辞書やプラグインがあります。

  • ローコードで低コスト導入

    検索UIで使い勝手を調整した後、Webアプリケーションを自動生成できます。

セミナー

企業が検索エンジンを選定する際のポイントから、
実際の導入デモをお客様ご自身でご体験!