INFORMATION
テクノロジ

Apache Lucene 7.4.0 が公開されました!

Apache Lucene 7.4.0 が 2018 年 6 月 27 日に公開されました。

Apache Lucene は完全に Java で書かれたハイパフォーマンスな全文検索エンジンです。今回行われた主なアップデート内容を以下に記します。

主なアップデート – バグ修正,最適化,機能強化

  • mecab-ko-dic(IPADic ベース)をベースとした韓国語の形態素解析器が使用可能になりました
  • uax29 にて定められている「絵文字」を ICUTokenizer にて1トークンとして扱うことができるようになりました
  • minimum-interval semantics と呼ばれるアルゴリズムを使い,クエリ文字列とそれを満たすドキュメント内文字列の位置関係を考慮して検索できる IntervalQuery が使用になりました
  • Weight.matches が実装されたことにより,全クエリにおいて,クエリにマッチしたポジションを返すパフォーマンスが向上しました。またこれによってハイライターの実装が容易になり,より正しくハイライトできるようになりました
  • 削除されたドキュメント(削除フラグが立ったドキュメント)がマージセグメントの際にどの程度削除されるのかカスタムできるようになりました
  • DocValues に格納されている値を再セットできるようになりました
  • 登録ドキュメントの更新から DocValues への値格納までがアトミックな操作となりました

リリースの詳細と Lucene ダウンロードについて

すべての新機能および変更点に関しては CHANGES.txt を参照してください。 https://lucene.apache.org/core/7_4_0/changes/Changes.html

現在の最新の Lucene ダウンロードについては下記 URL を参照して下さい。 http://lucene.apache.org/core/mirrors-core-latest-redir.html


KandaSearch

KandaSearch はクラウド型企業向け検索エンジンサービスです。
オープンAPIでカスタマイズが自由にできます。

  • セマンティックサーチ

    人間が理解するように検索エンジンがテキストや画像を理解して検索できます。

  • クローラー

    検索対象文書を収集するWebクローラーが使えます。

  • 簡単操作のUIと豊富なライブラリー

    検索や辞書UIに加え、定義済み専門用語辞書/類義語辞書やプラグインがあります。

  • ローコードで低コスト導入

    検索UIで使い勝手を調整した後、Webアプリケーションを自動生成できます。

セミナー

企業が検索エンジンを選定する際のポイントから、
実際の導入デモをお客様ご自身でご体験!