INFORMATION
テクノロジ

Lucene/Solr Revolution 2015 に参加しました

著者:打田智子

10/15 – 16 (トレーニングを含めると 10/13 – 16) に Austin, Texas で開催された Lucene/Solr Revolution に参加しました。カンファレンス参加レポートを記載します。

DSC_0156

カンファレンス会場の Hilton Austin. 26ヶ国から600人の参加者とのこと。

 
DSC_0151

セッション会場入口

 

セッションレポート

聴講したセッションの中から、いくつかピックアップして簡単にレポートしたいと思います。
なお、発表スライドのうち、すでに公開されているものはこちらから見ることができます。また、全セッションのビデオは追って公開される予定です。

(Day 1) Leveraging Lucene/Solr as a Knowledge Graph and Intent Engine (by Trey Grainger, CareerBuilder.com)

発表者は “Solr in Action“ の共著者の一人で、一昨年、昨年に引き続き発表されている方です。
スライド:http://www.slideshare.net/lucidworks/leveraging-lucenesolr-as-a-knowledge-graph-and-intent-engine-presented-by-trey-grainger-careerbuilder

内容は「ユーザーの意図を汲んだ検索」を行うために実施している施策の解説が中心でした。ユーザーは、文字列ではなくエンティティ(ここでは求人検索サイトが対象のため、「仕事」「職種」「業界専門用語」など)を検索したいのである、という前提から入り、あらかじめ様々なソースからドメインに関する知識を抽出してナレッジグラフを構築しておき、検索実行時にその知識を使うことで、検索性能の向上に役立てているそうです。
ナレッジグラフは、具体的には検索クエリ補完(auto complete)、クエリのパース(query parsing)、クエリ拡張(query augmentation)、ドキュメント拡張(document enrichment)といった様々なところで使われているとのことでした。

かなり手間をかけて作られているシステムのようで、興味深いセッションだったので、ドメイン知識の抽出・整備や検索への応用に興味がある方はスライドや後日公開されるビデオを参照していただければと思います。

(Day 1) Learning to Rank to Solr (by Michael Nilsson & Diego Ceccarelli, Bloomberg LP)

Solrプロジェクトへの貢献も多く、何人かコミッタも輩出している Bloomberg の検索チームからの発表です。
スライド:http://www.slideshare.net/lucidworks/learning-to-rank-in-solr-presented-by-michael-nilsson-diego-ceccarelli-bloomberg-lp

検索結果のランキング調整(スコア計算)の基本から、機械学習を用いて自動でランキングを改善していくための “Learning to Rank” の手法について、わかりやすく解説されていました。また実装面では、特徴量抽出や、ランキングモデルの適用を Solr のカスタムコンポーネントとして実現することで、高速な応答性能を実現しているとのことです。(詳しくはスライドをご参照ください。)なおソースコードはOSSとして公開する準備中、、、とのことで、公開を待って試してみたいと思っています。

(Day 2) Rackspace: Email’s Solution for Indexing 50K Documents per Second (by George Bailey & Cameron Baker, Rackspace)

Flume Morphline + SolrCloud で、秒間5万件の Near Realtime indexing を実現しているという発表でした。
スライド:http://www.slideshare.net/lucidworks/rackspace-emails-solution-for-indexing-50k-documents-per-second-presented-by-george-bailey-cameron-baker-rackspace

検索負荷はそれほどでもなく、インデクシング負荷が非常に高い、という若干特殊な(?)ユースケースですが、目標数値やサーバ構成、インデクシングのフロー制御、GCチューニングについて実際の数値をもとに説明されているため、SolrCloudを検討中の方には、構成の参考になるかもしれません。

(Day 2) Faceting Optimizations for Solr (by Toke Eskildsen, State & University Library)

Solr のファセットは、ドキュメント数が大規模になり、かつカーディナリティ(値の異なり数)が大きくなるとレスポンス性能が悪化し、大量にメモリを消費するという性質があります。そういった状況でも、メモリ消費を抑えながら高速なレスポンスを保つためのカスタマイズを行い、性能検証を実施したという報告でした。
スライド:http://www.slideshare.net/lucidworks/faceting-optimizations-for-solr-presented-by-toke-eskildsen

内容はかなり深い実装まで踏み込んでいて、私は後半から追いつけなくなった、、、のですが、検証結果を見るとかなり性能向上している様子。

カスタマイズされたSolrはこちらで公開されているようです: https://github.com/tokee/lucene-solr

ーーーー
なお、今回は私も発表させていただきましたためスライドへのリンクを掲載します。

An Introduction to NLP4L: Natural Language Processing Tool for Apache Lucene

http://www.slideshare.net/tomokouchida505/an-introduction-to-nlp4l-54250815

内容は、8月に弊社代表の関口が Scala the Bay で発表したものをベースに、マイナーアップデートを加えたものになっています。

全体を通して

発表テーマは多様で、傾向というには難しいのですが、

  • SolrCloudの大規模運用
  • 言語処理、知識抽出、機械学習を活用した検索性能改善(とくに、ランキング学習は注目されている様子)
  • Solrを活用したデータ分析基盤
に関するテーマが多く見られたように思います。

また、カンファレンスの最後にはLucene/Solrのコミッタ陣による、最近の機能追加や現在進行中の開発についてパネルディスカッションが行われました。

DSC_0165

Lucene/Solr コミッタ勢揃い

なお、今週水曜 10/28 に開催されるSolr勉強会で、ヤフー株式会社の宋様によるカンファレンス参加報告があります。

第17回Lucene/Solr勉強会 #SolrJP

勉強会と懇親会でより詳しい内容について聞けると思うので、こちらもぜひご参加ください。


KandaSearch

KandaSearch はクラウド型企業向け検索エンジンサービスです。
オープンAPIでカスタマイズが自由にできます。

  • セマンティックサーチ

    人間が理解するように検索エンジンがテキストや画像を理解して検索できます。

  • クローラー

    検索対象文書を収集するWebクローラーが使えます。

  • 簡単操作のUIと豊富なライブラリー

    検索や辞書UIに加え、定義済み専門用語辞書/類義語辞書やプラグインがあります。

  • ローコードで低コスト導入

    検索UIで使い勝手を調整した後、Webアプリケーションを自動生成できます。

セミナー

企業が検索エンジンを選定する際のポイントから、
実際の導入デモをお客様ご自身でご体験!