INFORMATION
テクノロジ

Lucene/Solr Revolution 2016 その１

１０月１３日、１４日の日程でUSマサチューセッツ州ボストンで開催中のLucene/Solr Revolution2016に参加していますので、初日に参加したセッションの内容を現地よりレポート致します。（記事：中山久司）

セッションレポート

聴講したセッションの中をいくつか簡単にレポートしたいと思います。発表スライドやビデオは追って公開される予定です。 boston1

はじめに開催の中心スポンサーであるLucidworks社の代表から開催の挨拶があり、メインセッションに進みました。

Thursday, October 13 • 9:00am – 9:45am Search++: Cognitive transformation of human-system interaction

メインセッションはIBM Watson担当のCTO Sridhar Sudarsanが登壇。 Watsonがスピーチ機能でしっかりした挨拶をしました。最初にデータ活用の会社が注目され、成功している例をUber,AirBnB,facebook などで示し、次にいかに大規模なデータが各種デバイスから生成されているかをスライド掲示しました。更にWatsonの説明があり、SolrがRetrive&Rankingで使用されていることを紹介、最後にビデオでロボットの会話、歌とダンスを見せてIBMのwatson cognetive computingについてまとめていました。

Thursday, October 13 • 10:00am – 10:40am Smart Facets at Rakuten

楽天のMike PellegriniとKeith Thomaは検索技術の開発とデリバーを担当しているエンジニアです。Rakutenは６年に及ぶSolr経験を持ち大規模プラットフォームとして運用しています。オンラインで買い物をするお客様にとってとても重要な要素であるファセットについて、楽天のビックデータ検索チームがが試みてきたソリューションのノウハウを聞くことができました。ファセットは有用ですが、場合によって１０倍のクエリパフォーマンス劣化を招きます。このためにコレクタのロジックをカスタマイズし、APIラッパを利用しています。更にグルーピングとスコアリングを利用します。有効性はケースバイケースのためA/Bテストを実施して採用を決めていくようですが、99%のクエリが5ms以下で済んでいます。 20161013_100421_743

Thursday, October 13 • 10:50am – 11:30am Loading 350M documents into a large Solr cluster in 8 hours or less

このセッションでは大規模データをSolrクラスタに高速でロードするためのノウハウについて Wolters Kluwer社のDion Olsthoornが語りました。標準装備のpost.jarツールにはいくつかの制限がありカスタマイズが必要であり、クエリになるべく影響をかけずにロードを実現するについても触れていました。

データ量：１秒あたり1万2千ドキュメントを処理します（８時間で３億５千万）
環境： Solr5.5で18×3台、ETLは別立て、ロードバランサーあり

重要ないくつかのポイントは以下です。

プリプロセスを Solrの外で実施すること
Solr Cloudを利用すること
キューイングシステムにしたこと（ZooKeeper利用）
SolrJを使ったこと

Thursday, October 13 • 11:40am – 12:20pm PlayStation and Lucene: Indexing 1 Million documents per second on 18 servers

SONYインタラクティブエンターテイメント(SIE)で新世代ネットワークに４年関わっているAlexander Filipchikが突然の１００万単位のユーザー増加にも対応できるスケーラブルなプラットフォームについて語りました。 SIEではPlaystationStoreやFriendSearch機能などでLuceneが使用されていますが、当初は200k/sec程度の処理でRDBを使用していました。 DBA（データベース管理者）の介在なしでユーザーが利用したい、大規模データに対応したい、スケールするようにしたいなどのニーズが発生し、非正規化を行ってNoSQL(Casandra）の利用なども行ったそうです。現在はSolrも利用されていますがno zookeeper,no problemとのことで、会場に受けていました。

Thursday, October 13 • 1:30pm – 2:10pm Microsoft’s Use of Solr to Deliver a Multitenant Log Analytics SAAS Service

マイクロソフト社のエンジニア２名Chirag GuptaとGaurav Kapilaが登壇。お二人はMicrosoft Log Analytics SAAS serviceのパフォーマンス、スケーラビリティやマルチテナント対応などを担当しています。マイクロソフト社のクラウドサービスでSolrが使われていることにまずは驚きましたが、スケーリングするアーキテクチャーとしての素性の良さがMS社が持つ技術を上回っているということだと思います。彼らのチャレンジは100ノード以上でパフォーマンスのボトルネックになったzookeeperをingestion-gatewayで解決。queryもgeteway+ mergerで解決したとのことでした。

Thursday, October 13 • 2:20pm – 3:00pm Near Real Time Indexing in Search

検索結果が最新の情報と異なることに後から気がついたら、ユーザーはどのように思うでしょうか？ほぼリアルタイムでインデックスの更新ができれば、検索システムの信頼度と利便性は確実に向上します。インド最大のEC提供会社Flipkartのデータアーキテクトが実現方法についてディスカッションしていました。彼らのトラフィックは８０万アクティブユーザー、１秒に１６万リクエストで、検索サービスとしては４万/秒、Solrへは１万/秒とのこと。商品データは５０カテゴリ5,000サブカテゴリ、９千万商品（SKU),1億６千万件で、１０万の商店がいます。さすがは人口の多いインドですね。ここで商機を逃さないための施策として、”在庫があるのに在庫がない”などと表示されないよう、リアルタイム性が求められます。 Solrの各種調整や周辺処理を組み合わせ、実現している話が聞けました。

Thursday, October 13 • 3:10pm – 3:50pm Parallel SQL and Analytics with Solr

Solr開発の中心となっていて現在はクラウデラ社のYonik Seeleyさんがファセット、アナリティクス、パラレルSQL、分散joinや分散グラフクエリなどについて最新状況を解説してくれました。まずFacetの説明からはじまり、徐々に複雑になってきたので、SQLが扱いやすいという開発背景が聞けました。スライドが図とコードになっていて、優しく丁寧な説明で人柄がわかります。（LinuxのLinusさんやPentahoのMattさんなどオープンソースコミュニティの中心にいる方に共通するように思います） SQLはSolrの中でも進化を続ける部分で、各種Joinもできますし、jdbc()を使って多くのDBにアクセスできます。大規模なhash joinを使う時は正しいパーティショニングが必要なため、 /sql handlerの他にWorkerノードも使うのがよいようです。 order by group by,countなども使えます。Zeppelinの例も見せていました。 SQLの次はGraph Filterです。スコアノードも使える機能として紹介されていました。

Thursday, October 13 • 4:30pm – 5:30pm Stump the Chump

20年の検索技術経験をもちSolrのコミッタでもあるCassandraTargettとChris Hostetterが初日の締めとして一番大きな会場に登壇。会場からのいろいろな質問に回答していました。

2日目の様子はこちらです。

INFORMATION

KandaSearch

KandaSearch はクラウド型企業向け検索エンジンサービスです。
オープンAPIでカスタマイズが自由にできます。

セマンティックサーチ
人間が理解するように検索エンジンがテキストや画像を理解して検索できます。
クローラー
検索対象文書を収集するWebクローラーが使えます。
簡単操作のUIと豊富なライブラリー
検索や辞書UIに加え、定義済み専門用語辞書／類義語辞書やプラグインがあります。
ローコードで低コスト導入
検索UIで使い勝手を調整した後、Webアプリケーションを自動生成できます。

セミナー

企業が検索エンジンを選定する際のポイントから、
実際の導入デモをお客様ご自身でご体験！

INFORMATIONテクノロジ