INFORMATION
テクノロジ

[インタビュー] Solr 3.5 トレーニングコース受講者 Cloudera 田澤孝之 様

Solr 3.5 基礎の定期開催トレーニングコースを受講されました、米Clouderaディレクターの田澤さんに、受講後のインタビューに応じていただきました。

Clouderaについて

ロンウイット関口「Clouderaという会社について教えてください」
Cloudera田澤「2008年10月に創業したHadoopの専業ベンダーです。CDH(Cloudera’s Distribution including Apache Hadoop)やCloudera Managerという製品を持っています。もちろんHadoopに関連したコンサルティングやサポート、教育も行っています。Hadoop創始者のDougは2009年前半にJoinしました」

Cloudera 田澤孝之 さん

Cloudera 田澤孝之 さん

関口「Hadoopのディストリビューターというと他にもあるようですが、Clouderaの特徴はなんでしょうか」
田澤「MapRやHortonworksですね。MapRはAPIはHadoop互換を謳っていますが、足回りをC/C++で再実装していて高性能を武器にしているようです。HortonworksはYahoo!からスピンアウトした人たちが立ち上げた会社で、できてまだ日が浅く、GAになっている製品がありません。Clouderaはコミュニティで開発されたHadoop 1.0(0.20系)を使っており、「オレオレバージョンではない」「すでにYahoo!で数千ノードで稼働している」という実績があるのが特徴です。もっとも、調査会社のForresterによれば、Amazon(Elastic MapReduce)やIBM(InfoSphere)、EMC(Greenplum)がうちも含めた前述の会社よりHadoopのEnterprise市場で影響力のある会社として評価されているようです(笑)」

関口「Clouderaにおいて田澤さんはどのような業務を担当していますか」
田澤「日本でのビジネスの立ち上げやClouderaの普及です」

トレーニングコース受講の動機

関口「今回トレーニングコースを受講していただいた動機はなんでしょうか」
田澤「関口さんもご存知の通り、DougはLuceneの創設者でもあり、Hadoopと検索は近しい関係にあります。DougはLuceneを開発した後、Webクローラーを搭載したNutchを開発しました。しかし、Web相手だとなかなかスケールしない。そこにGoogleの論文が発表され、そのアイディアをNutchに適用しようと考えました」

関口「HDFSとMapReduceですね」
田澤「当時はHDFSではなくNDFSと呼んでいました。Dougいわく、「2年間パートタイムで開発した」とのことです。そしてNutchをその上にポーティングしたところ、みごとにスケールしたと」

関口「その後Hadoopが独立したわけですね」
田澤「はい。そんなわけで大規模データを加工するHadoop、そのReduceプロセスの出力を保存して検索するLucene/Solrは、大規模データを扱うアプリケーションで一緒に使うことが自然です。また私自身FASTという検索エンジンの会社に在籍していたことがあり、OSSの検索エンジンに興味があったため、今回受講しました」

トレーニングコースを受講しての感想

関口「受講してみてどうでしたか」
田澤「コンテンツはきめ細かく充実しています。演習も多く入っていて、いいコースです」

関口「ありがとうございます」
田澤「ただコンテンツが充実している分、講義が駆け足的になっていてそれが残念ですね。私は昔BEAシステムズ(現オラクル)という会社でWebLogic Serverの教育コースの講師をしていましたが、その経験からいっても基礎コースでも2日に分けてもいいのではないかと思います」

関口「わかりました。近々4.0へのメジャーバージョンアップがあるので、参考にさせていただきます。ところで田澤さんは元FAST社員ということでおうかがいしますが、SolrはFASTと比べてどうでしょうか」
田澤「私が在籍していたのは4〜5年前なのであくまでも当時のバージョン(Fast ESP5.1)前提での話になりますが、Solrは基本機能レベルでは互角以上といっていいでしょう。ただ、インデックス作成のスケールアウト性、セキュリティ、管理GUIコンソールはFASTの方が上ですね」

HadoopとSolrの今後について

関口「HadoopとSolrは今後どのように絡んで使われていくことになりそうでしょうか」
田澤「やはりHadoopは特にテレコム業界でBI(Business Intelligence)やBA(Business Analysis)のためのデータ加工・分析で今後も使われていくでしょう。Solrとは広告業界等でのレコメンデーションやSentiment Analysisをアプリケーションで行う際に、やはりHadoopが使われると思います。いずれにしろ今後もデータは増える一方なので、HadoopとLucene/Solrはいろいろな分野で組み合わせて使われるはずですし、ユーザーの皆様から面白い活用事例が聞けることを楽しみにしています」
関口「本日はお疲れのところ、インタビューにおつきあいくださいましてありがとうございました」


KandaSearch

KandaSearch はクラウド型企業向け検索エンジンサービスです。
オープンAPIでカスタマイズが自由にできます。

  • セマンティックサーチ

    人間が理解するように検索エンジンがテキストや画像を理解して検索できます。

  • クローラー

    検索対象文書を収集するWebクローラーが使えます。

  • 簡単操作のUIと豊富なライブラリー

    検索や辞書UIに加え、定義済み専門用語辞書/類義語辞書やプラグインがあります。

  • ローコードで低コスト導入

    検索UIで使い勝手を調整した後、Webアプリケーションを自動生成できます。

セミナー

企業が検索エンジンを選定する際のポイントから、
実際の導入デモをお客様ご自身でご体験!