INFORMATION
テクノロジ
[インタビュー] Solr 3.5 トレーニングコース受講者 Cloudera 田澤孝之 様
Solr 3.5 基礎の定期開催トレーニングコースを受講されました、米Clouderaディレクターの田澤さんに、受講後のインタビューに応じていただきました。
Cloudera田澤「2008年10月に創業したHadoopの専業ベンダーです。CDH(Cloudera’s Distribution including Apache Hadoop)やCloudera Managerという製品を持っています。もちろんHadoopに関連したコンサルティングやサポート、教育も行っています。Hadoop創始者のDougは2009年前半にJoinしました」
関口「Hadoopのディストリビューターというと他にもあるようですが、Clouderaの特徴はなんでしょうか」
田澤「MapRやHortonworksですね。MapRはAPIはHadoop互換を謳っていますが、足回りをC/C++で再実装していて高性能を武器にしているようです。HortonworksはYahoo!からスピンアウトした人たちが立ち上げた会社で、できてまだ日が浅く、GAになっている製品がありません。Clouderaはコミュニティで開発されたHadoop 1.0(0.20系)を使っており、「オレオレバージョンではない」「すでにYahoo!で数千ノードで稼働している」という実績があるのが特徴です。もっとも、調査会社のForresterによれば、Amazon(Elastic MapReduce)やIBM(InfoSphere)、EMC(Greenplum)がうちも含めた前述の会社よりHadoopのEnterprise市場で影響力のある会社として評価されているようです(笑)」
関口「Clouderaにおいて田澤さんはどのような業務を担当していますか」
田澤「日本でのビジネスの立ち上げやClouderaの普及です」
田澤「関口さんもご存知の通り、DougはLuceneの創設者でもあり、Hadoopと検索は近しい関係にあります。DougはLuceneを開発した後、Webクローラーを搭載したNutchを開発しました。しかし、Web相手だとなかなかスケールしない。そこにGoogleの論文が発表され、そのアイディアをNutchに適用しようと考えました」
関口「HDFSとMapReduceですね」
田澤「当時はHDFSではなくNDFSと呼んでいました。Dougいわく、「2年間パートタイムで開発した」とのことです。そしてNutchをその上にポーティングしたところ、みごとにスケールしたと」
関口「その後Hadoopが独立したわけですね」
田澤「はい。そんなわけで大規模データを加工するHadoop、そのReduceプロセスの出力を保存して検索するLucene/Solrは、大規模データを扱うアプリケーションで一緒に使うことが自然です。また私自身FASTという検索エンジンの会社に在籍していたことがあり、OSSの検索エンジンに興味があったため、今回受講しました」
田澤「コンテンツはきめ細かく充実しています。演習も多く入っていて、いいコースです」
関口「ありがとうございます」
田澤「ただコンテンツが充実している分、講義が駆け足的になっていてそれが残念ですね。私は昔BEAシステムズ(現オラクル)という会社でWebLogic Serverの教育コースの講師をしていましたが、その経験からいっても基礎コースでも2日に分けてもいいのではないかと思います」
関口「わかりました。近々4.0へのメジャーバージョンアップがあるので、参考にさせていただきます。ところで田澤さんは元FAST社員ということでおうかがいしますが、SolrはFASTと比べてどうでしょうか」
田澤「私が在籍していたのは4〜5年前なのであくまでも当時のバージョン(Fast ESP5.1)前提での話になりますが、Solrは基本機能レベルでは互角以上といっていいでしょう。ただ、インデックス作成のスケールアウト性、セキュリティ、管理GUIコンソールはFASTの方が上ですね」
田澤「やはりHadoopは特にテレコム業界でBI(Business Intelligence)やBA(Business Analysis)のためのデータ加工・分析で今後も使われていくでしょう。Solrとは広告業界等でのレコメンデーションやSentiment Analysisをアプリケーションで行う際に、やはりHadoopが使われると思います。いずれにしろ今後もデータは増える一方なので、HadoopとLucene/Solrはいろいろな分野で組み合わせて使われるはずですし、ユーザーの皆様から面白い活用事例が聞けることを楽しみにしています」
関口「本日はお疲れのところ、インタビューにおつきあいくださいましてありがとうございました」
Clouderaについて
ロンウイット関口「Clouderaという会社について教えてください」Cloudera田澤「2008年10月に創業したHadoopの専業ベンダーです。CDH(Cloudera’s Distribution including Apache Hadoop)やCloudera Managerという製品を持っています。もちろんHadoopに関連したコンサルティングやサポート、教育も行っています。Hadoop創始者のDougは2009年前半にJoinしました」
関口「Hadoopのディストリビューターというと他にもあるようですが、Clouderaの特徴はなんでしょうか」
田澤「MapRやHortonworksですね。MapRはAPIはHadoop互換を謳っていますが、足回りをC/C++で再実装していて高性能を武器にしているようです。HortonworksはYahoo!からスピンアウトした人たちが立ち上げた会社で、できてまだ日が浅く、GAになっている製品がありません。Clouderaはコミュニティで開発されたHadoop 1.0(0.20系)を使っており、「オレオレバージョンではない」「すでにYahoo!で数千ノードで稼働している」という実績があるのが特徴です。もっとも、調査会社のForresterによれば、Amazon(Elastic MapReduce)やIBM(InfoSphere)、EMC(Greenplum)がうちも含めた前述の会社よりHadoopのEnterprise市場で影響力のある会社として評価されているようです(笑)」
関口「Clouderaにおいて田澤さんはどのような業務を担当していますか」
田澤「日本でのビジネスの立ち上げやClouderaの普及です」
トレーニングコース受講の動機
関口「今回トレーニングコースを受講していただいた動機はなんでしょうか」田澤「関口さんもご存知の通り、DougはLuceneの創設者でもあり、Hadoopと検索は近しい関係にあります。DougはLuceneを開発した後、Webクローラーを搭載したNutchを開発しました。しかし、Web相手だとなかなかスケールしない。そこにGoogleの論文が発表され、そのアイディアをNutchに適用しようと考えました」
関口「HDFSとMapReduceですね」
田澤「当時はHDFSではなくNDFSと呼んでいました。Dougいわく、「2年間パートタイムで開発した」とのことです。そしてNutchをその上にポーティングしたところ、みごとにスケールしたと」
関口「その後Hadoopが独立したわけですね」
田澤「はい。そんなわけで大規模データを加工するHadoop、そのReduceプロセスの出力を保存して検索するLucene/Solrは、大規模データを扱うアプリケーションで一緒に使うことが自然です。また私自身FASTという検索エンジンの会社に在籍していたことがあり、OSSの検索エンジンに興味があったため、今回受講しました」
トレーニングコースを受講しての感想
関口「受講してみてどうでしたか」田澤「コンテンツはきめ細かく充実しています。演習も多く入っていて、いいコースです」
関口「ありがとうございます」
田澤「ただコンテンツが充実している分、講義が駆け足的になっていてそれが残念ですね。私は昔BEAシステムズ(現オラクル)という会社でWebLogic Serverの教育コースの講師をしていましたが、その経験からいっても基礎コースでも2日に分けてもいいのではないかと思います」
関口「わかりました。近々4.0へのメジャーバージョンアップがあるので、参考にさせていただきます。ところで田澤さんは元FAST社員ということでおうかがいしますが、SolrはFASTと比べてどうでしょうか」
田澤「私が在籍していたのは4〜5年前なのであくまでも当時のバージョン(Fast ESP5.1)前提での話になりますが、Solrは基本機能レベルでは互角以上といっていいでしょう。ただ、インデックス作成のスケールアウト性、セキュリティ、管理GUIコンソールはFASTの方が上ですね」
HadoopとSolrの今後について
関口「HadoopとSolrは今後どのように絡んで使われていくことになりそうでしょうか」田澤「やはりHadoopは特にテレコム業界でBI(Business Intelligence)やBA(Business Analysis)のためのデータ加工・分析で今後も使われていくでしょう。Solrとは広告業界等でのレコメンデーションやSentiment Analysisをアプリケーションで行う際に、やはりHadoopが使われると思います。いずれにしろ今後もデータは増える一方なので、HadoopとLucene/Solrはいろいろな分野で組み合わせて使われるはずですし、ユーザーの皆様から面白い活用事例が聞けることを楽しみにしています」
関口「本日はお疲れのところ、インタビューにおつきあいくださいましてありがとうございました」
INFORMATION
KandaSearch
KandaSearch はクラウド型企業向け検索エンジンサービスです。
オープンAPIでカスタマイズが自由にできます。
セミナー
企業が検索エンジンを選定する際のポイントから、
実際の導入デモをお客様ご自身でご体験!