INFORMATION
テクノロジ

Apache ManifoldCF -オープンソースクローラのご紹介-

Apache ManifoldCF（マニフォールドシーエフ）は、Apacheソフトウェア財団で開発されている、オープンソースソフトウェアのクローラフレームワークです。
Apacheのインキュベータプロジェクトとして、Solrの関連プロジェクトであり、Solrとの連携に親和性があります。

ManifoldCFの「CF」とは、Connector Frameworkの略称であり、その名のとおり、さまざまなコネクタを持っています。
コネクタは外部システムとの接続を意味します。ファイルサーバやデータベースなどのコンテンツレポジトリに接続するレポジトリコネクタ、Active Directoryに接続するオーソリティコネクタ、Solrへ接続するアウトプットコネクタ、の３つの機能のコネクタがあります。

基本的な動作としては、ファイルサーバに接続しその中にあるファイルをクロールし（レポジトリコネクタ）、そこで取得したコンテンツをSolrに接続して投入する（アウトプットコネクタ）、というものです。その後、Solrでコンテンツ検索することができるようになります。
また、ファイルのパーミッションに注目して、Active Directoryに接続しファイルが持つセキュリティ情報に配慮しながら検索するようにすることもできます（オーソリティコネクタ）。

対応しているレポジトリコネクタは次のとおりです。
ファイルサーバ、データベース、Web、プロプライエタリなシステムに対応しています。

ファイルサーバ
Windows共有サーバ
JDBC経由のデータベース(OracleやSQLServer)
Web、RSS
他システム

LiveLink (OpenText)
Documentum (EMC)
SharePoint (Microsoft)
Meridio (Autonomy)
FileNet (IBM)

たとえば次のようなケースで導入することが可能になります。

社内ファイルサーバのコンテンツの検索
社内データベースサーバのコンテンツの検索
社内イントラサーバのWebコンテンツの検索　
社外のWebコンテンツの検索

主に企業内検索システムで利用することに、高いパフォーマンスを示します。
役職や所属部署によるセキュリティを考慮した検索をする場合に、ManifoldCFの機能を活用することができます。

ManifoldCFの特筆すべき点は、ManifoldCFの管理画面で設定することによって、すぐに動作させることが可能ということです。どのレポジトリに接続すればよいか、クロール対象のファイル種類は何か、クローリングをいつ実行するか、の定義を設定すればすぐに準備が整います。ManifoldCFの管理画面には、クロール詳細を定義するジョブ設定が備わっています。

これは、たとえばWebクローラで有名なApache Nutchに比べて優位です。Nutchでは、クロールのスケジュールを設定できず、自前で定義を作成する必要があります。それ以外にも、Windows共有サーバのクロールもできませんし、ファイルのセキュリティ情報に配慮した検索もできません。

一般的に、Solrを検索エンジンとして導入する場合においては、常にクローラの選定および評価が必要となります。
検索対象を検索エンジンに取り入れるための非常に重要な考慮点となります。クローラはカスタマイズすることが多いかもしれません。Solrへの投入部分を自前で実装する必要が多いと考えられます。
しかし、ManifoldCFを導入すれば、この部分をカスタマイズしないで進めることができます。

今回は、Apache ManifoldCFの主な機能をご紹介させていただきました。
次回は、Apache ManifoldCFを動作させるためのセットアップ方法をご紹介いたします。

INFORMATION

KandaSearch

KandaSearch はクラウド型企業向け検索エンジンサービスです。
オープンAPIでカスタマイズが自由にできます。

セマンティックサーチ
人間が理解するように検索エンジンがテキストや画像を理解して検索できます。
クローラー
検索対象文書を収集するWebクローラーが使えます。
簡単操作のUIと豊富なライブラリー
検索や辞書UIに加え、定義済み専門用語辞書／類義語辞書やプラグインがあります。
ローコードで低コスト導入
検索UIで使い勝手を調整した後、Webアプリケーションを自動生成できます。

セミナー

企業が検索エンジンを選定する際のポイントから、
実際の導入デモをお客様ご自身でご体験！

INFORMATIONテクノロジ

Apache ManifoldCF -オープンソースクローラのご紹介-

INFORMATION

KandaSearch

セミナー

INFORMATION
テクノロジ