INFORMATION
テクノロジ
Apache ManifoldCF -オープンソースクローラのご紹介-
Apache ManifoldCF(マニフォールドシーエフ)は、Apacheソフトウェア財団で開発されている、オープンソースソフトウェアのクローラフレームワークです。
Apacheのインキュベータプロジェクトとして、Solrの関連プロジェクトであり、Solrとの連携に親和性があります。
ManifoldCFの「CF」とは、Connector Frameworkの略称であり、その名のとおり、さまざまなコネクタを持っています。
コネクタは外部システムとの接続を意味します。ファイルサーバやデータベースなどのコンテンツレポジトリに接続するレポジトリコネクタ、Active Directoryに接続するオーソリティコネクタ、Solrへ接続するアウトプットコネクタ、の3つの機能のコネクタがあります。
基本的な動作としては、ファイルサーバに接続しその中にあるファイルをクロールし(レポジトリコネクタ)、そこで取得したコンテンツをSolrに接続して投入する(アウトプットコネクタ)、というものです。その後、Solrでコンテンツ検索することができるようになります。
また、ファイルのパーミッションに注目して、Active Directoryに接続しファイルが持つセキュリティ情報に配慮しながら検索するようにすることもできます(オーソリティコネクタ)。
対応しているレポジトリコネクタは次のとおりです。
ファイルサーバ、データベース、Web、プロプライエタリなシステムに対応しています。
役職や所属部署によるセキュリティを考慮した検索をする場合に、ManifoldCFの機能を活用することができます。
ManifoldCFの特筆すべき点は、ManifoldCFの管理画面で設定することによって、すぐに動作させることが可能ということです。どのレポジトリに接続すればよいか、クロール対象のファイル種類は何か、クローリングをいつ実行するか、の定義を設定すればすぐに準備が整います。ManifoldCFの管理画面には、クロール詳細を定義するジョブ設定が備わっています。
これは、たとえばWebクローラで有名なApache Nutchに比べて優位です。Nutchでは、クロールのスケジュールを設定できず、自前で定義を作成する必要があります。それ以外にも、Windows共有サーバのクロールもできませんし、ファイルのセキュリティ情報に配慮した検索もできません。
一般的に、Solrを検索エンジンとして導入する場合においては、常にクローラの選定および評価が必要となります。
検索対象を検索エンジンに取り入れるための非常に重要な考慮点となります。 クローラはカスタマイズすることが多いかもしれません。Solrへの投入部分を自前で実装する必要が多いと考えられます。
しかし、ManifoldCFを導入すれば、この部分をカスタマイズしないで進めることができます。
今回は、Apache ManifoldCFの主な機能をご紹介させていただきました。
次回は、Apache ManifoldCFを動作させるためのセットアップ方法をご紹介いたします。
Apacheのインキュベータプロジェクトとして、Solrの関連プロジェクトであり、Solrとの連携に親和性があります。
ManifoldCFの「CF」とは、Connector Frameworkの略称であり、その名のとおり、さまざまなコネクタを持っています。
コネクタは外部システムとの接続を意味します。ファイルサーバやデータベースなどのコンテンツレポジトリに接続するレポジトリコネクタ、Active Directoryに接続するオーソリティコネクタ、Solrへ接続するアウトプットコネクタ、の3つの機能のコネクタがあります。
基本的な動作としては、ファイルサーバに接続しその中にあるファイルをクロールし(レポジトリコネクタ)、そこで取得したコンテンツをSolrに接続して投入する(アウトプットコネクタ)、というものです。その後、Solrでコンテンツ検索することができるようになります。
また、ファイルのパーミッションに注目して、Active Directoryに接続しファイルが持つセキュリティ情報に配慮しながら検索するようにすることもできます(オーソリティコネクタ)。
対応しているレポジトリコネクタは次のとおりです。
ファイルサーバ、データベース、Web、プロプライエタリなシステムに対応しています。
- ファイルサーバ
- Windows共有サーバ
- JDBC経由のデータベース(OracleやSQLServer)
- Web、RSS
- 他システム
- LiveLink (OpenText)
- Documentum (EMC)
- SharePoint (Microsoft)
- Meridio (Autonomy)
- FileNet (IBM)
- 社内ファイルサーバのコンテンツの検索 社内のファイルサーバで情報共有している社内管理文書を検索する。
- 社内データベースサーバのコンテンツの検索 社内のデータベースで情報共有している顧客情報・受発注情報などを検索する。
- 社内イントラサーバのWebコンテンツの検索
- 社外のWebコンテンツの検索
役職や所属部署によるセキュリティを考慮した検索をする場合に、ManifoldCFの機能を活用することができます。
ManifoldCFの特筆すべき点は、ManifoldCFの管理画面で設定することによって、すぐに動作させることが可能ということです。どのレポジトリに接続すればよいか、クロール対象のファイル種類は何か、クローリングをいつ実行するか、の定義を設定すればすぐに準備が整います。ManifoldCFの管理画面には、クロール詳細を定義するジョブ設定が備わっています。
これは、たとえばWebクローラで有名なApache Nutchに比べて優位です。Nutchでは、クロールのスケジュールを設定できず、自前で定義を作成する必要があります。それ以外にも、Windows共有サーバのクロールもできませんし、ファイルのセキュリティ情報に配慮した検索もできません。
一般的に、Solrを検索エンジンとして導入する場合においては、常にクローラの選定および評価が必要となります。
検索対象を検索エンジンに取り入れるための非常に重要な考慮点となります。 クローラはカスタマイズすることが多いかもしれません。Solrへの投入部分を自前で実装する必要が多いと考えられます。
しかし、ManifoldCFを導入すれば、この部分をカスタマイズしないで進めることができます。
今回は、Apache ManifoldCFの主な機能をご紹介させていただきました。
次回は、Apache ManifoldCFを動作させるためのセットアップ方法をご紹介いたします。
INFORMATION
KandaSearch
KandaSearch はクラウド型企業向け検索エンジンサービスです。
オープンAPIでカスタマイズが自由にできます。
セミナー
企業が検索エンジンを選定する際のポイントから、
実際の導入デモをお客様ご自身でご体験!