Apache OpenNLP

Apache OpenNLP は教師あり機械学習に基づく自然言語処理エンジンです。バージョン1.9.0から正式に日本語がサポートされました。

さまざまな自然言語処理タスクをサポートしますが、主な機能を紹介します。

固有表現抽出
日本語などの自然言語で書かれたテキストには人名、地名、組織名などの固有名詞が含まれています。これらの固有名詞を属性(固有名詞タイプ)付きで抽出する技術が「固有表現抽出」と呼ばれるものです。たとえば、検索エンジンなどのアプリケーションと組み合わせて使うと、検索精度向上に役立てることができます。

固有名詞タイプは、人名など一般的なものから、病名、料理名、イベント名など、アプリケーションに応じてさまざまなタイプを使うことができます。

文書分類
新聞記事など自然言語で書かれた記事・文書に分類ラベルを自動付与する機能です。たとえば文書を投稿するサイトで、投稿された文書に自動的に「スポーツ」「芸能」「政治」「経済」などのラベルを自動付与するなどの応用例が考えられます。

分類される対象はテキスト文書に限りませんので、自動与信審査やスパムメール判定などにも応用することが可能です。

言語判別
自然言語で書かれたテキストが「何語」で書かれているかを自動判別する機能です。日本語、英語はもちろんのこと、ドイツ語、フランス語、ロシア語、アラビア語、中国語、韓国語など103言語をカバーしています。

関連リンク


関連記事

KandaSearch

KandaSearch はクラウド型企業向け検索エンジンサービスです。
オープンAPIでカスタマイズが自由にできます。

  • セマンティックサーチ

    人間が理解するように検索エンジンがテキストや画像を理解して検索できます。

  • クローラー

    検索対象文書を収集するWebクローラーが使えます。

  • 簡単操作のUIと豊富なライブラリー

    検索や辞書UIに加え、定義済み専門用語辞書/類義語辞書やプラグインがあります。

  • ローコードで低コスト導入

    検索UIで使い勝手を調整した後、Webアプリケーションを自動生成できます。

セミナー

企業が検索エンジンを選定する際のポイントから、
実際の導入デモをお客様ご自身でご体験!