Apache OpenNLP
Apache OpenNLP は教師あり機械学習に基づく自然言語処理エンジンです。バージョン1.9.0から正式に日本語がサポートされました。
さまざまな自然言語処理タスクをサポートしますが、主な機能を紹介します。
固有名詞タイプは、人名など一般的なものから、病名、料理名、イベント名など、アプリケーションに応じてさまざまなタイプを使うことができます。
分類される対象はテキスト文書に限りませんので、自動与信審査やスパムメール判定などにも応用することが可能です。
さまざまな自然言語処理タスクをサポートしますが、主な機能を紹介します。
固有表現抽出
日本語などの自然言語で書かれたテキストには人名、地名、組織名などの固有名詞が含まれています。これらの固有名詞を属性(固有名詞タイプ)付きで抽出する技術が「固有表現抽出」と呼ばれるものです。たとえば、検索エンジンなどのアプリケーションと組み合わせて使うと、検索精度向上に役立てることができます。固有名詞タイプは、人名など一般的なものから、病名、料理名、イベント名など、アプリケーションに応じてさまざまなタイプを使うことができます。
文書分類
新聞記事など自然言語で書かれた記事・文書に分類ラベルを自動付与する機能です。たとえば文書を投稿するサイトで、投稿された文書に自動的に「スポーツ」「芸能」「政治」「経済」などのラベルを自動付与するなどの応用例が考えられます。分類される対象はテキスト文書に限りませんので、自動与信審査やスパムメール判定などにも応用することが可能です。
言語判別
自然言語で書かれたテキストが「何語」で書かれているかを自動判別する機能です。日本語、英語はもちろんのこと、ドイツ語、フランス語、ロシア語、アラビア語、中国語、韓国語など103言語をカバーしています。関連リンク
関連記事
SERVICE
KandaSearch
KandaSearch はクラウド型企業向け検索エンジンサービスです。
オープンAPIでカスタマイズが自由にできます。
セミナー
企業が検索エンジンを選定する際のポイントから、
実際の導入デモをお客様ご自身でご体験!