INFORMATION
サービス
[インタビュー] ManifoldCF 入門トレーニングコース受講者 長山様
長山さんご自身について
ロンウイット西潟:「弊社代表の関口から、長山さんは DEC (現ヒューレット・パッカード社) 出身で関口の同期入社だとおうかがいしました。」
長山:「はい、関口さんと同じ年に新卒で DEC に入社しました。」
西潟:「自然言語処理( NLP )に関係する業務に長く関わってらっしゃるともおうかがいしています。どのような仕事をされてきたのでしょうか。」
長山:「DEC 入社当時から AI に関わる仕事を希望していましたが、配属はそれとは関係ないところでした。その後会社を変わって、2000年頃から最初の NLP の仕事に関わりました。お客様はコピー機の会社です。スキャンした文書を OCR してテキストに起こし、全文検索で探せるようにするシステムです。私は、転置インデックスのプログラムを担当しました。日本語テキストから転置インデックスを作成するのに、形態素解析器も作成しました。形態素解析器はコスト最小法で、コピー機会社が持っていた単語辞書を使いました。単語コストと接続コストは、コーパスから学習するのではなく、人手でヒューリスティックスでコピー機の会社の人たちがつけていました。」
西潟:「単語分割は形態素解析だけでしたか ? 文字 N-gram は使いませんでしたか ? 」
長山:「文字 N-gram も作りました。ただ、固定で何 gram ではなく、性能検証をしてカタカナは何 gram 、漢字は何 gram というように、設定可能なように作成しました。最終的には、検索プログラムにハイライト機能も作成しました。 」
西潟:「当時は OSS としての Lucene が出たての頃だったと思うのですが、すべて自前で作ってしまわれたのですね!どのくらいの期間のプロジェクトでしょうか。」
長山:「プロジェクト自体は私が関わる前から始まっていて、私自身は6年間ほど関わっていました。私が抜けた後もプロジェクトは続いていました。」
西潟:「相当長いですね。」
長山:「そうですね。その後別のお客様の案件で Lucene を使いました。NLP でいうところの質問応答タスクを音声でやる、というものです。音声で入力された質問をテキストに直し、Luceneに入っている FAQ 集の「質問」を検索して該当する「回答」を音声にして返す、というものです。」
西潟:「他に担当した業務はありますか。」
長山:「一番最近は、機械翻訳です。3~4年前で、現在主流の統計的手法ではなく、用例に基づく機械翻訳でした。日本語から外国語への翻訳ですが、私が担当したのは精度向上と処理速度向上でした。当時のお客様システムでは、2000万文字の翻訳に1週間かかっていたのですが、Azure の DB に辞書を持っていたため時間がかかりすぎていました。私はそれをメモリ上にトライ木で持つように改良し、辞書引き部分は3秒ですむようにしました。その他の処理も含めて2000万文字の翻訳に 2~3時間で処理が完了するようになりました。」
トレーニングコース受講の動機
西潟:「今回はどのような動機で本トレーニングコースを受講されたのでしょうか?」
長山:「現在携わっている業務で Web サイトをクロールする必要性が出てきたところ、関口さんから良い OSS があるということを聞いて受講に至りました。当初はクローラーを自作しようとしていましたが、クローラーは差分更新など考慮しなければならないことが多く面倒だと思っていました。このトレーニングは渡りに船といったところでしょうか。」
トレーニングの感想
西潟:「受講してみた感想はいかがでしょうか?」
長山:「改めてクローラーの OSS があることに驚きを感じました。今回想定していた要件を全て満たせる機能を備えていたわけではありませんでしたが工数はかなり削減できそうだという印象を受けました。」
西潟:「今回の要件とはどのようなものでしょうか?」
長山:「企業内検索向けにイントラサイトとファイルサーバをクロールし、それを横断検索させるというものです。ファイルサーバのクロールは MCF の機能だけでほぼ満足できそうです。これだけでもかなりの工数削減です。イントラサイトのクロールは特定のタグのみスクレイピングする必要があり、これは MCF の機能だけでは実現できそうにないのでカスタムが必要だと感じました。ただ、これについても実装が必要な箇所はスクレイピングのみなので、工数が削減できそうなことには変わりありません。」
西潟:「トレーニング内で MCF を使ってみて、印象はいかがだったでしょうか?」
長山:「以前、業務でクローラーを作成したことはあったのですが、CUI で操作するもので、とても技術者向けなアプリケーションでした。それに対し、MCF は基本的な操作は GUI で行うことができるので、随分ユーザーフレンドリーな印象を受けました。また、標準で Solr にポストする機能が備えられているので、検索エンジンとの親和性の高さを感じました。」
西潟:「MCF が現在長山さんが携わっている業務に活かせそうでしょうか?」
長山:「活かせると思います。トレーニングを受けただけの印象で言えば MCF は特定のリポジトリからリポジトリにファイルをコピーするだけのアプリケーションなので必要に応じてカスタマイズしないと 100% 要件にマッチさせることは難しいと感じましたが、それでもフルスクラッチするよりかは遥かに工数削減が可能です。GUI がついていることはエンドユーザーに説明する際の大きなメリットだと感じますし、Solr のクローラーはまず MCF を検討すると良いと思いました。」
西潟:「今回のトレーニングがお役に立てそうで安心しました。ご受講いただき大変ありがとうございました。」
フリーランスのITエンジニア 長山英司さん
INFORMATION
KandaSearch
KandaSearch はクラウド型企業向け検索エンジンサービスです。
オープンAPIでカスタマイズが自由にできます。
セミナー
企業が検索エンジンを選定する際のポイントから、
実際の導入デモをお客様ご自身でご体験!