INFORMATION
サービス
[インタビュー] Apache OpenNLP による [実践] 自然言語処理トレーニングコース受講者 第一法規㈱様
2019年1月にApache OpenNLP による [実践] 自然言語処理トレーニングコースを受講されました、第一法規株式会社の小林さん、傳田さんに受講後インタビューに応じて頂きましたのでご紹介します。
第一法規㈱傳田さん(右)、小林さん(左)
第一法規小林:「当社は法規書を中心に、関連する学術書・実務書・雑誌などを出版する出版社ですが、出版業界の急速な IT 化に伴い、情報の検索性や情報提供の迅速性、経済性がお客様から求められています。このため紙媒体による出版に加え、法令関連コンテンツのデジタル化を推進していることから、Solr を利用しています。」
関口:「普段は小林さん、傳田さんをはじめとする商品システム開発部の方たちとお取引をさせていただいておりますので、貴社が出版社であるということを意識することが少ないです。」
第一法規傳田:「明治の創業当初より『加除式書籍』といいまして、ルーズリーフに似た形式で法規書を提供しています。頻繁に改正がある法令情報を、正確・迅速・経済的にお客様に提供できるように、法規書の全体を刷り直すことなく、あたかもルーズリーフのページを追加したり差し替えるのと同じイメージで、改正部分のみを差し替えられるように考えられたビジネスモデルは、事業開始当初より高い評価をいただいています。とはいえ、紙媒体は手にとって確認でき、一覧性に優れますが、場所も取りますし、検索性も考えると、デジタル化は避けられません。もっとも、個人的には書籍は紙媒体で読む方が好みです。」
小林:「検索性に加え、判例や法令、関連する用語解説書籍の相互参照性なども考えると、デジタルコンテンツの利便性はますます高くなります。私も、本を読むときは紙媒体の方が好きなのですが。」
関口:「実は私も紙媒体派です。週末は文庫本を持って丸の内周辺を散歩しています(笑)。」
小林:「第一法規の主要なお客様は、行政機関、弁護士、税理士、公認会計士、企業(総務部・法務部・人事部等)、教育機関、社会福祉法人等、法律に関する情報を実務で利用されている方々なので、確かに法令情報を実務で利用しない方には想像するのが難しいかもしれませんね。」
傳田:「たとえば法律が改正されたとします。すると、『改め文』と呼ばれる表現形式で改正内容が官報に載ります。たとえば、ある国会で成立した雇用保険法等一部改正法の改正規定が、
『第十条第四項第一号を次のように改める。
一 就業促進手当
第十条第四項中第二号を削り、第三号を第二号とし、第四号を第三号とする。』
のような改め文として官報に掲載されたりするわけです。改正後の新しい法令文そのものが掲載されるわけではないので、改め文で表現された『差分』を元の法律に適用することで、改正後の法律の全文を得ることができます。『差分』を元の法律に適用することを、業界用語で『(改め文を)溶け込ませる』という言い方をします。」
関口:「かなり独特ですね。しかし、想像はできます。我々はプログラムの差分を diff コマンドで出力しますがそれが改め文に対応しますし、差分を patch コマンドで適用することが『溶け込ませる』ことに相当しますね。ただし、法律の改め文は日本語で書かれたテキストなので、溶け込ませるには高度な処理が必要そうですが。」
傳田:「第一法規は法律の改め文を元の法律に溶け込ませて新しい法律文を生成したり、新旧の法律文を読み込ませることで、改め文そのものを自動生成したり、法律が新しく制定されたときからの全履歴を管理して、指定された日付の法律を呼び出すことができるシステムを開発・販売しています。私の業務は、その自治体版を開発・運用することです。つまり、自治体が制定する条例について、改め文を溶け込ませたり、改め文を逆生成したり、といったシステムを開発しています。」
小林:「私は、編集部が電子版コンテンツを制作するときに、共通で使える基盤システムの開発に携わっています。たとえば、デジタル媒体で提供する商品・サービスとしては、パソコンやタブレット、スマートフォン(WEBブラウザや動画再生ソフト)での利用を基本として、インターネット接続、USBメモリ、DVDなどがありますが、共通化できるところを見極めて共通基盤化します。また、コンテンツのジャンル、たとえば環境に関するコンテンツと介護に関するコンテンツはジャンルが異なりますが、提供方法が同じなら共通化できます。これにより、開発コストや運用コストを低減することを目指します。」
小林:「開発を進めている基盤システムの共通化をよりいっそう進化させたいです。現在は商品がリニューアルしていくときなどに、共通基盤側の影響範囲が大きいなどの問題があります。機能のコンポーネント化をよりいっそう進めることで、プラグインの差し替えで商品のリニューアルに簡単に追随できるようになるはずです。」
傳田:「今回 OpenNLP を受講したので、自分の業務に使えるところがあったら使っていきたいです。改め文や改め文が適用される元の法令や例規集、改め文が適用された後の法律などは自然言語で書かれているので、OpenNLP が適用できるかもしれません。OpenNLP そのものが適用できなくても、NLP の基本的な考え方も知ることができたので、必要に応じて OpenNLP をカスタマイズしたり、必要な NLP ツールを自作したりしたいですね。改め文を溶け込ませる既存システムも完全自動化までには至っていないません。膨大なこれまでの蓄積を教師データにして機械学習モデルを作成し、自動化をよりいっそう進めることを目指したいです。国から出た改正は自治体の条例改正へと波及していくのですが、自動化できるところはまだまだあると思っています。その意味でも前回の機会学習を含め、今回の講習もとても勉強になりました。」
関口:「数学科出身で大学での専攻が代数幾何(表現論)の傳田さんは数学の教員免許もお持ちとのこと。昨年受講していただいた『Apache Mahout & Spark ではじめる機械学習』の研修では、テキストに出てくる数式を中心に、いろいろご質問をいただき、議論をさせていただきました。私の理解も深まりありがたかったです。」
小林:「機械学習の研修は数式を理解するのに苦労しましたが、今日の OpenNLP の内容はわかりやすかったです。普段何気なく使っている日本語が、以外と扱いが難しいことなどの気づきも得られました。」
関口:「本日はお疲れのところ、お話しをお聞かせいただきありがとうございました。」
第一法規㈱傳田さん(右)、小林さん(左)
第一法規株式会社について
ロンウイット関口:「本日は OpenNLP のトレーニング受講、大変お疲れ様でした。第一法規様はすでに Apache Solr をご利用いただいていることから、何度かお取引をさせていただいております。」第一法規小林:「当社は法規書を中心に、関連する学術書・実務書・雑誌などを出版する出版社ですが、出版業界の急速な IT 化に伴い、情報の検索性や情報提供の迅速性、経済性がお客様から求められています。このため紙媒体による出版に加え、法令関連コンテンツのデジタル化を推進していることから、Solr を利用しています。」
関口:「普段は小林さん、傳田さんをはじめとする商品システム開発部の方たちとお取引をさせていただいておりますので、貴社が出版社であるということを意識することが少ないです。」
第一法規傳田:「明治の創業当初より『加除式書籍』といいまして、ルーズリーフに似た形式で法規書を提供しています。頻繁に改正がある法令情報を、正確・迅速・経済的にお客様に提供できるように、法規書の全体を刷り直すことなく、あたかもルーズリーフのページを追加したり差し替えるのと同じイメージで、改正部分のみを差し替えられるように考えられたビジネスモデルは、事業開始当初より高い評価をいただいています。とはいえ、紙媒体は手にとって確認でき、一覧性に優れますが、場所も取りますし、検索性も考えると、デジタル化は避けられません。もっとも、個人的には書籍は紙媒体で読む方が好みです。」
小林:「検索性に加え、判例や法令、関連する用語解説書籍の相互参照性なども考えると、デジタルコンテンツの利便性はますます高くなります。私も、本を読むときは紙媒体の方が好きなのですが。」
関口:「実は私も紙媒体派です。週末は文庫本を持って丸の内周辺を散歩しています(笑)。」
商品システム開発部の業務
関口:「私も含め、ほとんどの人は普段の生活であまり法律を意識することはないので、法令情報を検索する場面を具体的に思い描くことが難しいと思います。小林さん、傳田さんが所属する商品システム開発部の業務内容を、このような人たち向けにわかりやすく紹介していただけますか。」小林:「第一法規の主要なお客様は、行政機関、弁護士、税理士、公認会計士、企業(総務部・法務部・人事部等)、教育機関、社会福祉法人等、法律に関する情報を実務で利用されている方々なので、確かに法令情報を実務で利用しない方には想像するのが難しいかもしれませんね。」
傳田:「たとえば法律が改正されたとします。すると、『改め文』と呼ばれる表現形式で改正内容が官報に載ります。たとえば、ある国会で成立した雇用保険法等一部改正法の改正規定が、
『第十条第四項第一号を次のように改める。
一 就業促進手当
第十条第四項中第二号を削り、第三号を第二号とし、第四号を第三号とする。』
のような改め文として官報に掲載されたりするわけです。改正後の新しい法令文そのものが掲載されるわけではないので、改め文で表現された『差分』を元の法律に適用することで、改正後の法律の全文を得ることができます。『差分』を元の法律に適用することを、業界用語で『(改め文を)溶け込ませる』という言い方をします。」
関口:「かなり独特ですね。しかし、想像はできます。我々はプログラムの差分を diff コマンドで出力しますがそれが改め文に対応しますし、差分を patch コマンドで適用することが『溶け込ませる』ことに相当しますね。ただし、法律の改め文は日本語で書かれたテキストなので、溶け込ませるには高度な処理が必要そうですが。」
傳田:「第一法規は法律の改め文を元の法律に溶け込ませて新しい法律文を生成したり、新旧の法律文を読み込ませることで、改め文そのものを自動生成したり、法律が新しく制定されたときからの全履歴を管理して、指定された日付の法律を呼び出すことができるシステムを開発・販売しています。私の業務は、その自治体版を開発・運用することです。つまり、自治体が制定する条例について、改め文を溶け込ませたり、改め文を逆生成したり、といったシステムを開発しています。」
小林:「私は、編集部が電子版コンテンツを制作するときに、共通で使える基盤システムの開発に携わっています。たとえば、デジタル媒体で提供する商品・サービスとしては、パソコンやタブレット、スマートフォン(WEBブラウザや動画再生ソフト)での利用を基本として、インターネット接続、USBメモリ、DVDなどがありますが、共通化できるところを見極めて共通基盤化します。また、コンテンツのジャンル、たとえば環境に関するコンテンツと介護に関するコンテンツはジャンルが異なりますが、提供方法が同じなら共通化できます。これにより、開発コストや運用コストを低減することを目指します。」
今後について
関口:「今後取り組みたいことなどがあれば教えてください。」小林:「開発を進めている基盤システムの共通化をよりいっそう進化させたいです。現在は商品がリニューアルしていくときなどに、共通基盤側の影響範囲が大きいなどの問題があります。機能のコンポーネント化をよりいっそう進めることで、プラグインの差し替えで商品のリニューアルに簡単に追随できるようになるはずです。」
傳田:「今回 OpenNLP を受講したので、自分の業務に使えるところがあったら使っていきたいです。改め文や改め文が適用される元の法令や例規集、改め文が適用された後の法律などは自然言語で書かれているので、OpenNLP が適用できるかもしれません。OpenNLP そのものが適用できなくても、NLP の基本的な考え方も知ることができたので、必要に応じて OpenNLP をカスタマイズしたり、必要な NLP ツールを自作したりしたいですね。改め文を溶け込ませる既存システムも完全自動化までには至っていないません。膨大なこれまでの蓄積を教師データにして機械学習モデルを作成し、自動化をよりいっそう進めることを目指したいです。国から出た改正は自治体の条例改正へと波及していくのですが、自動化できるところはまだまだあると思っています。その意味でも前回の機会学習を含め、今回の講習もとても勉強になりました。」
関口:「数学科出身で大学での専攻が代数幾何(表現論)の傳田さんは数学の教員免許もお持ちとのこと。昨年受講していただいた『Apache Mahout & Spark ではじめる機械学習』の研修では、テキストに出てくる数式を中心に、いろいろご質問をいただき、議論をさせていただきました。私の理解も深まりありがたかったです。」
小林:「機械学習の研修は数式を理解するのに苦労しましたが、今日の OpenNLP の内容はわかりやすかったです。普段何気なく使っている日本語が、以外と扱いが難しいことなどの気づきも得られました。」
関口:「本日はお疲れのところ、お話しをお聞かせいただきありがとうございました。」
INFORMATION
KandaSearch
KandaSearch はクラウド型企業向け検索エンジンサービスです。
オープンAPIでカスタマイズが自由にできます。
セミナー
企業が検索エンジンを選定する際のポイントから、
実際の導入デモをお客様ご自身でご体験!