コーパスという言葉をご存知でしょうか。NHKの語学講座番組のタイトルとして聞いたことがある、という方もいるかもしれません。コーパスは本来、言語研究のために集められたデータベースです。今回はそんなコーパスが最新のAI(人工知能)開発にも活用されていることをご紹介します。

コーパスとは?

コーパスとは言語研究のために集められた言語資料のことです。ここでの資料とは、書籍や雑誌、法律の文書、新聞記事の読み上げなど自然言語として参照可能な極めて多岐にわたるテキストや音声データなどを指します。これらをデータベースとして統計的に活用し、言語の仕組みを明らかにする分野がコーパス言語学です。この分野の研究成果として、我々が普段使っている言葉は、ほとんどの場合一定のフレーズを組み合わせたものであることがわかってきており、ここから外国語学習にも応用されています。
また、コーパスそのものはデータベースでありそれを検索し分析を進めるものであるという特性上、早い段階からコンピュータとの結びつきを持ってきました。現在ではコーパスというとほとんどの場合、電子的に集積されたデータベースのことを指すようになっています。

AIの研究に活用されるコーパス

こうしたコーパスですが、最近ではAI(人工知能)の文脈でよく聞くようになりました。もともと「大量のデータから優位な組み合わせを抜き出すことで自然言語の仕組みを明らかにする」というコーパスの性格はAIの持つ学習機能と近く、AIが言語を「習得」するのに好都合なのです。
特に一般的にも知られているのがIBMのWatsonでしょう。これは自然言語を理解し質疑応答ができるシステムで(IBMはさまざまな機能を備えたこのシステムについてあえて「人工知能」という表現はしていません)、2011年にアメリカのクイズ番組で人間のチャンピオンに勝ったことで一躍その名が知られるようになりました。

多くの分野での試みのなかでも、特に医療関連でのめざましい進歩が報告されています。Watsonは「1秒に8億ページ」という人間を遥かに凌駕したスピードで膨大な量の医療情報や文献を読み込むことで、患者さんが伝えた症状から病名を特定したり、絞り込むために追加の質問をしたりすることができるようになっているのです。

この質疑応答を可能にしているキーが、まさにコーパスなのです。Watsonは与えられた専用のコーパスを言語資源として自律的に学習し、相手が発した言葉の意味を分類・検索・ランクづけなどによって認識、さらに相手に応じた最適な返答をするようにできています。

今後も企業のカスタマーサポートのような窓口業務をはじめとしたさまざまな用途での活用が期待されていますが、どのようなコーパスを与えるかがその分野でのWatsonの力を引き出す鍵となります。裏を返せば、汎用的なWatsonというものは存在せず、常にカスタマイズされたコーパスによってその分野独自の単語や意味、会話のパターンを個別に学習する必要があるということなのです。活用を考える企業から見ると、Watsonによるサービスを他社と差別化することはコーパスの選定・作成に直結してくると言うことができるでしょう。

新聞記事のデータベースもコーパスとして活用可能

日進月歩で進むAIの研究・開発を背景として、コーパスが利用される場面はこれまでにないほどに多くなっています。特に、日本では2020年に行われる東京オリンピックに向けて、海外からの訪問者を想定したリアルタイム翻訳サービスの開発が進んでおり、最初のステップとして対訳コーパスデータベースの構築が挙がっています。もちろん、そうは言ってもコーパスの構築は一朝一夕にできるものではなく、公開されている既存のデータベースを活用するのもひとつの手でしょう。以下に具体例を挙げます。

日本語話し言葉コーパス (国立国語研究所)

国立国語研究所が情報通信研究機構、東京工業大学と共同開発した膨大な自発音声を集積したコーパスが公開されています。同研究所によれば、音声言語情報処理や辞書編纂といった言語学だけでなく心理学や社会学といった分野でも広く活用されている、質・量ともに世界最高水準のコーパスです。オンライン版は無償、商業利用の場合は個別相談によって利用することができます。

言語資源カタログ (言語資源協会)

特に2000年代に入ってからコーパス言語学はICT分野での重要性がより注目されるようになりましたが、特定非営利活動法人・言語資源協会はそうした折に言語資源の流通性をより高めるために設立された団体です。専門団体として多岐にわたるコーパスの情報や利用ツールを提供しています。ここでは日本人英語学習者のエッセイデータや岩波国語辞典データをもとにしたコーパスのほか、賛助会員からの公開言語資源の情報も入手できます。内容としては音声データ、レキシコン、テキストコーパスなどが含まれます。

読売新聞記事データ (株式会社ジー・サーチ)

データベースの専門会社が提供する新聞記事の集積データを言語資源コーパスとして活用するというのも、ユニークなアイデアです。コーパス構築が容易な作業でないことは、膨大なデータを収集するだけではなく、それらの著作権をクリアにする必要があることにも起因します。ここで紹介しているものは研究・開発目的での利用許諾がなされており、個々の記事に関しての煩雑な手続きを省くことができます。2016年版までで約30年分のデータが集積されており、日本語だけではなく英字新聞のデータも利用可能です。アカデミック向けパッケージも用意されており、使い勝手のいいサービスといえそうです。

データベースサービスの活用はAI開発向けのコーパスにも有効

言語の仕組みをデータ解析によって明らかにする手法から、これまでは学習者向けの活用が議論されてきたコーパス。それが現在ではAIの言語学習に役立てられているのです。ビジネス用途で使われることの多いデータベース検索サービスは、こうした研究からは一見遠いように感じますが、コーパスという情報の性格上、専門のサービスを活用する利点も十分にあるといえるでしょう。

AI学習などの為に大量の言語資源コーパスをお探しの方へ
読売新聞記事データのご案内
「読売新聞記事データ」は、開発や分析など学術研究に利用できる言語資源コーパスです。読売新聞社が作成した1987年から現在(2016年版)までの、邦文・英文の新聞記事データを提供します。
記事本文データのほか、記事分類コードやキーワードが付与されており、AI学習などの大量の言語資源コーパスや分析に使いやすいデータです。

参考