教育とITC Online

ホーム > 教育とICT > 一覧

インタビュー

2010年1月26日

「人知の限界」を補う 一億語の日本語データベース

前川喜久雄 国立国語研究所 言語資源研究系 系長・教授

八木 玲子=日経パソコン

印刷ページ
  • このエントリーをはてなブックマークに追加
  • Clip to Evernote
  • mixiチェック
「あとで読む」機能の使い方
出典:日経パソコン 2009年11月23日号(執筆時の情報に基づいており、現在では異なる場合があります)
まえかわ・きくお:1956年京都生まれ、上智大学大学院博士後期課程中退。鳥取大学講師、国立国語研究所研究員等を経て現職。明治時代以降の日本語をデータベース化する「KOTONOHA」計画を推進。その一部として「現代日本語書き言葉均衡コーパス」を構築中。文部科学省科学研究費特定領域研究「日本語コーパス」領域代表者。著書/共著に、『岩波講座 言語の科学 2 音声』(岩波書店、1998年)、『The Oxford Handbook of Japanese Linguistics』(Oxford University Press、2008年)などがある(撮影:皆木 優子)
画像のクリックで拡大表示
コーパスには、新聞、雑誌、書籍、白書、Web上の文書など多様な文章を収録する。その一部は、Webサイトで公開中。誰でも無料で試用できる
画像のクリックで拡大表示
コーパスを調べれば、ITの普及に伴って漢字が多く使われるようになっていることも分かる。コーパスのデータのうち、書籍、新聞、白書、ベストセラーを対象に、「きれい」という語の表記を調べた結果。手書きするのが難しい「綺麗」が増えている
画像のクリックで拡大表示
コーパスの作成作業には約30人のスタッフが従事し、そのうち5〜6人が著作権処理に当たる。膨大な著作物の中からランダムに文章を抽出し、1件ずつ著作権者に連絡を取って許可を求める。非常に手間のかかる作業だ
画像のクリックで拡大表示
作業部屋の本棚には、作業対象の書籍がぎっしり
画像のクリックで拡大表示
著作権者とやり取りする書類を管理するためのファイルも数万件分並び、その量に圧倒される
画像のクリックで拡大表示

 「そびえる」という動詞がある。この語は常に「そびえている」という形で、状態を表すのに使う──かの金田一春彦氏は、後の日本語学に多大な影響を与えた有名な論文でこう書いた。

 だが、これは正しくない。前川氏が構築中の「現代日本語書き言葉均衡コーパス」を調べれば、“山がそびえる”のような用例がすぐ見つかる。「あれほどの天才でも、すべての日本語を知っているわけではない。人知には限界がある」。だからこそコーパスが必要なのだ、と前川氏は言う。

 コーパスとは、大規模な言語データベースのこと。前川氏は2006年から、過去30年間の日本語を対象にした1億語規模のコーパスの構築に取り組む。現在8000万語ほどを収集済みで、2011年に完成予定だ。「言葉は常に変化するもので、全体像が把握されたことは過去にない。ITやストレージの発展で、初めて可能になってきた」。インターネットの普及により、日記など私的な書き言葉が表に出るようにもなった。

 言語の全体像をつかむには、コーパスがその言語の「正しい縮図」である必要がある。そこで、統計調査の手法で膨大な著作物から文章をランダムに抽出する。著作権者に1件ずつ連絡し、許可を取る作業も必要だ。その数、およそ3万件。「これほどの手間をかけてコーパスを作っている例は、世界中にない」と胸を張る。

 今後の日本語について、前川氏は“規範性”が重要になるとみる。例えば何を「単語」とするか、今は厳密な規定がない。単語の単位が異なると文章の区切りが変わるため、情報検索の精度が落ちる。検索が社会インフラの一部を担う現代では重大な問題だ。「従来は専門家による物好きな議論だと片付けられたが、これからは経済的な利益があるものとして規範が論じられるのでは」。ITの発展は、日本語に新たな課題を突き付けている。



■変更履歴
上から4つめの図の説明文で、コーパス作成に従事するスタッフの人数を、より正確な記述に改めました。[2010/2/16 12:30]


もっと詳しく

記事は執筆時の情報に基づいており、現在では異なる場合があります。
印刷ページ

「インタビュー」の記事一覧(新着順)

関連記事

キーワード

言語データベース
ホーム > 教育とICT > 一覧  

ショッピング

最新刊のご案内