氏名: 小川 泰弘 (489734030)

論文題目: 派生文法に基づく日本語処理とその応用に関する研究


論文概要

自然言語処理システムを実現する際,日本語のように分かち書きされていない言語では,形態素解析処理が重要な役割を果たす. そのため,これまでに数多くの形態素解析システムが報告されているが,そうしたシステムの多くは,学校文法に基づいて形態素文法を記述している. 学校文法は広く知られた文法であるが,用言と助動詞の語形変化を活用という概念で表現しており,その活用規則は複雑である. 例えば「書カセタガリマスマイ」のような文を解析する際には,動詞と助動詞の複雑な活用および接続規則を調べなくてはならなかった. そのため,学校文法に基づいた日本語形態素解析システムにおいては,活用処理のための複雑なルールやアルゴリズムが必要であった.

それに対して,本研究では,日本語は活用していないとする派生文法を用いることにより,動詞の語形変化を単純な規則で取り扱う日本語処理を提案する. 派生文法は,日本語が膠着語である点に着目しており,動詞の語形変化を語幹と接尾辞の接続として説明する. その結果,助動詞を含めた動詞句全体の語形変化を体系的に記述することに成功しており,先程の文も kak-sase-ita-gar-imas-umai のように,単純な形で解析できる. また,膠着語の性質に着目していることから,派生文法は日本語だけでなく他の膠着語の記述にも適用可能である.

本研究では,日本語の膠着語としての特徴を利用した自然言語処理として,まず,派生文法に基づく形態素解析システムを提案する. 本研究では派生文法を音韻論的手法のまま利用し,動詞の異形態の登録を原則的に不要としている. ただし,音便形に対しては,少数の異形態の登録および音素の補完という例外処理を導入する. その結果,従来の手法と比較して以下の特長をもつシステムとなった.

  1. 動詞の語形変化に対する処理が単純である
  2. 品詞の種類が少数であり,形態素文法が単純である
  3. 辞書登録する単語が比較的少数ですむ
  4. 口語的表現への対処が容易である
この手法を計算機上に実現した形態素解析システムMAJO (Morphological Analyzer of Japanese based On derivational grammar) は, EDRコーパス1,000文を使用した実験において, 98.1%の形態素に正しい品詞を付与できた. これは,従来の形態素解析システムに匹敵する解析精度である.


図1.日本語--ウイグル語機械翻訳システムとその動作例

第二に,派生文法に基づく日本語--ウイグル語機械翻訳を提案する. ウイグル語は日本語と同じ膠着語であり,語順がほぼ同じであるなど構文的類似性が高い. そのため,形態素解析した結果をそのまま逐語訳するだけで,ある程度の翻訳が可能となるが,その際に日本語における活用の取り扱いが問題となる. そこで,本研究では派生文法を用いることにより,日本語の活用処理を必要としない日本語--ウイグル語機械翻訳を実現した. 本研究では,原言語である日本語と目標言語であるウイグル語の双方を派生文法で記述することにより,両言語間の形態論的類似性を明らかにし,単純でかつ精度の高い機械翻訳を実現した. 特に,動詞句の翻訳においては,複数の接尾辞からなる複雑な動詞句に対しても,語幹と接尾辞をそれぞれ対応する訳語に置き換えることで翻訳可能である.

しかし,日本語とウイグル語には,同じ意味役割を果していても,互いに品詞の異なる単語が存在する. そのため,それらの単語の翻訳においては,単純に置き換えただけでは不自然な翻訳文が生成される. そこで,本研究では,逐語訳による翻訳結果に対して,ウイグル語単語の接続情報を用い,不自然な並びとなる単語列を他の訳語に置き換える後処理を施すことによって,より自然なウイグル語文を生成可能とした. さらに,前述の形態素解析システムMAJOを利用して図1に示す日本語--ウイグル語機械翻訳システムを作成した. MAJOの辞書は,本来,日本語単語とその品詞および意味情報の3項組で構成されているが,本システムでは,意味情報の代わりにウイグル語訳語を与え,日本語--ウイグル語対訳辞書として利用した. その結果,MAJOの出力は,そのまま日本語からウイグル語への逐語訳となっている. さらに,このMAJOの出力に前述の訳語置換を適用するモジュール,および,ウイグル語特有の性質に合わせて,最終的な出力文を整形するモジュールをそれぞれ作成した. このように,機械翻訳システムを独立のモジュールから構成する設計としたが,これにより派生文法で記述された他の膠着語との間の機械翻訳システムの実現にも応用可能であると考えられる. また,本システムで日本語138文に出現した動詞句282個を翻訳したところ, そのうちの69.9%を正しいウイグル語に翻訳できた.


目次に戻る


asakura@nuie.nagoya-u.ac.jp