我々は, 日本語-ウイグル語機械翻訳システム の研究を進めている. このシステムは, 日本語文に対する形態素解析結果を逐語訳す ることを基本としているが, 形態素解析に用 いる辞書の単語数(約25万語)に比べ, 対 訳辞書の単語数(約1.4万語)が少ないため に, 形態素解析はできても, 翻訳ができない 事例がしばしば見られる.
そこで, 本研究では, ウイグル語対訳を持たない日本語 単語に対して, これに類似する対訳を持つ日本語単語を求め, 同じ対訳を与えることで, 対訳辞書の拡張を行う.
指標とする単語間の類似度は, 解析済み日本 語コーパスから取り出した, 名詞と動詞の表層 共起情報を用いて算出した. これに基づき, 名詞及び動詞各々について, 類似度上位100単語を人手によって評価した結果, 名詞60単語, 動詞59単語が 訳語として許容できるものであった.