氏名: 甲斐斉 (280034105)

論文題目: ブロックソート法に基づく日本語テキスト圧縮の効率化


論文概要

 近年、様々な形で伝送・蓄積されるべきディジタルデータ量は急激に増大してきている。データ量が増加するに従って、伝送・蓄積のコストは増加するが、データ圧縮により、その増加を軽減することが可能である。データ圧縮とは入力ストリームをより小さなサイズをもつ別のデータストリームに変換するプロセスをいう。

 本研究は日本語テキストの圧縮を目的とする。ウェブのブラウズや、メールの送受信、保存等において我々が主に利用するのは日本語文である。それゆえ、日本語テキストが圧縮されれば、データの伝送時間が短縮され、保存に必要な容量も小さくなる。また、近年注目されている電子図書館においてもデータ圧縮は欠かせないものとなっている。

 これまでテキスト圧縮については、Ziv、Lempelらが提案したLZ法に基づいた圧縮法が盛んに研究されてきた。LZ法は文字列に対して圧縮を行うことができ、LZ法自身による圧縮後に、ハフマン法により圧縮することでさらに圧縮することができる。日本語に特化した圧縮法では、電子図書館等での利用を考慮した高速検索法に関した研究が多くなされているが、高い圧縮率を持つとはいえない。近年提案され、注目されているのがブロックソート(Burrows-Wheeler Transform:BWT)法である。この手法は圧縮限界のエントロピー(理論的限界圧縮率)付近までデータを圧縮できる特徴を持ち、既存の圧縮手法に比べて圧縮率が高いことから注目され、研究が盛んに行われている。

 本研究ではブロックソート法を利用し、日本語テキストに対して高圧縮率化を目指した新たな手法を提案する。提案手法では、漢字仮名交じりの文を全て平仮名文に変換する前処理を加える。漢字辞書における変換番号にあたる索引を付加することで元テキストへの復元が可能である。そのため、漢字の読みからその漢字への変換に利用する辞書順索引は一意でなければならない。前処理はブロックソート法の中で用いる Move-to-Front(MTF) 変換の最近出現した記号ほど短く表現できるという性質に着目したものである。前処理後のバイト数は増加してしまうが、使用するアルファベット数が大幅に減少するため、ブロックソート後に文脈が偏りやすく、さらに、MTF で低いランクが割当てられる確率を上げることで結果としてより小さなサイズに圧縮できると考えられる。実験の結果、前処理なしの圧縮サイズに対して約2%の圧縮率の向上がみられた。この手法は、テキストデータが膨大に蓄積される電子図書館のような環境に有効だと考えられる。


目次に戻る


提出時刻:2002/02/08 17:20:27