氏名: 黄小鴎 (m06757)

論文題目: 名刺文書理解における文書知識の自動獲得に関する研究


論文概要

さまざまな印刷文書から有意な情報を自動的に抽出する文書理解システムには書式構造 に関する知識情報が必要である。今までのほとんどの研究は書式構造知識を 外部から定義・記述し、文書理解システムに与える方法に基づいていたが、書 式構造知識が対象に強く依存するため、実用レベルに供用するにはシステム自 身が自動的に書式構造知識を獲得することが重要になっている。本稿では、名 刺文書理解における文書知識の自動獲得について述べる。われわれが名刺の論 理構造をメタ知識とし、名刺の論理情報を構成する各項目データの物理的、論 理的な制約情報を利用してレイアウト構造知識を抽出する方法を提案する。我々 のシステムは構造分解処理、構造抽出処理、構造決定処理から構成される。 構造分解は物理的な情報を抽出する処理である。構造抽出処理は名刺文書画像 を分割オペレータで分割し、分割された各領域を統合ルールにより統合する処 理である。 分割、統合処理で得られた領域関係情報を構造記述木で記述する。構造決定処 理は構造記述木各終端領域が判定ルールで解釈し、論理オブジェクトのどれに 対応するかを決定する。数種類の名刺を実験した結果、本手法は正確かつ自動的 に名刺の論理構造からレイアウト構造知識を抽出でき、有効であることが分か る。
目次に戻る