佐藤慎哉 (280134118)

論文題目:Webページ中のテキストと表の主題推定


論文概要

[背景・目的]
 近年、日々増加する膨大な情報源の中から必要な情報をすばやく見つけることが困難になってきている。そのため多くの検索エンジンには、必要な情報をすばやく見つけるために多くの工夫がされている。それらは、キーワードを含む文を提示したり、2次キーワードを用いて検索結果を絞り込んだりするものである。確かに、キーワード情報は情報検索をする上でユーザに大変有益な情報を与える。しかし、低品質な情報があふれているwebページの検索ではあまり参考にならないことも多い。あるキーワードが含まれているからといって必ずしもそれに関連した内容のページであるとは限らない。そこで、webページに書かれている内容をキーワードに関連のある情報とともに提示できれば、より効率のよい検索ができると考えられる。そこで本稿では、webページ中のテキストや表の主題を推定する手法について述べる。

[提案手法]
テキストからの重要個所抽出

 まず始めにテキスト中に現れる名詞の出現頻度を求める。次に各名詞の上位概念の出現頻度を各名詞の出現頻度と単語間の類似度を考慮して求める。そして、各名詞の上位概念の出現頻度と助詞などの表層情報をもとにテキスト要素中の名詞句の評価値を求め、評価値の高い複数の名詞句を抜き出す。最後に、テキスト要素に見出しが付いていればその見出しと抽出された名詞句との類似度を求め、類似していたら見出しを、類似していなければ抽出した名詞句をテキスト要素の主題とする。

表からの主題推定

 一般に、表には表中のセルの説明として「何を比較しているか」という情報(比較対象)と「何について比較しているか」という情報(比較要素)がそれぞれ表の1行目または1列目に書かれている。そして、比較対象はその表の見出しに関係があると考えられ、 比較要素はその表の具体的な内容を知る上で非常に重要な情報であると考えられる。そこで本手法では、まず、表の比較対象に出てくる高頻出語と表に付けられた見だしから表のタイトルを評価・推定する。続いて、表の各行または列に含まれる高頻出語から比較要素を評価・推定し、得られた表のタイトルと比較要素をその表の主題とする。

[実験]
 テキストからの重要個所抽出の評価実験にあたり、日本人大学生12名にwebページ中の30個所のテキストに対して内容を最も反映している個所を選んでもらった。その結果、本手法では83%のテキストから被験者と同じ個所が抽出できた。 表からの主題推定の評価実験にはwebページ中の表40個を使用した。表の主題の推定は「何を比較しているか」と「何について比較しているか」が主題に反映されている場合を正解とし、筆者自身が正誤を判定したところ、68%の正答率が得られた。