氏名: 牛尼 剛聡 (489634010)

論文題目: 利用者の視点に基づいたシーン検索を実現する動画像データベース・システムに関する研究


論文概要

動画像は対象世界の動的な側面を直観的にわかりやすく表現可能であるため,対象世界における活動の伝達,記録,分析等を目的として,さまざまな分野で利用されている.近年,計算機上で大量の動画像を効率的に管理し,効果的に利用する要求が高まり,動画像データベース・システムに関する研究が活発化している.動画像は静止画像(フレーム)の時系列データであり,利用者が興味のある事柄(意味的なまとまり)を表現するフレーム部分系列はシーンと呼ばれる.動画像を利用する際には,動画像全体ではなく,特定のシーンを必要とする場合が多いため,動画像データベース・システムには,シーン検索機構の提供が期待される.

従来のシーン検索手法では,検索対象となるシーンに対して直接キーワード等の属性をインデックスとして付加する.すなわち,これらのアプローチでは,動画像内容の動的な側面における意味的なまとまりを個別的なモノとしてモデル化し,それを動画像中のシーン(時間区間)に対応づける.対象世界を個別的なモノの集まりとしてモデル化するアプローチは,ERモデルをはじめとする意味データモデルやオブジェクト指向データモデル等,従来型のデータベース・システムのデータモデルに広く採用されてきた.従来型のデータベース・システムでは対象世界の静的な側面(スナップショット)に着目する場合が多く,対象世界上の実体をモノとして自然にモデル化可能であるため,このアプローチは有効である.しかし,動画像データベース・システムでは,動画像が表現する対象世界の動的な活動に着目する必要がある.しかし,動的な活動は連続的かつ多重的であるために,利用者の視点に基づいて動画像中にさまざまなシーンを想定することができ,客観的な個別化が困難である.したがって,上記のアプローチに基づくデータモデルでは,利用者の視点を反映したシーン検索の実現が困難であった.

我々は,上記の問題に対処可能な動画像データモデルとして,イベント‐アクティビティ・モデルを開発した.本モデルでは,対象世界上で継続時間のある活動と継続時間のない出来事(変化)とを明確に区別し,活動をあらかじめ個別化せず,出来事の系列として活動を捉えるアプローチに基づいている.このアプローチでは,動的な活動をあらかじめ個別化しておく必要はなく,利用者の視点に基づいて多種多様な活動を出来事の系列パターンに基づいて動的に構成可能である.たとえば,野球の試合を記録した動画像では,「投手がボールを投げる」,「打者がボールを打つ」,「ボールが外野スタンドに入る」等の出来事を考えることができ,「投手がボールを投げる」→「打者がボールを打つ」→「ボールが外野スタンドに入る」という出来事の系列は活動「ホームランを打つ」を表している.

イベント‐アクティビティ・モデルでは,動画像に記録された対象世界上の出来事をイベントとしてモデル化する.それぞれのイベントは,イベント型のインスタンスとして生成され,そのイベントが表す出来事に関する実体を引数として持つ.実体は実体型のインスタンスとして生成され,文字列として表現される.動画像の内容はコンテクストと呼ばれるイベント系列として表現される.このとき,動画像中の継続時間のある活動は,コンテクストの部分系列として表現され,アクティビティと呼ばれるイベントの系列パターンによって指定可能である.アクティビティはイベント集合をあらわすイベントパターンの正則表現として定義される.コンテクストを構成する個々のイベントをフレームに対応付けることにより,利用者はシーンに対する検索要求をアクティビティとして表現可能となる.コンテクストとして許されるイベントの並びはイベント・スキーマと呼ばれるアクティビティによって指定することができ,利用者はコンテクストの構造を確認することができる.

本手法では以下に示す利用者の視点の相違に対処することができる.

着目する実体の相違
動画像は対象世界上の複数の実体を表現可能であるが,利用者は目的に応じて,特定の実体に着目し,他の実体を無視する.したがって,同一の動画像であっても,着目する実体が異なれば,利用者が動画像中に想定するシーンは異なる.本手法では,コンテクスト中の特定の実体に関するイベントのみを対象として動画像の内容を捉えることができるため,興味のある実体に関するシーンを検索可能である.
活動の複合レベル(部分/全体レベル)の相違
シーンが対象世界上の活動を表しているとき,活動を構成する更に細かい活動を考えることができる.例えば,野球中継におけるホームランのシーンは,投手が投球するシーン,打者がボールを打つシーン等を含む.本手法では,コンテクストの部分系列seqが表す活動を構成するさらに細かい活動は,seqの部分系列として表現可能である.したがって,さまざまな複合レベルの活動を表すシーンを検索可能である.
活動を捉える概念レベル(汎化/特化レベル)の相違
シーンが対象世界上の活動を表しているとき,同一の活動を複数の異なる概念レベルから捉えることができる.例えば,野球中継におけるホームランのシーンは,ヒットのシーンと考えることもできる.本手法では,シーンはコンテクスト上の開始イベントと終了イベントによって一意に同定されるが,コンテクスト上には開始イベントと終了イベントが同一であるイベント部分系列が複数存在する.これらのイベント部分系列はそれぞれ異なる概念を表現していると考えることができるため,さまざまな概念レベルから捉えた活動を表すシーンを検索可能である.
実体を分類するカテゴリの相違
実体は利用者の視点に基づいて複数のカテゴリに分類することができる.本手法では,対象世界上の時間経過にしたがって変化する実体の分類を表すために役割の概念を導入し,役割に基づいてイベントを照合する.さらに,動画像のコンテクストに基づいて実体の役割を決定するための知識を状態遷移図で表現し,それぞれの時刻においてその役割を自動的に決定可能である.
また,イベント‐アクティビテイ・モデルに基づく動画像データベース・システムSTRIKE(Stream data Retrieval system based on Indexing with Key Events)を試作し,本手法の有効性を確認した.

目次に戻る


asakura@nuie.nagoya-u.ac.jp