動画像は対象世界の動的な側面を直観的にわかりやすく表現可能であるため,対象世界における活動の伝達,記録,分析等を目的として,さまざまな分野で利用されている.近年,計算機上で大量の動画像を効率的に管理し,効果的に利用する要求が高まり,動画像データベース・システムに関する研究が活発化している.動画像は静止画像(フレーム)の時系列データであり,利用者が興味のある事柄(意味的なまとまり)を表現するフレーム部分系列はシーンと呼ばれる.動画像を利用する際には,動画像全体ではなく,特定のシーンを必要とする場合が多いため,動画像データベース・システムには,シーン検索機構の提供が期待される.
従来のシーン検索手法では,検索対象となるシーンに対して直接キーワード等の属性をインデックスとして付加する.すなわち,これらのアプローチでは,動画像内容の動的な側面における意味的なまとまりを個別的なモノとしてモデル化し,それを動画像中のシーン(時間区間)に対応づける.対象世界を個別的なモノの集まりとしてモデル化するアプローチは,ERモデルをはじめとする意味データモデルやオブジェクト指向データモデル等,従来型のデータベース・システムのデータモデルに広く採用されてきた.従来型のデータベース・システムでは対象世界の静的な側面(スナップショット)に着目する場合が多く,対象世界上の実体をモノとして自然にモデル化可能であるため,このアプローチは有効である.しかし,動画像データベース・システムでは,動画像が表現する対象世界の動的な活動に着目する必要がある.しかし,動的な活動は連続的かつ多重的であるために,利用者の視点に基づいて動画像中にさまざまなシーンを想定することができ,客観的な個別化が困難である.したがって,上記のアプローチに基づくデータモデルでは,利用者の視点を反映したシーン検索の実現が困難であった.
我々は,上記の問題に対処可能な動画像データモデルとして,イベント‐アクティビティ・モデルを開発した.本モデルでは,対象世界上で継続時間のある活動と継続時間のない出来事(変化)とを明確に区別し,活動をあらかじめ個別化せず,出来事の系列として活動を捉えるアプローチに基づいている.このアプローチでは,動的な活動をあらかじめ個別化しておく必要はなく,利用者の視点に基づいて多種多様な活動を出来事の系列パターンに基づいて動的に構成可能である.たとえば,野球の試合を記録した動画像では,「投手がボールを投げる」,「打者がボールを打つ」,「ボールが外野スタンドに入る」等の出来事を考えることができ,「投手がボールを投げる」→「打者がボールを打つ」→「ボールが外野スタンドに入る」という出来事の系列は活動「ホームランを打つ」を表している.
イベント‐アクティビティ・モデルでは,動画像に記録された対象世界上の出来事をイベントとしてモデル化する.それぞれのイベントは,イベント型のインスタンスとして生成され,そのイベントが表す出来事に関する実体を引数として持つ.実体は実体型のインスタンスとして生成され,文字列として表現される.動画像の内容はコンテクストと呼ばれるイベント系列として表現される.このとき,動画像中の継続時間のある活動は,コンテクストの部分系列として表現され,アクティビティと呼ばれるイベントの系列パターンによって指定可能である.アクティビティはイベント集合をあらわすイベントパターンの正則表現として定義される.コンテクストを構成する個々のイベントをフレームに対応付けることにより,利用者はシーンに対する検索要求をアクティビティとして表現可能となる.コンテクストとして許されるイベントの並びはイベント・スキーマと呼ばれるアクティビティによって指定することができ,利用者はコンテクストの構造を確認することができる.
本手法では以下に示す利用者の視点の相違に対処することができる.