氏名: 竹内 義則 (489634044)

論文題目: アクティブビジョンによる移動物体の追跡とシーンの探索に関する研究


論文概要

本研究の目的と特徴

本研究では,近年さかんに研究が行われているアクティブビジョンの分野の中で, 移動物体の追跡とシーンの探索を実現する.まず,移動物体の追跡では,人間の 移動物体追跡時に観測される眼球運動のsaccadeとpursuitに基づいて,移動物体 の位置と速度を,NTSCの1フレームに相当する33ms以内で計算する手法を,汎用 画像処理装置上に実現する.さらに,人間の予測制御の機能を簡単にモデル化し, 運動が規則的で予測可能な移動物体を遅れ時間ゼロで追跡する手法を実現する. このように,人間の視覚的追跡機能に基づいていることが,本システムの特徴で ある.

つぎに,シーンから得られる情報量を定義し,情報量の大きい部分を注視するシ ステムを実現する.従来のシステムでは,シーンの注目領域を表すsaliency mapをヒューリスティックに決定していた.その代わりに,本システムでは,情 報理論に基づいたinformation mapを用いている.このように,情報理論を基礎 にしている点が,本システムの特徴であるといえる.

移動物体の追跡システムは,防犯装置やテレビジョン放送の分野で幅広い応用が 考えられる.また,シーン内の情報量の大きい部分を注視するシステムは,距離 の離れた,あるいは,危険な場所で働くロボットの視覚として有用である.また, 背景テクスチャの撮影など,コンピュータビジョンだけでなくコンピュータグラ フィクスの分野にも応用が考えられる.

人間の視覚情報処理

人間の眼球は,視野の中心に対応する網膜上の中心窩と呼ばれる部分で高解像度 を持ち,周辺に行くにしたがって解像度が低下している.人間の有効視野は視角 にして約10degであり,視野の周辺では,視力が低いかわりに広い範囲をとらえ ることができ,周囲の状況把握をして危険回避をしたり,移動物体をとらえたり する時に役立つ.その結果,人間の視覚は,広い視野範囲をもつと同時に,視野 の中心で詳細な観察を行なうことができる.

人間の視覚が不均一な解像度を持っているため,人間がシーンを観測する時,高 解像度の中心視野を有効に活用するために注視位置を移動し,シーンから必要な 部分を順に選択し詳細な観測を行なう.このとき視点の移動は,興味のある対象 に向けられると言われている.また,被験者に与えられた観察のタスクによって, 注視点の分布が変化することも知られている.さらに,被験者は,観察シーン中 の情報量の大きい部分を注視することも知られている.

人間の視覚は色,視差,動きといったさまざまな特徴を統合し,眼球を回転する ことによって,環境と相互作用し,環境の認識などのタスクを達成している.ア クティブビジョンの重要な問題点の一つに,どの部分に注視点を移動するかとい うことが挙げられる.本研究では,まず,移動物体に着目し,移動物体の追跡機 能を実現する.さらに,静止したシーンにおいて,定量的な尺度であるシーンの 情報量を提案し,情報量の大きい部分を選択し,注視するシステムを実現する.

移動物体の追跡システム

本研究では,現在の技術水準で,実環境,実時間で動作可能なシステムの構築を めざす.そのために,まず,実時間で動作させるために汎用画像処理装置を用い て画像処理を高速化し,高速な移動物体への追従を行なうために高速なパン・チ ルトステージを用いる.さらに,予測制御を用いて,規則的な運動を遅れ時間な しで追跡する手法を実現する.

実現したシステムを評価するため,実環境で追跡実験を行なった.図1に,人間 を追跡した結果を示す.その結果,移動物体を視野から見失うことなく追跡が成 功した.また,予測制御を用いて遅れのない追跡を行なう実験を行なった.移動 物体は,小型の電動模型自動車を用い,軌道レールに沿って走らせることによっ て,運動を規則的にすることができる.図2に,その追跡結果を示す.図中,赤 線は,移動物体の位置を表し,青線は,カメラの位置を表す.規則的な運動をす る移動物体は,予測制御を行なうことで遅れのない追跡が可能である.

図1 歩いている人間の追跡結果

図2 規則的な運動の追跡結果

システムを性能の面から評価すると,システムは実環境を移動する1つの不特定 の物体を追跡することができる.実験から200deg/sの速度までの物体を追跡する ことができることを示した.また,移動物体が1フレームの時間(33ms)に1ピクセ ル以上移動すると,その物体を検出することができることから,移動物体の検出 可能な最低速度は,2.4deg/sである.

シーンの探索システム

アクティブビジョンの工学的研究では,色,線の方向といった低次の特徴から, saliency map,すなわち,各特徴の注目点を統合したマップを構成し,そのマッ プにしたがって注視点を移動させている.しかし,特徴を抽出するとき,ヒュー リスティックに特徴量を計算していた.例えば,画像の目立つ部分として,赤や 黄色の部分や,高い空間周波数をもつ部分を抽出していた.

そこで本研究では,特徴に理論的な裏付けを与えるため,シャノンの情報量によっ て,特徴を定量的に表現する手法を提案した.その情報量をさまざまな画像につ いて計算し,その特徴について考察した.その結果,シーンに多くの物体が含ま れると情報量が大きくなる傾向があることがわかった.さらに,特徴間の確率的 な従属性として存在する相互情報量についても実験により考察した.その結果, グラデーションのように複数の特徴が従属しているときに,相互情報量が大きく なる傾向にあることがわかった.

提案した情報量を用い,シーンの情報量の大きい部分を注視するシステムを実現 した.システムは,入力された画像を部分領域に分割し,その領域ごとの情報量 を計算し,情報量マップを作成する.これは,シーンのどの部分にどれくらいの 情報量が含まれているかを示す.システムは,情報量マップの大きい順番に,そ の部分をズームによって拡大して探索する.探索によって得られた画像は,解像 度を調節して,1枚の画像に合成される.

屋外,屋内のシーンを対象にし,明度,彩度,色相の情報量を切り換えて実験を 行った.図3に 屋内のシーンで明度の情報量を用いて合成した画像を示す.実験 結果から,システムは,シーンのより複雑な部分を選択的に注視し,システムが 扱う情報量を変更することによって,システムに異なったふるまいを持たせるこ とができることを示した.また,明度の情報量の場合,人間の視覚探索でのふる まいとある程度相関があることがわかった.

図3 合成結果(明度の情報量を使用)


目次に戻る


asakura@nuie.nagoya-u.ac.jp