Thesis Abstract: 489634044

氏名: 竹内義則 (489634044)

論文題目: アクティブビジョンによる移動物体の追跡とシーンの探索に関する研究

論文概要

本研究の目的と特徴

本研究では，近年さかんに研究が行われているアクティブビジョンの分野の中で，移動物体の追跡とシーンの探索を実現する．まず，移動物体の追跡では，人間の移動物体追跡時に観測される眼球運動のsaccadeとpursuitに基づいて，移動物体の位置と速度を，NTSCの1フレームに相当する33ms以内で計算する手法を，汎用画像処理装置上に実現する．さらに，人間の予測制御の機能を簡単にモデル化し，運動が規則的で予測可能な移動物体を遅れ時間ゼロで追跡する手法を実現する．このように，人間の視覚的追跡機能に基づいていることが，本システムの特徴である．

つぎに，シーンから得られる情報量を定義し，情報量の大きい部分を注視するシステムを実現する．従来のシステムでは，シーンの注目領域を表すsaliency mapをヒューリスティックに決定していた．その代わりに，本システムでは，情報理論に基づいたinformation mapを用いている．このように，情報理論を基礎にしている点が，本システムの特徴であるといえる．

移動物体の追跡システムは，防犯装置やテレビジョン放送の分野で幅広い応用が考えられる．また，シーン内の情報量の大きい部分を注視するシステムは，距離の離れた，あるいは，危険な場所で働くロボットの視覚として有用である．また，背景テクスチャの撮影など，コンピュータビジョンだけでなくコンピュータグラフィクスの分野にも応用が考えられる．

人間の視覚情報処理

人間の眼球は，視野の中心に対応する網膜上の中心窩と呼ばれる部分で高解像度を持ち，周辺に行くにしたがって解像度が低下している．人間の有効視野は視角にして約10degであり，視野の周辺では，視力が低いかわりに広い範囲をとらえることができ，周囲の状況把握をして危険回避をしたり，移動物体をとらえたりする時に役立つ．その結果，人間の視覚は，広い視野範囲をもつと同時に，視野の中心で詳細な観察を行なうことができる．

人間の視覚が不均一な解像度を持っているため，人間がシーンを観測する時，高解像度の中心視野を有効に活用するために注視位置を移動し，シーンから必要な部分を順に選択し詳細な観測を行なう．このとき視点の移動は，興味のある対象に向けられると言われている．また，被験者に与えられた観察のタスクによって，注視点の分布が変化することも知られている．さらに，被験者は，観察シーン中の情報量の大きい部分を注視することも知られている．

人間の視覚は色，視差，動きといったさまざまな特徴を統合し，眼球を回転することによって，環境と相互作用し，環境の認識などのタスクを達成している．アクティブビジョンの重要な問題点の一つに，どの部分に注視点を移動するかということが挙げられる．本研究では，まず，移動物体に着目し，移動物体の追跡機能を実現する．さらに，静止したシーンにおいて，定量的な尺度であるシーンの情報量を提案し，情報量の大きい部分を選択し，注視するシステムを実現する．

移動物体の追跡システム

本研究では，現在の技術水準で，実環境，実時間で動作可能なシステムの構築をめざす．そのために，まず，実時間で動作させるために汎用画像処理装置を用いて画像処理を高速化し，高速な移動物体への追従を行なうために高速なパン・チルトステージを用いる．さらに，予測制御を用いて，規則的な運動を遅れ時間なしで追跡する手法を実現する．

実現したシステムを評価するため，実環境で追跡実験を行なった．図1に，人間を追跡した結果を示す．その結果，移動物体を視野から見失うことなく追跡が成功した．また，予測制御を用いて遅れのない追跡を行なう実験を行なった．移動物体は，小型の電動模型自動車を用い，軌道レールに沿って走らせることによって，運動を規則的にすることができる．図2に，その追跡結果を示す．図中，赤線は，移動物体の位置を表し，青線は，カメラの位置を表す．規則的な運動をする移動物体は，予測制御を行なうことで遅れのない追跡が可能である．

図1 歩いている人間の追跡結果

図2 規則的な運動の追跡結果

システムを性能の面から評価すると，システムは実環境を移動する1つの不特定の物体を追跡することができる．実験から200deg/sの速度までの物体を追跡することができることを示した．また，移動物体が1フレームの時間(33ms)に1ピクセル以上移動すると，その物体を検出することができることから，移動物体の検出可能な最低速度は，2.4deg/sである．

シーンの探索システム

アクティブビジョンの工学的研究では，色，線の方向といった低次の特徴から， saliency map，すなわち，各特徴の注目点を統合したマップを構成し，そのマップにしたがって注視点を移動させている．しかし，特徴を抽出するとき，ヒューリスティックに特徴量を計算していた．例えば，画像の目立つ部分として，赤や黄色の部分や，高い空間周波数をもつ部分を抽出していた．

そこで本研究では，特徴に理論的な裏付けを与えるため，シャノンの情報量によって，特徴を定量的に表現する手法を提案した．その情報量をさまざまな画像について計算し，その特徴について考察した．その結果，シーンに多くの物体が含まれると情報量が大きくなる傾向があることがわかった．さらに，特徴間の確率的な従属性として存在する相互情報量についても実験により考察した．その結果，グラデーションのように複数の特徴が従属しているときに，相互情報量が大きくなる傾向にあることがわかった．

提案した情報量を用い，シーンの情報量の大きい部分を注視するシステムを実現した．システムは，入力された画像を部分領域に分割し，その領域ごとの情報量を計算し，情報量マップを作成する．これは，シーンのどの部分にどれくらいの情報量が含まれているかを示す．システムは，情報量マップの大きい順番に，その部分をズームによって拡大して探索する．探索によって得られた画像は，解像度を調節して，１枚の画像に合成される．

屋外，屋内のシーンを対象にし，明度，彩度，色相の情報量を切り換えて実験を行った．図3に屋内のシーンで明度の情報量を用いて合成した画像を示す．実験結果から，システムは，シーンのより複雑な部分を選択的に注視し，システムが扱う情報量を変更することによって，システムに異なったふるまいを持たせることができることを示した．また，明度の情報量の場合，人間の視覚探索でのふるまいとある程度相関があることがわかった．

図3 合成結果（明度の情報量を使用）

目次に戻る

asakura@nuie.nagoya-u.ac.jp