氏名: 上山 英三 (d06723)

論文題目: 反応拡散移流モデルによる動画像の図地分離


論文概要

高等動物にとって,視覚情報は外部環境を認識するための最も重要な 情報源の一つである.それ故,視覚情報処理機構の担う役割は重要であり, コンピュータビジョンの研究がこれまで精力的になされてきた.そこでは, 人間あるいは生体系における情報処理の本質の何たるかが重要な問題である. その理解を目指す上で, 情報処理のマクロな性質を調べる心理学から,そのハードウェアを ミクロレベルで調べる大脳生理学まで広範な分野を含めて考察する必要がある.

ミクロレベルでの考察として, 神経細胞の動作速度が計算機の百万分の一程度にも拘わらず, 人間がコンピュータよりもパターン認識等を速く正確に処理できることを取り上げる. これが可能なのは,多数の神経細胞での並列処理が実現されているからである. ただし,並列処理機構における各神経細胞の間の結合は密結合ではなく 疎結合である.その疎結合を有効利用するために, 神経細胞間の結合は近傍間のものに限定されており, そのことにより結線の長さを短縮できるとともに, 画像の持つ空間的なMarkov性を有効に利用する処理が実現できる. 空間的なMarkov性とは,近接する画素間の濃淡値等の画像情報の相関が, 離れたもの同士のそれより大きいということである.この性質を有効に利用する 既存の画像認識法は希だった.

一方,マクロレベルの考察として例えば, 視覚心理実験を通して視覚系の視野全体における認識結果を調べることで, 「全体」の認識の一般的傾向が分析されてきた.その 知覚的体制化における様々なゲシュタルト要因の多くは ミクロレベルでの局所的な記述が可能である. つまり,ミクロレベルにおいて局所・並列的に処理された視覚情報が 全体的にみて矛盾のない,そして抽象度の高い認識結果という情報に統合されている ことが考察の対象になる.

上記のミクロレベルの空間相互作用とマクロレベルに現れる 体制化・パターン形成を考察する際の包括的概念が``自律分散''である. この概念に基づく自律分散システムとは, 全体を分割してできた各サブシステムの相互作用によって 全体システムの目的に合致した大域的秩序が形成されるシステムである. ただし,相互作用と大域的秩序の間の因果関係は明らかでなく, 目標とする機能の実現法及びその理論が確立されていない. 本研究は,動画像の図地分離という課題 を通してこの問題を考察する土台を与えようと試みるものである.

さて,初期の視覚過程は標準正則化理論で定式化されている.その定式化において, 初期視覚という不良設定問題が,安定化汎関数の付加された積分型 汎関数を極小にする関数解を求めるという良設定の問題に変換されている. これまで,この汎関数を極小にする関数解は,変分法から導出される Euler 方程式の 定常解として求められてきた. 本研究では,仮定した汎関数(これが認識結果のマクロな性質を規定する) の第一変分から導出される変分導関数を関数空間における勾配とみなし, 最急降下法(勾配系)によって反応拡散方程式を得る. これの時間発展の収束先が汎関数を極小にする関数, すなわち変分問題の解である.Euler 方程式を解いて定常解を求めるのではなく, 発展方程式という形式を用いることで動的な過程が記述可能になる. なお,積分によって定義される汎関数を極小にする関数解が, 局所的演算からなる微分方程式の時間発展によって得られることは, 自律分散システムの概念と合致する.

上記の動的な性質(過去の状態に依存する性質)を有効利用する視覚処理の例として, 本研究では動画像の図地分離という問題を取り上げる. ここで,図地分離とは,画像を注目部分(``図'') とその他の背景部分(``地'')とに分離することであり,画像認識における初歩的な 過程である.本研究では,動画から検出される速度場,すなわちオプティカルフロー (OFと略記)の情報に基づいて図地分離を行う.動きに関する視覚処理には, 動的な方程式を利用する方が効率がよいことは動画の持つ時間相関を考えれば 自明である.それゆえ,このような問題に反応拡散方程式という 動的な方程式を利用するのは妥当である.本研究では,図地分離の実現の ために,反応拡散方程式の一種である,ギンヅブルグ・ランダウ方程式 (G-L 方程式と略記)を用いる.

一方,汎関数から変分導関数を用いた勾配系によって反応拡散方程式を 導出する過程は,境界(不連続)を含むOFの推定のように,汎関数が 標準正則化で定式化できない場合にも適用できる.そこからは,反応拡散方程式での 拡散項に対応する部分が非線形な発展方程式が導出される. この方程式の時間発展に おいて,その非線形性により汎関数の最適化が十分に行われない ことが危惧される.しかし本研究では,動画におけるOFの境界の動きを実現する ように,境界のダイナミクスに移流と拡散を加えることにより,最適化のスムーズな 実現を可能としている.この点も動的な方程式を用いる利点である.

これらを踏まえたシミュレーションとして,まず,動きによる図地分離の 問題をOFのクラスタリングを用いて 局所並列処理で実現する.そこでは,動画を構成する1枚の静止画, 即ちフレーム単位で得られたOF(ベクトル量)を, 局所演算によって実行可能なクラスタリング法を用いてスカラー量 に変換して暫定的に図と地に分離し, その暫定的な分離を G-L 方程式の時間発展を用いることによって修正する.そして, OFの全体分布に関する情報を用いる Bayes 決定との間で誤り確率を比較した. その比較結果から,さほど正確でないOFからでも図地分離が適切に行えることが 示される.そしてそれにより,空間的な局所相関を利用する本研究の手法 の有効性が示される.また,図の前面に障害物のある場合や, 図のエッジの検出できないランダムテクスチュアの動画の場合にも 本研究の手法が適用可能であることが示される. ただし,ここでは前のフレームでの分離結果が次のフレームに反映されておらず, 反応拡散方程式の動的な性質が有効利用されていない.また, 方程式の時間発展を続けると, 形成される分離パターンが丸められるという副作用が生じる.

次に,G-L 方程式を用いて図地分離を行う際の上記の副作用と同様の認識結果が, 人間の視覚認識においても生じていることを,視覚心理実験を通して確認した. 実験において,ランダムテクスチュアで生成された動画(以下RDKと略記) において再生速度(1秒あたりの動画フレーム数)を小さくすると, 知覚される移動領域の主観的輪郭の丸まりが確認できた. そこで,OFとその境界の移動の関係から図地分離の状況が決定可能であることに 着目し,この望ましい関係を誘導するとともに実際に生じた境界の状況から 図地分離の状況を表す時空間パターンの値を修正し,その後にG-L 方程式を 時間発展させることで動的な分離状況の形成を試みる. この手法に基づくシミュレーションによって形成された時空間パターンの界面の挙動が 上記の主観的輪郭の丸まりをよく説明することを示す.そしてこの丸まりが G-L 方程式から導出される界面ダイナミクスによって記述可能で あることが示され,このことから人の視覚処理系 の計算論として G-L 方程式が有用な示唆を与えることが示される. つまり,単に静的なOFの空間的な差異のみからではなく,フレーム間にわたる OFとその境界の動きとの関係に着目し,それに基づいて図地分離を行うと共に, OFの境界の推定に時空間相関を取り入れる手がかりを与える.

さらに,RDKの観察時における図地分離の発現とOFの知覚状況として, OFの境界が動かない場合はOFが明確に知覚されず,図地分離も明瞭でない ことが観察される.このことから,運動知覚の計算において OFの境界(不連続)の動きがOFの推定を補助していることを想定する. そこで,まず1次元空間上のスカラー値関数としての OFの推定問題を考える.そして, 局所 Cauchy 場近似に基づく境界のあるOFの推定に際し, 境界の動きを移流と拡散によって記述し, それを境界のダイナミクスに組み込むことによって, OFとその境界の推定結果に向上が見られることを示す. この記述は上記のOFの境界の時空間相関を移流と拡散によって定式化したものである. ここで,境界の存在を仮定した場合のOFの推定は, 標準正則化では扱えない最適化問題となり, 変分法を用いて勾配系のダイナミクスを構成しても, ローカルミニマムへの収束などによって最適化が適切に実現されないことが 懸念される.そのような懸念に対して,従来法のように シミュレーティッドアニーリングなどの時間のかかる 確率的緩和法を用いるのでなく, 境界の運動という物理的な状況を直接ダイナミクス に取り入れることで良好な推定結果が得られることを示す. このことはポテンシャル汎関数の値の時間変化からも確認できる. これらの結果から,境界を含むOFの推定においても,過去のフレーム での結果を有効に引き継ぐような 動的な推定過程が実現されることが示される. また,実際のOFに即して, この手法を2次元空間上のベクトル値関数へ拡張する手がかりも示される.

本研究により,変分原理を通じて勾配系のダイナミクスから導出される反応拡散 方程式や反応拡散移流方程式などの発展方程式が,視覚処理に対して有効なモデルで あることが示される.そして,それらが視覚処理を効率的に行うために必要な画像に おける空間的な局所情報の有効利用と,特に画像処理・運動知覚に必要な動画の持つ 時間的な相関の有効利用を実現するモデルとして意味があることが示される. またこれらの方程式は自律分散システムの概念を体現するものであり, ここで得られる結果により,その概念についての考察が深まることが期待される.


目次に戻る


asakura@nuie.nagoya-u.ac.jp