和文題目: 環境とのインタラクションによる音源定位能力の自己組織的獲得
英文題目: Self-organizing sound source localization ability by interacting with the environment

生体とくに人間はすばらしい運動・感覚機能を持っている.そして,これらの能力は生まれながらに持っているものではない.環境との繰り返しのインタラクション(知覚循環)によって獲得される能力である.生体は,目や耳など感覚器による知覚と,それに基づく環境への働きかけ,すなわち身体の運動を通して情報を収集し,その情報を用いて感覚能力及び運動能力を学習する.つまり,生体は自己組織的に感覚能力や運動能力を獲得していると考えられる.このような生体の持つ優れた能力を模倣し,機能を実現するための多くの研究がなされている.

音源定位能力は,そのようにして獲得される能力の一つである.音源定位とは,音の情報から音源の方向を判断することである.赤ん坊は,はじめは音の情報から音源の位置を判断することができないが,視覚情報を手掛かりとして,対応関係を繰返し学習することによって,音源定位能力を獲得していると考えられている.人間や多くの生物は,音の方向をある程度の正確さで識別することができる.この識別には,両耳間到達時間差(Inter-aural Time Difference,ITD),両耳間音圧差(Inter-aural Level Difference,ILD),耳介によるスペクトルパターンの変化等が手掛かりとして用いられることがよく知られている.もし,音速と左右の耳の距離が与えられれば,我々は時間差から音源の水平方向を簡単に計算することができる.しかし,生体はそのようなパラメータを知らないし,時間差と角度の幾何的関係も知らない. また生体は成長等により頭や耳介の大きさが変化する.それにもかかわらず,生体は左右の耳の音の違いや,スペクトルの特徴等から,音源の方向を推定することができる.これらのことからも,音源定位能力は,知覚循環による学習によって獲得される能力の1つであることが分かる.

それでは,生体は実際に音の情報と音源方向の対応関係をどのようにして学習しているのであろうか?この問いに答える手掛かりとして,次のようなメンフクロウを用いた実験結果が報告されている.この実験では,視野をずらすようなプリズム眼鏡をつけられて成長すると,視蓋の聴覚マップがそれに対応してシフトすることが報告されている.つまり,音源定位能力が視覚情報を手掛かりにして修正されていることは明らかである.このことから,音源定位能力は視覚情報を手掛かりにして学習を行っていると考えられる.

本論文では,音源定位能力を自己組織的に獲得するシステムを構築する.人間の頭部に似せた,耳に対応するマイクと,目に対応するカメラ,そして首に対応する部分から成るヘッドロボットが,音源定位能力を学習していくプロセスをモデル化し,そのモデルを組み込んだ学習システムを構築し,実験によりその有効性を示す.このような学習モデルの実現は、他の様々な工学的システムの学習にも応用できると考えられる。提案する音源定位学習モデルの前提条件として,音源は静止しており,周囲の環境においてただ1つであるとする.また,本研究の目的は画像処理ではないため,それが目で見て音源であるという判断はすでにできるものとした. 知覚される情報は,マイクによる聴覚情報,カメラによる視覚情報であり,これらの情報を用いて運動の制御量を計算し,首の回転が行われる.以下に本論文の特徴を述べ,その後それぞれの学習モデルについて具体的に述べる.

本論文の特徴は,第一に制御対象に関する事前知識なしで,視聴覚による物体定位能力を獲得することが可能であることが挙げられる.具体的には,視聴覚の制御値を推定するモジュールを学習するために,最初のモデルでは音源物体を見つけるためにロボットを微少回転させ,その回転量から誤差信号を作ってモジュールの学習に使用している.それ以降のモデルでは視覚モジュールは,直接逆モデリングによって学習し,聴覚モジュールは視覚モジュールを使って学習することによって自己組織的に能力を獲得することが可能となっている.第二の特徴には,学習モジュールに自己組織特徴マップを用いたことが挙げられる.最初のモデルで学習に誤差逆伝搬法を用いたところ,収束するまでの学習回数が非常に多くなったことから,それ以降のモデルでは,自己組織特徴マップとテーブルルックアップ法を用いた学習モデルを構成した.その結果,誤差逆伝搬法を用いたモデルに比べて,はるかに少ない学習回数で学習可能となった.また,自己組織型神経回路の大きな特徴として,パターンを分類する能力があるが,この能力によって,少ないニューロンで効率的な学習が可能なモデルとなっている.さらに,聴覚モジュールの入力を2次元に拡張したが,その場合にも適切なマップが自己組織的に形成されていることが確認できた.

最初のモデルでは,水平面内の音源に対しての音源定位能力を自己組織的に学習するモデルを提案する.学習モジュールには,多層神経回路による誤差逆伝搬法を用いた.この学習モデルでは,音源方向を判断する手掛かりとしてITDの情報を使用している.提案モデルに基づいた学習システムを構築し,学習実験により評価を行った.その結果,視聴覚定位能力を自己組織的に学習が可能であることが示された.しかし同時に,このシステムにはいくつかの問題点があることが明らかになった.第一の問題点は,この学習モデルでは制御値の線形和を用いて学習を行っているために,非線形な特性を持つ制御対象には使用できないことである.第二の問題点は,ITDの値の検出誤差が大きいために定位精度が悪いことである.また,学習に誤差逆伝搬法を用いているために,収束に必要な学習回数がとても多くなることも,この学習モデルの欠点であった.

二つ目のモデルでは,前のモデルで明らかになった問題点を解決した,非線形な制御対象に対応した学習モデルを提案する.同時に,ITDの検出方法を変更し,検出精度の向上も行う.学習システムによる実験によって,非線形な制御対象を用いた場合にも学習可能なことが確認できた.また,誤差逆伝搬法による学習に必要とされる学習回数は一般に非常に多くなることが知られているが,新しいモデルでは,学習モジュールに自己組織特徴マップを使用したことにより,より少ない学習回数で学習可能となった.しかし,ITD検出方法の変更によって,ITD値の検出精度は向上したが,ITDの検出に48kHzでサンプリングした左右の音声波形の相互相関値を使って求めているために,量子化誤差から分解能が低く,側方にある音源に対しての定位精度が悪いという新たな問題が生じた.

三つ目のモデルは,前のモデルにおいて明らかになった,左右端の音源に対する精度の悪さを改善するために,システムの改良を行った.ITDの検出において,48kHz以上のサンプリングレートでサンプリングを行うことは困難であり,またサンプリングレートを倍にしても分解能は倍になる程度であり,大きな精度の改善は期待できない.そこで,ITD以外の定位手掛かりとして,ILD情報も利用するモデルに拡張した.改良モデルを評価するシミュレーション実験から,モデルの改良によって,定位精度が向上することが確認された.また,モデルの改良によって,マイク−音源間の距離の変化にもロバストとなることが明らかになった.これは,マイク−音源間の距離がマイク間距離に比べて十分大きい場合,ITDから音源方向は一意に決まるが,近い場合には一意に決まらないために不良設定問題を学習することになるが,ILDの情報が付加されることにより不良設定が解消されたためと考えられる.

四つ目のモデルでは,耳介に相当する反射板を用いることにより,鉛直面内の音源に対して定位学習が可能な,音源定位システムについて述べる.本システムでは,音源方向を推定する手掛かりとして,反射板によって生じるスペクトル上の変化を利用する.具体的には,反射板により変化したスペクトル上の特徴ベクトルを抽出し,自己組織特徴マップにより分類して,音源方向推定の手掛かりとして用いる.この結果を,聴覚モジュールの入力として用いることによって,音源定位学習システムを構築した.構築したシステムを用いて学習実験を行った結果,上下方向の音源定位能力が自己組織的に学習可能であることが示された.実験に用いた音源の種類は,白色雑音・スイープ音・ベル・拍手である.本手法では,音源方向を推定する手掛かりにスペクトルの特徴を用いているために,音源の種類によって定位精度に差が生じ,白色雑音・スイープ音では精度が高く,ベル・拍手の音では精度が悪かった.これは,白色雑音・スイープ音の周波数特性がほぼフラットなのに対して,ベル・拍手の音の周波数特性は複雑なものとなるために,反射板によって生じたスペクトルの特徴と音自身がもつ特徴の区別がつかないためである.