本研究では、複数の楽音(楽器の音)の混合音から単音を分離する ことを目的とする。また、単一マイクによるモノラル音を扱い、音 の定位情報は用いない。
楽音は、スペクトル解析を行うと、基本周波数とその整数倍の周波 数成分のみで構成されているという特徴がある。この特徴を用い、 入力信号に対して短時間FFTを行い、信号の時間-周波数表現として、 スペクトログラムを得る。
スペクトログラムにおいて周波数方向のピークを抽出し、倍音表現 から同じ音のまとまりでグルーピングを行う。 それらの音に対して最も周波数が近いものと、音色が近いもの同士を 時間方向でグルーピングを行い、同じ音としてまとめる。 グルーピングされた音に逆FFTを行って、信号としての形状を回復し 出力する。
従来のものでは、周波数変調のある音は扱えないものが多かったが、 音色の近いもの同士をグルーピングするという手法を用いることにより、 これらの音を扱えるようにした。 また、周波数分布を復元する機構を組み込み、音質の向上を図った。 この結果、ある程度の制度で音源分離が出来ていることが確認された。