252 ch​球状​マイクロホン​アレイ​を​用​い​た​高​精度​収​音​システム

松永 純​平 氏, 東北​大学

"本​研究​では、​実​時間​動作​可能​な​多​チャネル​マイクロホン​アレイ​を​用​い​た​高​精度​収​音・​提示​システム​という​これまでに​ない​新しい​システム​を​構築​しま​した。 " ​

- 松永 純​平 氏, 東北​大学

課題:

個々人​の​HRTF​を​同時に​再現​し​て​実際​に​多数​の​マイクロホン​を​用​い​て​収​音​し、​実​時間​で​信号​処理​を​行​っ​た​もの​を​聴取​者​に​提示​する​システム​を​構築​する​こと​を​考え​た。​その​為​に​252​個​の​マイクロホン​に​入力​さ​れる​信号​を​同時​収​音​し、​データ​整形​する。​また​全​チャネル​において、​信号​を​512​点​で​切り出し​た​後に​高速​で​FFT​処理​する。​そして​全​チャネル​において、​周波数​ごと​に​HRTF​を模した重み係数を乗算することが必要となった。 ​

ソリューション:

システム​の​構築​時には、​球状​アレイ​と​制御​用​PC​を​用​い​SENZI[1、​2]​アルゴリズムの実装を行った。​制御​用​PC​は、​シャー​シ​(PXIe-1071、​NI)、​コントローラ​(PXIe-8133、​NI)、​FPGA​ボード​(PXIe-7965R、​NI)​から​構成​さ​れる。​各​仕様​を​表​1​に​示す。​ここ​では、​252 ch​を​実​時間​で​動作​させる​ため​に​FPGA​ボード​を​3​枚​用意​し、​各​ボード​に​役割​を​分担​さ​せ​て​処理​し​て​いる。 ​

【背景】

遠隔​地​の​音​空間​情報​を​時​空間​を​超​えて​精度​高​く​伝送​し、​複数​の​聴取​者​に​同時に​臨場​感​高​く​提示​する​こと​が​可能​な​システム​に対する​要求​が​高​ま​って​いる。​単純​に、​1​つ​の​マイクロホン​を​用​い​て​収​音​し、​1​つ​の​スピーカ​を​用​い​て​再生​する​だけ​では、​受​音​位置​周辺​で​どの​よう​な​音​が​鳴​って​いる​の​か​を​知覚​する​こと​は​でき​て​も、​まるで​その​場​に​いるか​の​よう​な​臨場​感​が​得​ら​れ​ない​ばかり​か、​その​音源​の​方向​や​距離​といった​情報​すら​伝達​する​こと​が​でき​ない。​したがって、​複数​ある​音源​を​方向​を​含​め​て​正確​に​収​音・​再生​する​こと​が​必要​と​なる。

 

人間​は​左右​の​耳​を​用​い​て、​音源​の​方向​や​距離、​部屋​の​大​き​さ​といった​空間​的​な​情報​を​得る​こと​が​できる。​これ​は、​左右​の​耳​へ​の​入力​差​や、​壁、​頭部、​耳​介​など​における​音波​の​反射・​回折​による​周波数​スペクトル​の​変化​を​経験​的​に​処理​判断​し​て​いる​ため​で​ある。​これらの​情報​を​内包​する​もの​として、​頭部​伝達​関数​(head-​related transfer function:HRTF)​が​ある。​HRTF​と​は、​ある​特定​の​位置​に​音源​が​ある​場合​の​外耳​道​入口​付近​における​音​圧​と、​聴取​者​がい​ない​場合​において​全く​同じ​位置​に​全く​同じ​音源​が​ある​ときの​聴取​者​の​頭部​中心​へ​相当​する​位置​における​音​圧​と​を​関連付ける​伝達​関数​の​こと​で​ある。​つまり、​HRTF​は音源位置が特定されれば、​そこ​から​伝達​さ​れる​音​情報​を​音源​方向​も​含​め​て​再現​する​こと​が​できる。​この​HRTF​を​適切​に​利用​する​こと​で、​音源​の​情報​を​音源​方向​を​含​め​て​正確​に​提示​可能​な、​高​臨場​感​音​情報​収​音​再生​が​可能​に​なる​で​あ​ろうと​期待​できる。

 

【課題】

HRTF​は​聴取​者​個人​の​頭​の​形状​によって​異なる​もの​で​ある​こと​から、​複数​の​聴取​者​に​同時に​音​を​提示​する​ため​に​は、​個々人​の​HRTF​を​同時に​再現​する​必要​が​ある。

 

また、​聴取​者​は​音​を​聴取​し​て​いる​際​は、​必ずしも​静止​し​て​いる​と​は​限​ら​ない。​頭部​を​回転​さ​せ​たり、​う​な​ずい​たり​といった​よう​に、​絶えず​運動​し​て​おり、​この​よう​な​動的​な​営み​から​も​音​空間​情報​を​得て​いる​と​考え​られる。​また、​頭部​が​運動​する​こと​により、​聴取​者​と​音源​と​の​相対​的​な​位置​関係​が​変化​する​こと​から、​HRTF​も​それに​応​じ​て​変化​する。​したがって、​聴取​者​の​頭部​位置​を​何らかの​形​で​測定​し、​その​動き​に​応​じ​て​HRTF​を​切り替え​て​音​を​提示​す​れ​ば​高​精度​な​音​空間​情報​提示​が​可能​と​なる。

 

これらの​こと​を​考える​と、​聴取​者​の​頭部​運動​に​追従​し、​実​時間​で​各​聴取​者​に​適​した​HRTF​を​用​い​て​収​音・​提示​する​こと​が​重要​と​なる。​我々​は​この​よう​な​こと​を​実現​する​ため​の​アルゴリズム​を​考え、​その​実現​の​ため、​実際​に​多数​の​マイクロホン​を​用​い​て​収​音​し、​実​時間​で​信号​処理​を​行​っ​た​もの​を​聴取​者​に​提示​する​システム​を​構築​する​こと​を​考え​た。​なお、​収​音​部​は​球状​で、​マイクロホン​を​軸​対称​と​なる​よう​に​配置​した​アレイ​と​する。​これ​は、​頭部​運動​に​応​じ​て​マイクロホン​を​切り替え​や​すく​する​ため​で​ある。

 

本​システム​を​実現​する​ため​に​は、​以下​の​処理​を​実​時間​で​行う​必要​が​ある。    

  • 252​個​の​マイクロホン​に​入力​さ​れる​信号​を​同時​収​音​し、​データ​整形​する
  • 全​チャネル​において、​信号​を​512​点​で​切り出し​た​後に​高速​で​FFT​処理​する
  • 全​チャネル​において、​周波数​ごと​に​HRTF​を​模​した​重み​係数​を​乗算​する

 

【ソリューション】

1、​システム​構成

本​システム​は、​図​1​に​示す​よう​に、​「収​音​部」、​「信号​処理​部」、​「再生​部」​から​構成​さ​れる。​収​音​部​では、​252​個​の​マイクロホン​を​用​い​て​同時​収​音​し、​データ​整形​した​後に​信号​処理​部​へ​送る。​信号​処理​部​では、​各​聴取​者​の​HRTF​と​頭部​位置​センサ​により​得​た​情報​に​基​づ​い​て、​収​音​部​から​送​ら​れ​て​きた​信号​を​提示​すべ​き​音​へ​合成​する​処理​を​行う。​HRTF​は​あらかじめ​聴取​者​ごと​に​測定​し、​数値」​計算​により​取得​した​もの​を​用いる。​再生​部​では、​信号​処理​さ​れ​た​音​を​ヘッドホン​による​バイノーラル​再生​手法​で​聴取​者​に​提示​する。

 

システム​の​構築​時には、​球状​アレイ​と​制御​用​PC​を​用​い​SENZI[1、​2]​アルゴリズムの実装を行った。​制御​用​PC​は、​シャー​シ​(PXIe-1071、​NI)、​コントローラ​(PXIe-8133、​NI)、​FPGA​ボード​(PXIe-7965R、​NI)​から​構成​さ​れる。​各​仕様​を​表​1​に​示す。​ここ​では、​252 ch​を​実​時間​で​動作​させる​ため​に​FPGA​ボード​を​3​枚​用意​し、​各​ボード​に​役割​を​分担​さ​せ​て​処理​し​て​いる。

 

各​FPGA​ボード​に​は、​それぞれ​図​2 ~ 4​に​示す​ダイアグラム​の​機能​を​実装​し​て​いる。

 

1​枚​目​の​FPGA​ボード​では、​球状​アレイ​から​送​ら​れ​て​きた​ディジタル​信号​を​整形​する。​その​際、​量子​化​ビット​数​は​16 bit、​サンプリング​周波数​は​48 kHz​で​ある。

 

 

2​枚​目​の​FPGA​ボード​では、​送​ら​れ​て​きた​信号​を​50 % オーバーラップ​さ​せ​ながら​窓​関数​を​かけ、​512​点​で​の​FFT​処理​を​行う。​リソース​上、​FFT​処理​器​は​4ch​分しか確保できず、​252 ch​分​の​データ​を​処理​する​に​は​高速​に​演算​を​行う​必要​が​ある。

 

3​枚​目​の​FPGA​ボード​では、​各​聴取​者​の​HRTF​を​用​い​て​あらかじめ​求め​て​おい​た​重み​係数​を​読み込み、​その​重み​値​と​2​枚​目​の​FPGA​ボード​から​送​ら​れ​て​きた​データ​を​周波数​領域​で​乗算​し、​252 ch​分​の​データ​全て​を​加算​する。​そして​加算​した​結果​を​逆​FFT​する。​重み​係数​は​左右​チャネル​分​ある​ので、​最終​的​に​は​2ch​分​の​データ​が​出力​さ​れる​ことに​なる。​重み​係数​を​保持​する​DRAM​の​サイズ​は​512MB​で​あり、​聴取​者​の​ある​頭部​位置​における​重み​係数​は​1MB​程度​の​情報​量​で​ある​こと​から、​約​500​セット​の​重み​係数​を​用意​できる。​すなわち、​頭部​位置​センサ​により​得​た​情報​から、​500​方向​の​HRTF​を​実​時間​で​切り替える​こと​が​可能​で​ある。​また、​構築したシステムでは頭部位置センサを実装するまでにはいたらなかったが、​将来​的​に​組み込む​こと​により、​センサ​から​得​ら​れ​た​頭部​運動​情報​を​元​に​最適​な​重み​係数​を​選択​する​こと​が​可能​に​なる。

 

 

2、​結果

図​5​に​構築​した​本​システム​の​LabVIEW​フロント​画面​を​示す。​両​耳​に​どの​よう​な​信号​が​提示​さ​れ​て​いるか​観測​する​こと​が​でき、​常に​データ​の​抜​け​落ち​が​ない​か、​使用​し​て​いる​FIFO​で​の​オーバー​フロー​が​起​き​てい​ない​か​など、​実​時間​で​処理​が​行​われ​て​いるか​を​確認​できる​よう​に​システム​を​構築​した。​また、​頭部​運動​に​感応​させる​ため、​実行​中​に​も​全​チャネル​の​重み​値​を​変更​できる​よう​に、​複数​の​頭部​方向​における​重み​係数​を​あらかじめ​DRAM​に​書き​込​んで​おき、​切り替え​が​できる​よう​に​した。​今後、​頭部位置センサにより得た情報を元に最適なものを読み取るように拡張すれば、​実​時間​で​聴取​者​の​頭部​運動​に​も​十分​対応​できる

 

本​研究​では、​実​時間​動作​可能​な​多​チャネル​マイクロホン​アレイ​を​用​い​た​高​精度​収​音・​提示​システム​という​これまでに​ない​新しい​システム​を​構築​した。​今後​は​実際​の​音​場​に​設置​し、​再現​さ​れる​音​空間​の​精度​の​物理​的​心理​的​な​評価​を​進​め、​その​知見​を​元​に​システム​の​改良​を​行​って、​多く​の​研究​に​活用​し​てい​きた​い。

 

 

 

参考文献
​[1] S. Sakamoto, S. Hongo, R. Kadoi and Y. Suzuki, “SENZI and ASURA:New high-​precision sound-​space sensing systems based on symmetrically arranged numerous microphones, ”Proc. 2nd International Symposium on Universal Communication (ISUC) pp.  429-434, (2008).
​[2] S. Sakamoto, J. Kodama, S. Hongo, T. Okamoto, Y. Iwaya and Y. Suzuki, “A 3D sound-​space recording system using spherical microphone array with 252ch microphones, ”Proc.  20th International Congress on Acoustics(ICA), 736, (2010). 

 

 

 

【謝辞】

本​研究​の​一部​は、​総務​省​SCOPE(No. 082102005)​及び​東北​大学​電気​情報​系​GCOE​プログラム
​「情報​エレクトロニクス​システム​教育​研究​拠点​(CERIES)」​の​補助​による。

 


 

 

 

 

 

 

 

 

 

 

 

著者​情報:

松永 純​平 氏
​東北​大学
​Japan

図​1  ​ ​実​時間​高​精度​収​音・​提示​システム ​
表​1  ​ ​マイクロホン​と​制御​用​PC​の​仕様 ​
図​2  ​ ​1​枚​目​の​FPGA​ボード ​
図​3  ​ ​2​枚​目​の​FPGA​ボード ​
図​4  ​ ​3​枚​目​の​FPGA​ボード ​
図​5  ​ ​構築​した​高​精度​収​音・​提示​システム​の​LabVIEW​フロント​画面 ​