1. HOME
  2. 電気・情報関連(専門)
  3. 研究情報(登録番号4062)

音響信号のブラインド音源分離に関する先駆的研究

  • 牧野 昭二牧野 昭二
  • 猿渡 洋猿渡 洋
  • 澤田 宏澤田 宏
独立成分分析(ICA)に基づくブラインド音源分離の原理

図1 独立成分分析(ICA)に基づくブラインド音源分離の原理

音源分離技術の実用化

図2 音源分離技術の実用化

 音声などの音響メディアは,人間にとって最も使いやすいコミュニケーション手段の一つであり,誰もが双方向で使用できるという普遍性を有する.そのため,音響信号処理は,従来からテレビ会議システム,高品質な携帯電話,音声認識・情報検索・言語翻訳,音声対話ロボット等のマン・マシンインタフェース分野において重要な研究テーマであり,様々な産業応用が期待されている.しかし,実環境においては,目的のユーザ音声だけでなく雑多な干渉音や背景雑音等が同時に観測され,出力音声の大幅な品質劣化を招くことが知られている.これを解決するため,柔軟かつ実用的な統計的音響信号処理理論が望まれていた.
 独立成分分析(ICA)に基づくブラインド音源分離(BSS)の研究(図1)は,理論的広がりの大きさとアプリケーションへの可能性の広さから脚光を浴びていた.しかし,室内で残響が付加され混合された音を分離する技術は,畳込み混合の問題であり難しく,受賞者らが研究を開始した2000年当時,世界的に見ても検討が始まったばかりであった.
 独立成分分析に基づくブラインド音源分離は,音環境やマイク位置等の事前情報を一切使用せず(ゆえに「ブラインド処理」と呼ばれる),個々の音源信号を逆推定する理論であり,人間が無意識のうちに脳で聞き分ける能力を情報処理で模擬したものであると言われている.また,産業的な側面から言うと,製造誤差の多いマイク素子群を自由に配列しても(理論上は)性能が劣化しないという独立成分分析の性質は,大変魅力的なものである.しかし一方で,独立成分分析は単なる数理最適化理論の一つにすぎず,その挙動を解析的かつ実証的に解明したものは見当たらなかった.そのため,統計的・数学的にしか論じられてこなかった独立成分分析及びブラインド音源分離は,物理的・音響的にはある種のブラックボックスであり,その中で何が行われているのか,何がどこまで分離できるのかが余り分かっていなかった.
 受賞者らは,高次統計量を基礎とした教師なし学習理論である独立成分分析に基づくブラインド音源分離の動作メカニズムを音響学の観点から分析し,その動作原理が,従来から研究されてきた適応ビームフォーマと呼ばれるマイクロホンアレーの並列同時学習と等価であることを世界で初めて明らかにした.この動作原理の解明により,適応ビームフォーマで培われた様々な音響信号処理技術を音源分離技術に援用することが可能となり,その結果,ブラインド音源分離技術の分離性能を大幅に向上させることに成功した.特筆すべきことは,2007年IEEE機械学習信号処理国際会議(MLSP)の世界音源分離コンテストにて線形・非線形部門共に優勝した点である.これにより,本分野において,受賞者らを代表とする日本の研究グループが世界の最先端を走り,世界一の実力を持つことが証明された.その後も当該分野の世界的な研究を先導し,新しい研究分野を築いた.この成果は汎用DSPや汎用PC上へ世界で初めて実装された(図2(a),(b)).更に,世界初のリアルタイムポケットサイズ音源分離マイクの実用化に結び付き,2008年には警察備品に採用された(図2(c)).近年では内閣府ImPACTタフロボティクスチャレンジにおいて,災害救助用蛇型ロボットの音響センサとして採用されている(図2(d)).
 これらの成果は,文部科学大臣表彰科学技術賞(2015),市村学術賞(2013),ドコモ・モバイル・サイエンス賞(2011),ICA Unsupervised Learning Pioneer Award(2006),IEEE Fellow(2004),電子情報通信学会フェロー(2007,牧野昭二君)など,高く評価されており,その業績は極めて顕著であり,電子情報通信学会業績賞にふさわしいものである.

 本研究の成果に対して、電子情報通信学会は、2017年、牧野 昭二(筑波大)、猿渡 洋(東京大)、澤田 宏(NTT)に電子情報通信学会 業績賞 を贈った。

文献

(1) S. Araki, R. Mukai, S. Makino, T. Nishikawa, and H. Saruwatari, “The fundamental limitation of frequency domain blind source separation for convolutive mixtures of speech,” IEEE Trans. Speech Audio Process., vol.11, no.2, pp.109-116, 2003.
(2) S. Araki, S. Makino, Y. Hinamoto, R. Mukai, T. Nishikawa, and H. Saruwatari, “Equivalence between frequency domain blind source separation and frequency domain adaptive beamforming for convolutive mixtures,” EURASIP J. Appl. Signal Process., vol.2003, no.11, pp.1157-1166, 2003.
(3) H. Sawada, R. Mukai, S. Araki, and S. Makino, “A robust and precise method for solving the permutation problem of frequency-domain blind source separation,” IEEE Trans. Speech Audio Process., vol.12, no.5, pp.530-538, 2004.
(4) H. Saruwatari, T. Kawamura, T. Nishikawa, A. Lee, and K. Shikano, “Blind source separation based on a fast-convergence algorithm combining ICA and beamforming,” IEEE Trans. Speech Audio Process., vol.14, no.2, pp.666-678, 2006.
(5) Y. Mori, H. Saruwatari, T. Takatani, S. Ukai, K. Shikano, T. Hiekata, Y. Ikeda, H. Hashimoto, and T. Morita, “Blind separation of acoustic signals combining SIMO-model-based independent component analysis and binary masking,” EURASIP J. Appl. Signal Process., vol.2006, Article ID 34970, 2006.
(6) S. Araki, H. Sawada, R. Mukai, and S. Makino, “Underdetermined blind sparse source separation for arbitrarily arranged multiple sensors,” Signal Process., vol.87, no.8, pp.1833-1847, Aug. 2007.
(7) H. Sawada, S. Araki, R. Mukai, and S. Makino, “Grouping separated frequency components by estimating propagation model parameters in frequency-domain blind source separation,” IEEE Trans. Audio, Speech and Language Processing, vol.15, no.5, pp.1592-1604, 2007.
(8) Y. Takahashi, T. Takatani, K. Osako, H. Saruwatari, and K. Shikano, “Blind spatial subtraction array for speech enhancement in noisy environment,” IEEE Trans. Audio, Speech and Language Processing, vol.17, no.4, pp.650-664, 2009.
(9) H. Sawada, S. Araki, and S. Makino, “Underdetermined convolutive blind source separation via frequency bin-wise clustering and permutation alignment,” IEEE Trans. Audio, Speech and Language Processing, vol.19, no.3, pp.516-527, 2011.
(10) R. Miyazaki, H. Saruwatari, T. Inoue, Y. Takahashi, K. Shikano, and K. Kondo, “Musical-noise-free speech enhancement based on optimized iterative spectral subtraction,” IEEE Trans. Audio, Speech and Language Processing, vol.20, no.7, pp.2080-2094, 2012.

関連する研究を検索

分野のカテゴリ

通信
(エレクトロニクス技術)

関連する出来事

データなし

世の中の出来事

データなし

Webページ

データなし

博物館等収蔵品

データなし

キーワード

音響信号、ブラインド音源分離、音響信号処理、統計的音響信号処理理論
Page Top