1. HOME
  2. 電気・情報関連(専門)
  3. 研究情報(登録番号4031)

省メモリに適した高品位音声合成方式の先駆的研究

  • 赤嶺 政巳赤嶺 政巳
  • 籠嶋 岳彦籠嶋 岳彦
音声規則合成の処理

図1 音声規則合成の処理

閉ループ学習による音声素片の生成

図2 閉ループ学習による音声素片の生成

 音声合成技術の研究の歴史は長い.内容が聞き取れるという意味で実用的なシステムは以前から開発されており,福祉機器の分野などで利用されてきた.しかし,その音質は,「鼻声」などといわれるような不自然なものであり,応用も限定的であった.任意の音素系列及び韻律パターンを入力として音声波形を生成する音声規則合成の原理は,肉声から切り出した音素や音節などの短い単位の音声波形(音声素片)に,所望の韻律(基本周波数や継続長)となるような信号処理(韻律変形)を行って接続するものである(図1).この韻律変形処理によって音声の肉声らしさが失われ,音質が劣化することが大きな問題となっていた.
 これに対して,韻律が異なる同一音韻の音声素片を大量に用意し,所望の韻律に近い音声素片を選択することで韻律の変形量を極力抑える方法が開発された.この手法では,音声素片のデータ量が数百MByte程度となり,多くの計算機リソースが必要であり,組込み機器などリソース制約の厳しい応用には適用できないという問題があった.
 受賞者らは,1MByte以下の音声素片データで,安定した高音質な音声を合成することが可能な省メモリに適した音声合成方式を開発した.この結果,組込み機器での音声合成の利用に道を開いた.受賞者らが開発した閉ループ学習方式(図2)は,韻律変形による音質劣化を最小化するような音声素片を,統計的に学習することで,少数の音声素片で高品質な合成音声を実現した.閉ループ学習方式では,音声素片を表すベクトルを用いて韻律変形処理を定式化し,韻律変形を経て生成された合成音声のひずみの評価関数を,自然音声との波形の二乗誤差で定義する.このような定式化によって,様々な韻律変形を行って生成される合成音声の平均的なひずみが最小となるような最適な音声素片を解析的に生成することができる.例えば,/a/の音韻の音声素片を学習する場合,話者1名から収録した大量の音声から,様々な韻律の/a/の音声波形を切り出して,自然音声のデータベースとして利用する.これらの個々の自然音声の波形に対して韻律の分析を行い,ひずみが最小化されるパラメータを用いて音声素片に韻律変形を行って合成音声を生成する.適当な音声素片の初期値を用意して,個々の自然音声に対応する合成音声を生成する処理と,それらの合成音声のひずみの評価関数が最小となる音声素片を求めて更新する処理を繰り返すことにより,ひずみが減少して収束し,音声素片を求めることができる.
 受賞者らが,閉ループ学習方式に基づいて開発した音声合成ミドルウェアは,省メモリと高音質を両立するものとなっており,様々な組込み機器に応用されている.特に,国内のカーナビゲーションシステムに広く用いられており,経路案内や音声認識トークバック,テレマティクスサービスでのメールやニュースの読み上げなどに利用されている.そのほかにも,福祉機器や電子辞書,ゲームソフトなど,様々な製品に採用されている.
 これらの技術は,全国発明表彰内閣総理大臣賞や市村産業賞功績賞,電子情報通信学会情報・システムソサイエティの連作論文賞をはじめ,様々な賞を受賞するなど,技術的に高く評価されている.その業績は極めて顕著であり,電子情報通信学会業績賞にふさわしいものである.

 本研究の成果に対して、電子情報通信学会は、2012年、赤嶺 政巳(東芝)、籠嶋 岳彦(東芝)に電子情報通信学会 業績賞 を贈った。

文献

(1)T. Kagoshima and M. Akamine, “Automatic generation of speech synthesis units based on closed looptraining, ” Proc. ICASSP97, pp.963-966, April 1997.
(2)籠嶋岳彦,赤嶺政巳, “閉ループ学習に基づく代表素片選択による音声素片の自動生成,” 信学論(D-II), vol. J81-D-II, no. 9, pp.1949-1954, Sept. 1998.
(3)M. Akamine and T. Kagoshima, “Analytic generation of synthesis units by closed loop training for totally speaker driven text to speech system (TOS Drive TTS),” Proc. ICSLP ʼ98, pp. 1927-1930, Dec. 1998.
(4)T. Kagoshima, M. Morita, S. Seto, and M. Akamine, “An F0 contour control model for totally speaker driven text to speech system,” Proc. ICSLP ʼ98, pp. 1975-1978, Dec. 1998.
(5)籠嶋岳彦,赤嶺政巳, “閉ループ学習に基づく最適な音声素片の解析的生成,” 信学論(D-II), vol. J83-D-II, no. 6, pp. 1405-1411, June 2000.
(6)籠嶋岳彦,森田眞弘,瀬戸重宣,赤嶺政巳,志賀芳則, “代表パターンコードブックを用いた基本周波数制御法,” 信学論(D-II), vol. J85-D-II, no. 6, pp. 976-986, June 2002.

関連する研究を検索

分野のカテゴリ

情報処理
(ヒューマン情報処理)

関連する出来事

データなし

世の中の出来事

データなし

Webページ

データなし

博物館等収蔵品

データなし

キーワード

高品位音声合成方式、韻律変形処理、音声素片データ、閉ループ学習方式
Page Top