1. HOME
  2. 電気・情報関連(専門)
  3. 研究情報(登録番号887)

音声認識・理解技術に関する先駆的研究

 近年、コンピュータによる音声認識技術を用いた、音声の文字化(自動書き起こし)や、音声によるコンピュータとの対話システムに対するニーズが、急速に高まっている。音声認識を用いて、音声ドキュメントに自動的にインデックスをつけることによって、アーカイブ化のための情報を付与したり、放送音声に自動的に字幕をつけるシステムも実用化されている。電話によってコンピュータシステムと対話をして、種々の情報検索や予約をするシステムも、多数実用化されている。音声の個人差を用いて自動的に個人認証をする話者認識技術に対するニーズも、インターネットサービスなどに関連して。急速に高まっている。

 古井貞煕氏の研究では、特に、人が音声を知覚する際に、音声スペクトルの動的特徴が重要な役割を果たしていることを定量的に実証した研究と、音声の各時点における動的特徴(デルタケプストラム)を静的特徴(ケプストラム)と組み合わせて用いる音声認識法の研究は、現在でも広く引用されている研究である。後者の方法は音声認識性能の向上に大きく貢献しており、世界中の音声認識システムのほとんどで現在用いられている。音声認識において現在広く用いられている線形変換による適応化法にも、同氏の重回帰式による変換法の先駆的論文が影響を与えている。また、研究グループの指導者として行った研究のうち、大語彙連続音声認識の研究は、日本語に対して統計的言語モデル及び音響モデルを適用した、先駆的な研究である。

 話者認識技術に関しても、同じ人の音声が時期とともに変動する性質があることを、世界で初めて明らかにし、逆フィルタによる正規化法を提案した。現在広く用いられている混合ガウス分布を用いる方法、事後確率によって音声変動を正規化する方法、テキスト指定型認識法なども、同僚との共同研究であるが、その後の技術の進歩に大きなインパクトを与えている。

 近年では、話し言葉に対する音声認識・理解技術の研究の重要性を唱えて、「話し言葉の言語的・パラ言語的構造の解明に基づく『話し言葉工学』の構築」プロジェクトを立ち上げ、その総括責任者を務めている。その中で、大規模話し言葉音声データベースの構築と、話し言葉音声認識・理解技術の構築を精力的に推進しており、その主要課題の一つである音声の自動要約技術は、欧米の種々の新しいプロジェクトに大きな影響を与えている。

 以上のように、同氏の開発した種々の先駆的な音声認識・理解技術は、音声を用いたヒューマンコンピュータシステムの実現に大きなインパクトを与えており、種々の活動を通じて技術の発展に寄与した。

 この技術に対して、電子情報通信学会は、2003年、古井貞煕氏に業績賞を贈った。


文献

[1] S. Furui、"A Training Procedure for Isolated Word Recognition Systems"、1980年、IEEE Trans. on ASSP
[2] S. Furui、"Cepstral Analysis Technique for Automatic Speaker Verification"、1981年、IEEE Trans. on ASSP
[3] S. Furui、"Comparison of Speaker Recognition Methods Using Statistical Features and Dynamic Features"、1981年、IEEE Trans. on ASSP
[4] S. Furui、"Speaker-Independent Isolated Word Recognition Using Dynamic Features of Speech Spectrum"、1986年、IEEE Trans. on ASSP
[5] S. Furui、"On the Role of Spectral Transition for Speech Perception"、1986年、J. Acoust. Soc. Am
[6] S. Furui、"Unsupervised Speaker Adaptation Based on Hierarchical Spectral Clustering"、1989年、IEEE Trans. on ASSP
[7] 赤木正人, 古井貞熙、音声知覚における母音ターゲット予測機構のモデル化、1986年、電子通信学会論文誌,Vol.J69-A, No. 10
[8] 松岡達雄, 大附克年, 森岳至, 古井貞熙, 白井克彦、新聞記事データベースを用いた大語彙連続音声認識、1996年、電子情報通信学会論文誌,Vol. J79-D-Ⅱ, No. 12
[9] 松井知子, 古井貞熙、テキスト指定型話者認識、1996年、電子情報通信学会論文誌,Vol. J79-D-ⅡNo. 5
[10] 堀智織, 古井貞熙、単語抽出による音声要約文生成法とその評価、2002年、電子情報通信学会論文誌,Vol. J85-D-Ⅱ, No.2

関連する研究を検索

分野のカテゴリ

情報処理
(ヒューマン情報処理)

関連する出来事

1999年4月1日
科学技術振興調整費開放的融合推進制度「話し言葉の言語的・パラ言語的構造の解明に基づく『話し言葉工学』の構築」プロジェクト
2003年4月1日
21世紀COEプログラム「大規模知識資源の体系化と活用基盤構築」

世の中の出来事

2003
国立大学法人法が成立する。
2003
日米欧などの国際チームがヒトゲノム解読完了宣言をする。

Webページ

データなし

博物館等収蔵品

データなし

キーワード

音声認識・理解技術、話者認識技術、音声・聴覚、パターン認識・理解、ヒューマンインタフェース、人工知能と知識処理
Page Top