概要

 我々は,複数話者が同時的に音声を発声し,また,ノイズ雑音も同時に存在している環境で,1つのマイクロフォンで収録される連続音声波形から,波形の分離なしに,特定話題音声が認識できる方式を提案しています.ここで,認識すべきカテゴリーの入力は合成音声となっています.従って,不特定話者に認識となっています.

 人間がもっている音声の認知機能の1つに,「カクテルパーティー効果」というものがあります.これは、人間が、多数の話者の同時会話している状況で,自分が興味をもつ話題について、認識できる,という能力です.

  これを工学的に解決しようという研究があります.その典型は,ICA( Independent Component Analysis,独立成分解析) というものです.ICAの機能は,混合した話者音声波形から,個人ごとの波形の分離を行うものです.しかし,音声の認識は行いません. また、ICAでは,通常,話者の数以上のマイクロフォンの数で収集した音声群を必要とします.

複数話者からなる単一音声から識別する試みもいくつかありますが,これらは,音声の話者による分離と認識を合体したものがほとんどです.従って,問題を本質的に解決していないといえます.特に音声の部分認識に課題が残ります.

  一方、人間は、カクテルパーティ効果の問題を実際に解決していますが,人間は両耳以外にマイクロフォンに対応しているものを使っていません.また,人間は,無意識に,あるいは意識的に会話話題の部分音声を選択して,部分認識することを行っています.別の表現をすると,会話音声の注意がいった,特定部分のスポッティング認識を行っています.

  人間の両耳効果は、音源の立体的把握が主目的で、2つの音源をとらえるためのものではないといわれています.このことは,単一のマイクロフォンで収集した音声波形からカクテルパーティ問題を解決するアルゴリズムが存在しうることを示唆しています.

 従って,話者数以上の本数のマイクロフォンを必要とするICA は,波形の分離が目的であって,不特定話者音声の認識も含む本来のカクテルパーティ問題の解決法とはいえません.ICAで波形を分離しても,その後の不特定話者の連続音声からの認識は,それ自体別途の研究課題となっています.つまり、複数の異なるアルゴリズムを必要としています.さらに,カクテル・パーティー音声の部分音声を選択的に認識することが実際のカクテル・パーティ音声の認識といえます.

  われわれの提案は,1つのアルゴリズムで,また1つのマイクで収集される音声から,個人ごとの波形を分離しない人間のように、かつ部分音声の不特定話者認識を行う,本来のカクテル・パーティー効果という人間の認知機能を実現しています.

添付の画像では,英語,日本語,中国語,ドイツ語が4人の話者が同時に発話したものとノイズが加算したものを,1つのマイクで録音したものから,キーワードや一部のフレーズを切り出すことなく認識している様子を示している.ここで,キーワードやキーフレーズは合成音声で作成され,これを事前切り出しなしの検索,かつ,不特定話者認識を行っている.



この方式については、現在特許出願中です.   

講座・グループ

研究カテゴリー

活動分野
ロボット 音声認識 信号処理
関連キーワード