興味のある話だけを抜き出す新しい音声信号処理を考案～意味で音声を分離抽出するフィルタ ConceptBeam～

日本電信電話株式会社
2023年05月30日
11：09

　日本電信電話株式会社（本社：東京都千代田区、代表取締役社長：島田　明、以下「NTT」）は、複数の話者や話題が混在した音声信号から、話している内容が、画像や音声などで指定した「意味」に適合する音声信号を分離抽出する技術を考案しました（図１）。本技術は、複数の音声が混在した信号から、話されている内容に基づいて目的の音声を取り出すことができる世界初の技術であり、これまでの手法で用いられていた音の到来方向などに依存することなく適用できるという利点があります。
　本成果は、6月1日より開催される、コミュニケーション科学基礎研究所オープンハウス2023に出展いたします。

1．研究の背景
　近年、音声認識や、音声情報からの情報抽出の技術が盛んに活用されるようになっています。私たち人間は、にぎやかな場所であっても、話している人や話題に注意を向けて話を聞き取ることができますが、コンピュータにとっては、目的とする音を他の音から分けて聞き取ることは必ずしも簡単ではありません。複数の音源からの音（人の話し声など）が混ざっている音響信号から目的とする信号を取り出す技術は音源分離と呼ばれ、これまで数十年間にわたって研究が進められてきました。

　従来の音源分離の研究では、信号を分けて取り出すための手がかりとして、音の聞こえる方向、声の高さ（基本周波数）、音源（話者）の特徴、信号の独立性などが用いられてきました。これらは総じて、信号自体の物理的特徴に着目したものと言えます。例えば、NTTが開発した技術の一つである「SpeakerBeam™」（※1）は、指定した話者（Speaker）の声の特徴を手がかりに、話者特徴空間において信号の抽出のビーム（Beam；感度の方向）を向け、信号を選択的に取り出す技術です。

　NTTでは、このように物理的特徴に基づく音源分離の研究を行う一方で、コンピュータによって、データから「意味」を取り出す「概念獲得」と呼ぶ研究を進めてきました。今回、これらの研究成果を融合し、話者が話している意味的な内容を手がかりにして目的の音声を取り出すことができる、新しい音源分離技術を開発しました。
　

図１． ConceptBeam の動作

2．研究の成果
　今回開発した音源分離技術をConceptBeamと名付けました。これは、指定した意味内容（Concept; 概念）に適合する音声を抽出する技術、つまり「概念フィルタ」(※2)であることを表しています。ConceptBeam の動作を図１に示します。システムに対して、画像や音声などで興味の対象を指定しておくと、入力された混合音の中から、指定した興味の対象に適合する信号を抽出することができます。図1の例では、ブロッコリーに関する話とバイクに関する話が混合した音声が入力されたとき、ブロッコリーの画像を手がかりとして指定すると、ブロッコリーに関して話している音声だけを選択的に抽出できます。

3．技術のポイント

（1）概念の表現
概念の情報をコンピュータで扱うため、概念をベクトル (※3)、つまり数値の組で表すことにします。概念のベクトルが配置される空間を特徴空間と呼びます。このような特徴空間は、「関連があることが予めわかっている異なる種類の情報」を用いて作ることができます。例えば、図2にある写真の風景を見て、ある人が「青い空、白い雲の下に大きな風車が見えますね」と話した音声があったとします。風景を見てその場で話しているため、この画像と音声には関連があると言えます。つまり「関連があることが分かっている異なる種類のデータ」ということになります。これらの画像や音声を、それぞれ画像特徴抽出器、音声特徴抽出器という２つのニューラルネットワークを用いて特徴抽出(※4)を行う際、関連があると分かっているデータは互いに近くに、そうでないデータは離れるように、という基準でニューラルネットワークを訓練します。ある程度多くの量のデータで訓練すると、情報の種類によらず、「白い」「雲」「風車」といった、同じ概念が近くに配置された空間が構築されます。これは同時に、それぞれの情報の種類に対する特徴抽出器が得られていることに相当します。この特徴抽出器を用いると、元のデータの種類にかかわらず、そのデータに表現された概念が類似していれば類似する特徴ベクトル (※5) に変換できるようになります。
　

図2．概念の表現方法

（2）目的音声の抽出
　目的音声を抽出するための信号のフィルタリングには、前述の SpeakerBeam を応用しています。SpeakerBeam は、混合音声から、話し手の声の特徴、つまり話者ベクトルに着目して、ある話者の音声を抽出することができる音源分離技術です。ConceptBeam では、新たに、指定された概念に適合する発話区間を検出し、その発話区間に対応する話者の音声を抽出する方法を考案しました（図3）。この方法では、まず、概念を指定する信号および混合音声からそれぞれ特徴ベクトルを抽出し、これらの特徴ベクトルの類似度を計算することで、混合音声のどの時間区間が指定した概念に類似しているかを検出します。続いて、検出された時間区間においてどの話者が発話しているかを検出し、この話者を表現する特徴ベクトルを抽出します。この話者特徴ベクトルを用いて混合音声から目的音声抽出を行うことにより、指定された概念について発話している話者の音声を抽出します。このとき、話者や話題が複数であっても処理することができます。
　

図3：目的音声の抽出方法
　
　本技術を評価するために、異なるテーマを含む複数話者による混合音声を所定の重なり率で作成し、画像または音声で指定した概念に適合する音声を抽出する実験を行いました（表1）。精度評価値は、混合された元の状態に比べて目的とする信号をどの程度の精度で抽出できたかを表す数値（スペクトル歪みの改善度(※6)）です。表１に示されるように、混合音声に対して音声認識を行う方法（手法1）および混合音声を音源分離する手法（手法2）と比較して、本技術では高い精度で目的の音声を抽出できました。
　
表１. 実験結果の例

　
4．今後の展開
　現在は様々な情報があふれており、有益な情報を抽出・選択することの重要性が日に日に高まっています。NTTでは、信号処理やパターン処理に意味処理を導入し、多種の情報に対して興味のある情報を高速かつ的確に特定し、取り出し、活用できる社会の実現をめざします。

用語解説
※1 SpeakerBeam
複数の声や音が混ざった音から、声の特徴に基づき "聞きたい人の声" を選択的に抽出する技術です。複数のマイクにより特定の方向に収音の指向性を向ける「ビームフォーミング」になぞらえて、特定の話者の特徴に合致する音声を抽出する技術をSpeakerBeam と名付けました。詳細は、2018年5月28日付の報道発表文をご参照ください。
https://group.ntt/jp/newsrelease/2018/05/28/180528c.html

※2　概念フィルタ
高い周波数を通過させるハイパス・フィルタ、特定の周波数帯域を通過させるバンドパス・フィルタのように、特定の概念を通過させるフィルタ、を意味する造語です。

※3　ベクトル
数値の組で対象を表現したものです。本技術では、画像や音声などといった情報の種類によらず、それぞれのデータに含まれる意味を表現する数値の組（ベクトル）を生成します。

※4　特徴抽出
画像や音声などのデータから、目的に応じた情報を取り出す操作のことです。例えば、画像をその明るさによって分類したいときに、画像を構成する画素の平均の輝度値を求める、といったことも特徴抽出の一例です。近年ではニューラルネットワークによって特徴抽出を行うことも広く行われています。

※5　特徴ベクトル
特徴をいくつかの数値で表現したものです。特徴ベクトルによって作られる空間を特徴空間と呼びます。

※6　スペクトル歪みの改善度
音声をどの程度正確に分離できたかを評価するための数値。正解が分かっている信号を混合したテスト信号に対して、分離抽出した信号のスペクトログラム（声紋）の誤差を測定し、混合信号に比べてどの程度誤差が少なくなったかを表した値。