高精度音声認識AIとリアルタイム字幕化技術によって、聴覚障がい者の業務サポート、生産性向上を実現
当社は、リアルタイムで会議や講演などにおける発話を高精度にテキスト化し、読みやすい字幕を表示する技術を開発しました。
本技術は、発話者の音声を高精度に認識し、「ええと」「あの」など発話の合間に挟み込むフィラーや、「きょ、今日は」などの言いよどみを瞬時に検出し、表示を工夫することで、視聴者が読みやすいリアルタイム字幕を自動的に表示します。本技術を活用することにより、聴覚障がい者に、音声を文字にして情報を提供する情報保障の拡充を支援することができます。
当社は本技術の実用性を確認するため、社内外で複数の実証実験を行っています。2015年から社内の聴覚障がい者を対象にした実証実験では、「発言がリアルタイムで把握できるため情報量が格段に増えた」「十分に効果がある。早く実用化してほしい」など高い評価を得ました。
2017年から一般社団法人情報処理学会と共同で行った学会講演
注1の字幕提供の実証実験においては、音声認識率が発言内容を把握できるレベルの85%
注2に達し、アンケートでも良好な結果が出ています。
当社はこのたび、本技術の効果をさらに測定するため、3月14日~16日に福岡大学で開催される「情報処理学会 第81回全国大会」のリアルタイム字幕付きの生中継を株式会社ドワンゴのニコニコからオンライン配信する予定です。
配信は下記URLからご覧いただくことができます。
・3月14日9:30~17:00
http://live2.nicovideo.jp/watch/lv317111922
・3月15日9:30~17:30
http://live2.nicovideo.jp/watch/lv317113405
・3月16日9:30~17:30
http://live2.nicovideo.jp/watch/lv317113475
厚生労働省の調査によると、全国の聴覚障がい者の総数は約34万人
注3にのぼります。多くの聴覚障がい者が社会で活躍していますが、「聴覚障がい」は「情報障がい」とも呼ばれ、会議や講演において必要十分な情報を得ることができず、情報保障の拡充が求められています。
また、2023年頃から加速すると言われている日本国内の労働力不足に対して、AI技術による業務代行と自動化が推進されています。
その中でも音声認識AIは多くの音声書き起こし作業の代替手段として期待が高まっています。現在、会議や講演の字幕表示や、記録としての書き起こしには多くの労力がかかっており、これらを音声認識AIで解決することにより、聴覚障がい者が会議や講演に参加することを可能にするとともに、作業量低減による生産性向上を実現します。
しかし、現状では会議や講演のような話し言葉の音声には、ニュース音声などとは異なり、「ええと」「あの」などのフィラーや「きょ、今日は」などの言いよどみが含まれ、音声認識精度が劣化するとともに、そのままテキスト化しても非常に読みづらい文章になってしまいます。そこで、今回、フィラーや言いよどみを含む音声を高精度・リアルタイムで認識・検出して、見やすい字幕や書き起こしテキストを提供できる技術を開発しました。
一般的な音声認識では、「あ、い、う・・・」のような音韻を識別する音響モデルと、「今日は」の次に来る単語の確率が(雨0.25、晴れ0.25、曇り0.25、良い0.25)などといった単語の連鎖をモデル化した言語モデルの二つのモデルを使います。
今回開発した音声認識AIでは、音響モデルとしてLSTM
注4とCTC学習
注5を用いることで、人間のフィラーや言いよどみ発声時の音響的特徴を学習することが可能となります。そして音声認識時には、学習された音響的特徴に基づいて、フィラーや言いよどみを検出することが可能です。検出したフィラーや言いよどみはリアルタイム字幕表示の際に薄く表示することで視聴者の読みやすさを向上させ、ドキュメントとして残す際には消去することで簡潔な形で仕上げることができます。
また、言語モデルとして、言いよどみが検出された場合、その単語をスキップして連鎖スコアを計算します。例えば、「私の き 今日の発表は」という発言の時に、「き」という言いよどみ単語が検出されたときは「私の」の次に「今日」が来るスコアを算出します。これにより、通常の文章にはないイレギュラーな単語の連鎖をモデル化する必要がなくなります。
当社は社内実証実験の中で、デザイン部門と協力して直観的に見やすいリアルタイム字幕表示方法を考案しました。前述のフィラー・言いよどみ単語を薄く表示する工夫も本検討による成果の一つです。
本技術を搭載した音声自動字幕システムを5つのメインセッションがある実際の講演で実証実験を行ったところ、編集や事前学習なしで、発言内容が把握できるレベルである85%の平均音声認識率という結果になりました。また、アンケートでは、本字幕システムが「できる限り必要」と回答した約40%の方を含め、全体の約90%の方が「あっても良い」と回答するなど良好な結果が出ました。
当社は今後、本音声認識技術を東芝コミュニケーションAI「RECAIUSTM(リカイアス)」の基本技術に搭載することを目指して検討を進めていきます。
注1 情報処理学会主催のソフトウェアジャパン2019のメイン講演
注2 ここでは文字正解精度。正解文との文字の一致率による尺度。発言内容が把握できるレベルは内容にもよるが75~90%と言われている
注3 厚生労働省「平成28年生活のしづらさなどに関する調査(全国在宅障害児・者等実態調査)結果」
注4 LSTM (Long Short-term Memory)、隠れ層に再帰構造のあるRNN(Recurrent Neural Network)の発展形の一つ。従来のRNNでは困難であった長期の依存関係を学習可能
注5 CTC = Connectionist Temporal Classification空文字の導入と損失関数に工夫により、入出力で系列長が異なる問題に対してRNNを導入するための手法
参照:河原達也. 話し言葉の音声認識の進展 ―議会の会議録作成から会議・講演の字幕付与へ―. メディア教育研究, Vol.9, No.1, pp.1--8, 2012.