大規模言語モデルに個人の発話を効率よく再現させる個人性再現対話技術を開発～NTT版LLM”tsuzumi”への適用により、本人のデジタル分身を低コストに生成可能～

日本電信電話株式会社
2024年01月17日
15：06

　NTT（本社：東京都千代田区、代表取締役社長：島田明）は、IOWN構想の柱の１つであるデジタルツインコンピューティング(以下、DTC) (※1)において、物理世界の制約を超えた活動や交流を通した機会増大や自己成長の実現を目指し、本人のように行動し本人と経験を共有する分身のようなAIエージェント「Another Me(R)」の研究開発を進めています。今回、NTT版大規模言語モデル「tsuzumi」(※2)の拡張技術として、少量の対話データから個人の口調や発話内容の特徴を反映して対話を生成する個人性再現対話技術を開発しました。また、少量の音声データから個人の声色を反映した音声を合成するZero/Few-shot音声合成技術を開発しました。従来、個人の特徴を学習し再現するには個人に関するデータが大量に必要だったのに対し、少量データから再現可能になったことで、多くの人が誰でも簡単にデジタル空間内に自身の分身を持つことが可能となります。本研究成果の実用化に向けて、自分自身に代わって人とのコミュニケーションやコミュニティ活動などを行うデジタル分身の公開実証等を進めていきます。

1．背景
　社会全体のデジタル化やAI技術の発展に伴い効率的な生活が実現されていく一方で、汎用ＡＩのようなあらゆる問題に画一的な答えを出すＡＩへの過度な依存により、個人や社会の多様性が損なわれる可能性も指摘され始めています。こうしたなかNTTでは、IOWN構想において人それぞれが多様な個性を自然に発揮できる社会の実現を目指しており、専門性や個性を備えた比較的小規模なAIの集合知による多様性の確保を方針としてNTT版大規模言語モデル「tsuzumi」の研究開発を進めてきました。さらに、人の多種多様な個性を学習し人の代わりに自律的に活動するAIにより、人の多様性を様々な社会・経済活動に反映していくAnother Meプロジェクトを推進しています。本プロジェクトにおいて、昨年度は「過去の行動からその人が持つ趣味、価値観などを推定する個人性抽出技術」や「プロフィールや属性からその人らしい対話を再現する個人性再現対話技術」の開発（※3）を行いました。今回、Another Meの社会実装をさらに進めるため、大規模言語モデル（LLM: Large Language Model）を対話に適用し、さらに、少量のデータからでも高い本人再現性を実現する技術を開発しました。

2．技術の概要
　個性を有する個人の代理として社会の中で活躍できるAnother Meの実現には、その人らしくコミュニケーションする機能が欠かせません。そのような分身を誰もが持てるようにするため、少量データをもとに本人らしい発話を生成する「個人性再現対話技術」と、数秒～数分程度の音声から本人の音声を合成できる「Zero/Few-shot音声合成技術」を開発しました。

・個人性再現対話技術
　優れた文章生成能力を持つLLMは、人どうしの対話を集めた大量のデータで学習させることで、雑談や議論など人の自然な会話を生成する対話技術にも適用可能です。従来の対話技術の研究においては、個人性を再現するために個人の大量のデータでLLMをファインチューニング(※4)していました。そのためコストがかかりすぎ、Another Meで目指す万人のデジタル分身を再現することはできず、一部の著名人への適用などにとどまっている状況でした。一方、比較的少量のデータによりLLMを効率的に追加学習させる方法として、アダプタ技術（※5）があります。これを対話における個人性の再現に適用した場合、ベースとなるLLMが多種多様な人の大量のデータで学習されているため、追加学習データとの類似性が低い対話例において、特徴が全く異なる他人のような発話が生成され、個人の再現度が低下するという課題がありました（図2上）。
　それに対して我々が開発した個人性再現対話技術では、ペルソナ対話技術とアダプタ技術を組み合わせることで、課題の解決を図っています。これら２つの手法の組み合わせにより、個人アダプタで学習されていないような対話においても、ベースとなるLLMが対象となる個人のペルソナを反映した発話を生成するため、全く異なる人の発話内容が生成されてしまうという問題を回避します（図2下）。

　ペルソナ対話技術は、居住地や趣味などその人の大まかなプロフィール情報をパラメータ指定することで、そのようなプロフィールを持った人格（ペルソナ）に相応しい発話内容を再現することが可能です。tsuzumiのアダプタ技術を個人性の再現に適用した個人アダプタは、エピソードを交えた発話や口癖など、対象の個人に特化した発話生成が可能です。個人アダプタとして個人ごとに追加されるモデルのサイズは非常に小さく、動的に切り替えることができるため、多人数の対話の再現を効率的に実現できます。

・Zero/Few-shot音声合成技術
　従来技術では、声を作りたい話者・口調ごとに数十分程度の音声データを用意する（収録に要する時間はその数倍）必要があり、万人の音声を再現したり、キャラクタの多彩な口調を実現するにはコストが高くなってしまう問題がありました。
　我々は、より少ない音声データからでも高品質かつ多様な表現の生成を可能にする2つの技術を実現しました。1つ目は、多忙な方や声を失った方など極少量の音声しか得られない方を含む万人の音声の簡易な再現をめざし、声を再現したい話者のほんの数秒程度の音声から声色の特徴を抽出し、音声合成モデルの学習をすることなくその特徴を再現した音声を生成する「Zero-shot音声合成技術」です。2つ目は、著名人や有名キャラクタ等の声色・口調をより高い再現度で反映させることをめざし、再現したい口調の音声を含む数分〜10分程度の音声データから音声合成モデルを学習し、従来に比べ必要な音声データ量を大きく削減しながらも再現性の高い音声を合成可能な「Few-shot音声合成技術」です。
　これらの技術を実現するためには多くのパラメータを持つ深層学習モデルを必要としますが、演算処理の高速化により一般的なスペックのCPUで動作させることに成功しており、本技術を用いた音声合成サービスの運用コストを低く抑えることを実現しています。

3．技術の効果
　これら技術により、自分の代わりに他人とコミュニケーションをするデジタル分身を誰もが持つことができるようになります。その主な適用先として我々が考えているのがメタバースのような新たなデジタルコミュニケーションサービスです。サービスを使いこなして物理空間では会えない様々な人と交流している先進的なユーザがいる一方、多くの新規ユーザは誰と話せばよいか、何をすればよいか、最初は戸惑うことが多いのも実情です。それに対して本技術によるデジタル分身は、ユーザ自身がログインしていなくても自律的に活動するNPC（Non-Player Character）として他のユーザやそのデジタル分身とコミュニケーションし、その内容をユーザ本人に持ち帰って共有します。そうすることで、全く知らない人に話しかける心理的障壁や仕事・家事などの時間的制約に縛られず、興味関心や気心の合うユーザと友達になるきっかけが得られます。また、趣味や関心が共通する人々のコミュニティに分身が代理参加してユーザに橋渡しすることで、コミュニティ活動を活性化することができます。有名人やインフルエンサーのデジタル分身をサービス内に常時配置することで、ファンコミュニティの拡大・活性化も期待できます。
　このようなデジタル分身のプロトタイプをＮＴＴドコモのメタコミュニケーションサービス「MetaMe」上に実装し、2024年1月17日から東京国際フォーラムにて開催されるdocomo Open House’24(※6)にて展示予定です。

4．今後の展望
　ユーザのデジタル分身を通じた人間関係の創出効果に関してMetaMe上でのフィールド実験を2023年度中に開始予定です。このような取り組みを通して、NTT版大規模言語モデルtsuzumiによる個人性再現機能の提供に向け、2024年度中に技術の精度向上を図ります。それにより、特定の領域に関する高い専門的な言語能力を有しながら、親しみやすい個性を持ち顧客や社員等との関係性を築けるデジタルヒューマンやチャットボットの実現につなげていきます。

＜用語解説＞
※1　地球・社会・個人間の調和的な関係が築かれる未来社会の実現に向けて
～デジタルツインコンピューティングの4つの挑戦～
https://group.ntt/jp/newsrelease/2020/11/13/201113c.html

※2　NTT版大規模言語モデル「tsuzumi」
https://www.rd.ntt/research/LLM_tsuzumi.html

※3　NTTニュースリリース 2023年2月1日：人との繋がりを生み出す次世代アバターUX技術の開発～NTTドコモが技術提供するコミュニケーションサービスMetaMe™に人デジタルツイン技術を試験実装～
https://group.ntt/jp/newsrelease/2023/02/01/230201a.html
なお、2023年2月1日に発表した個人性再現対話技術（2022年度版）は、個人性再現対話技術の中のペルソナ対話技術のみを実装したものです。

※4　ファインチューニング： AIにデータに基づく知識を与えるための機械学習技術に関する用語で、大規模なデータで既に学習してあるAIモデルを、別の比較的小規模なデータで学習させて微調整（fine tuning）すること

※5　アダプタ技術：事前学習済みモデルの外部に比較的小規模のモデル（アダプタ）を追加することで、事前学習済みモデルのパラメータを固定したまま効率的に追加学習が可能となる技術

NTT版大規模言語モデル「tsuzumi」柔軟なチューニング～基盤モデル＋アダプタ～
https://www.rd.ntt/research/LLM_tsuzumi.html#anc03

※6　docomo Open House’24
https://docomo-openhouse24.smktg.jp/public/application/add/32

「MetaMeⓇ」は、株式会社NTTドコモの登録商標です。