【国際高専在学中から金沢工業大学AIラボで大学生と学ぶ】国際高専OBの鈴木大志さんが金沢工業大学4年次に取り組んだ研究が情報処理学会論文誌に採録。Any-to-Anyの音声変換をリアルタイムに行う手法の実装と評価で 大学プレスセンター 2024年02月15日 14:05 大学通信から中学・高校のニュースリリースをお送りします。 国際高等専門学校卒業生の鈴木大志さんが金沢工業大学情報工学科4年次のプロジェクトデザインIII(卒業研究。研究指導教員:情報工学科中沢実教授、鷹合大輔准教授)で取り組んだリアルタイム音質変換手法の研究内容の一部が情報処理学会論文誌(Journal)に採録され、2024年2月号に掲載されました。当論文は、厳しい査読結果からアクセプト(掲載許可)されたもので、国際高専4年生、5年生の2年間と金沢工業大学3年次、4年次の2年間の計4年間、一貫してAIに取り組んできた鈴木さんの研究水準の高さが評価されたといえます。 国際高等専門学校卒業生の鈴木大志さんが金沢工業大学情報工学科4年次のプロジェクトデザインIII(卒業研究。研究指導教員:情報工学科中沢実教授、鷹合大輔准教授)で取り組んだリアルタイム音質変換手法の研究内容の一部が情報処理学会論文誌(Journal)に採録され、2024年2月号に掲載されました。当論文は、厳しい査読結果からアクセプト(掲載許可)されたもので、国際高専4年生、5年生の2年間と金沢工業大学3年次、4年次の2年間の計4年間、一貫してAIに取り組んできた鈴木さんの研究水準の高さが評価されたといえます。 【鈴木大志さんについて】 鈴木大志さんは国際高等専門学校グローバル情報学科4年生、5年生の2年間、金沢工業大学AIラボにて大学生とともに深層学習をはじめとする機械学習や音声処理に関するAIスタートアッププロジェクトに参加しました。 2020年に国際高専を卒業後、金沢工業大学情報工学科3年次に編入した後も、AIラボで一貫して音質変換を如何に高精度且つリアルタイムに実現するかについて研究に取り組んできました。 そして学部4年次のプロジェクトデザインIIIでは、深層学習を専門とする中沢実教授と、信号処理を専門とする鷹合大輔准教授の指導のもとで、今回論文誌に掲載された「AutoVCを用いたゼロショットリアルタイム声質変換手法の実装と評価」に取り組んできました。 【鈴木大志さんの研究の概要について】 声質変換は、ある話者の声質を別の話者の声質に変換する技術で、応用先としてはアバターを使ったオンライン会議やボーカロイド、ボイスチャット、電話などでの使用があげられます。 身近な例でいえば、スマートフォンを使った電話も、実は本人そのものの声ではなく、本人に近い合成音声が使われています。 近年、深層学習を用いた声質変換技術の発展により、ある人物の声を、発話内容を変えずに別の人物の声質に高精度で変換することが可能となってきました。 こうした音声変換手法は扱う人数に応じて (1) One-to-One (2) Many-to-Many (3) Any-to-Any に大きく区分できます。 (1) は、特定の人物Aの声質を特定の人物Bの声質に変換する方式で、学習にはAとBの2人の声質が使われます。 (2)は、学習に用いる人物を複数人でき、手法によってはその双方向を変換できる方式ですが、学習に用いていない声質への変換はできません。 (3)は、学習に目標の声質の音声が含まれているかにかかわらず変換できる方式としてAutoVCがあり、学習用のデータになかった未知の対象を、テキストなどの補助的な情報を用いて予測する"ゼロショット"声質変換法と呼ばれます。 ゼロショット声質変換法では,多くの場合、 (1) 入力話者音声をメルスペクトログラムに変換し、 (2) 入力話者のメルスペクトログラムを出力話者のものに変換。 (3) 出力話者のメルスペクトログラムで音声信号を生成する。 という手順を踏みます。 この声質変換に要する時間が入力音声よりも短ければリアルタイム声質変換が可能ですが、(2) と(3) の両方で深層学習モデルを使うためGPUを使った演算量が増加し,それがリアルタイム声質変換の実現を困難にしていました。 この解決策として鈴木さんが提案したのは、音声の特徴量を「スペクトル包絡」、「基本周波数」、「非周期性指標」の3 つとし、深層学習モデルはスペクトル包絡の変換にのみ適用することで演算量を削減する方法でした。 深層学習モデルはAutoVC の構造をベースとして、前処理と後処理部分を変更したものを用いました。実験により、音声信号1 秒あたりの処理に要する時間はGPU 環境では0.2 秒以下となり、リアルタイム声質変換可能であることが示されました。 さらに従来のAutoVC と比べても品質が改善できていることもMOS(Mean Opinion Score)による評価結果から示されました。 ※メルスペクトログラム 音響特徴量の一部。音声の周波数をフーリエ変換したスペクトログラムで、人間の音声知覚の特徴を考慮したものを特にメルスペクトログラム(mel spectrogram)と呼ぶ。 ※スペクトル包絡 スペクトルの曲線族すべてに接している曲線を包絡線(ほうらくせん)と呼び、包絡線の表す山や谷などを「包絡」という。 ※GPU 特定の 3D レンダリング・タスクの高速化などに特化したプロセッサー。グラフィックスとゲームに使われるほか、汎用的な並列プロセッサーとして、生成AIなどにも使用されている。 論文名:「AutoVCを用いたゼロショットリアルタイム声質変換手法の実装と評価」 執筆者:鈴木大志 鷹合大輔 中沢実 情報処理学会論文誌 Vol.65 No.2 529-537(Feb.2024) 発行年2024-02-15 【リリース発信元】 大学プレスセンター https://www.u-presscenter.jp/
その他のリリース 【国内外の学生がビジネスアイデアを英語でプレゼン】国際高専が「ICT Startup Competition 2026」を開催。 大学プレスセンター 2025年12月16日 14:20 2024年12月新校舎完成!!広尾学園小石川中学校が12月6日に第2回入試傾向説明会・学校説明会を開催 ー 学校説明会にて生徒によるコース紹介も実施 大学プレスセンター 2025年12月03日 20:20 【kuru,ru. /大野バイシクルベ―スと国際高等専門学校、白山ろく里山活性化協議会との協同で】「紅はるか祭り」×「kuru,ru.コラボ企画」11月29日開催 大学プレスセンター 2025年11月26日 14:20 昭和女子大学附属昭和中学校・高等学校が女性技術者育成功労賞 組織優秀賞を受賞 サイエンスマインドを育むSTEM教育への取り組みが高く評価 大学プレスセンター 2025年11月21日 14:20 一覧を見る
話題のリリース 【京王百貨店 新宿店】\駅弁大会だけじゃない!“うまいもの”に注目/全国47都道府県のスイーツ缶が勢ぞろいする「全国推し缶選手権」や、駅弁から着想を得た「駅弁屋のコロッケ」が初登場 株式会社京王百貨店 3日前 iDeCoの拠出限度額、加入可能年齢が引き上げられます 厚生労働省 広報室 2025年12月19日 14:00 【TVer】2025年の利用動向をまとめた「数字で見るTVer」発表 株式会社TVer 2日前 \24日(水)・25日(木)は京王百貨店 新宿店 7階特設会場で21時まで営業/ 今年は小さめの3号ケーキやカットケーキのセットもそろう「予約なしで買えるクリスマスケーキ」 株式会社京王百貨店 2025年12月16日 11:00 マクドナルド×ドラゴンクエスト 伝説のコラボ第2弾 ドラクエバーガー誕生!2026年1月7日(水)から期間限定販売 日本マクドナルド株式会社 1日前 一覧を見る
お知らせ 2025年11月26日 サーバーメンテナンスのお知らせ |11/27(木)19:00〜19:10 2025年11月21日 年末年始の営業のお知らせ 2025年10月31日 サーバーメンテナンスのお知らせ |11/19(水)19:00~20:00 2025年09月01日 9/16(火)23:00~メールメンテナンスのお知らせ 2025年06月25日 サーバーメンテナンスのお知らせ |7/3(木)19:00~20:00 2025年04月04日 ゴールデンウィーク期間の営業について 2025年02月17日 3/4(火)23:00~メールメンテナンスのお知らせ 2024年11月20日 年末年始の営業のお知らせ 2024年09月25日 10/12(土)19:30~24:00サーバーメンテナンスのお知らせ 2024年08月05日 8/13(火) 19:00~20:00 サーバーメンテナンスのお知らせ 2024年08月05日 8/6(火)23:00~メールメンテナンスのお知らせ 2024年05月24日 サーバーメンテナンスのお知らせ |6/10(月)19:00~20:00 2024年04月04日 ゴールデンウィーク期間の営業について