大規模データ間の類似度や対応関係を高速/高精度に算出する技術を開発 ~データの関係性を「素早く正確に測る」ことで、生成AIやメディア情報処理の革新的効率化を可能に~

 日本電信電話株式会社(本社:東京都千代田区、代表取締役社長:島田 明、以下「NTT」)は、データ間の類似度や対応関係を求める最適輸送問題(※1)に対して、実世界のデータに潜む巡回対称性(※2)を利用することで、完全に同等な解を高速に求めることが可能な新しいアルゴリズムを提案し、その効果を理論的かつ実験的に世界で初めて示しました。
 今回提案したアルゴリズムは、入力データの巡回対称性や様々な最適化技術を用いて、最適輸送問題を非常に少数の変数で構成された別の最適化問題に帰着し、それを元の最適輸送問題の代わりに解くことで、計算コスト削減を実現しました。
 これにより、熟練者と初心者間での身体動作の比較、定量化、そして可視化を通じて、人々の視覚認知能力の向上や伝承を支援する研究開発を推進し、スポーツを始め多様な人々の能力拡張とその発揮に向けたサービス基盤の実現に向けて前進します。
 また、2024年2月20日~2月27日にカナダ・バンクーバーで開催されたAI分野における最高峰の国際会議であるThe 38th Annual AAAI Conference on Artificial Intelligence (※3) (AAAI2024、採択率23.8%) において発表されました。


1.研究の背景
 NTTではICTによるナチュラルな人の能力拡張をめざして、実世界の本質的な変化や違いを見極める熟練者やAIの優れた視覚認知(=視覚環世界)を伝承し、人々の視覚認知能力に革新的向上をもたらす研究に取り組んでいます。具体的には、トップ選手動作への視覚認知向上による競技者の運動学習支援、微小拍動への視覚認知向上による(熟練医)研修医の(最)高難度手術の遂行支援、誇張表現を通じて選手や演者の動作意図が明確に伝わる高臨場体験の創出など、本質的な変化や違いのみを高精度に検出し、誇張表現を介して明瞭に可視化する視覚認知向上システムの構築を目指しています。
 上記システムの実現に向けては、データ間の変化や違いを高精度に検出する基礎技術が必要となります。近年、このような技術の一つとして最適輸送問題が注目されていますが、この問題を解くには多くの計算時間がかかるという課題がありました。今回の技術では、実世界のデータに潜む巡回対称性を利用することで、最適輸送問題をベースとした大規模データ間の類似度や対応関係を高速かつ高精度に計算する技術を開発し、計算コスト削減を実現しました。

図1 巡回対称性(*鏡映対称性を含む)を持つ実世界の画像データ


2.本技術のポイント
  • データに潜む巡回対称性の利用
     今回提案したアルゴリズムではまず入力データの巡回対称性に着目し、最適輸送問題を各対称成分の変数毎に分割して考え、そこからさらに全対称成分を縮約する新しい補助変数を導入することで、非常に少数の変数で構成された最適化問題に帰着させます。このように、最適輸送問題を別の小さな最適化問題に帰着し、それを元の最適輸送問題の代わりに解くことで、計算コスト削減を実現しました。
  • 最適輸送問題の帰着および解の復元処理
     従来のアルゴリズムでは最適輸送問題を直接解きますが、今回提案したアルゴリズムでは最適輸送問題を別の小さな最適化問題に帰着し、それを代わりに解き、元の最適輸送問題の解を復元します(図2)。問題の帰着および解の復元という2つの処理が新たに必要となってしまいますが、それを加味したとしても提案アルゴリズムが高速に解を求めることが可能なことを理論的かつ実験的に検証しました(図3)。なお、一番効果が高い実験結果を図3として例に記載しています。
図2 提案手法の概要

図3 50次の巡回対称性を持つ1000次元のデータ間の最適輸送問題を解いた時の実験結果


3.今後の展開
 今後は、本成果を用いた熟練者と初心者間での身体動作の比較、定量化、そして可視化を通じて、人々の視覚認知能力の向上や伝承を支援する研究開発を推進していきます。
 また、多様な人々の環世界の連結を志向するIOWNの技術基盤の一つとして、スポーツを始め多様な人々の能力拡張とその発揮に向けたサービス基盤の実現をめざしてまいります。

※1 最適輸送問題
輸送コストが最小となるデータ間の最適な輸送経路を求める問題のこと。1781年にMongeによって提案され、1942年にKantorovichが線形計画による定式化を行った。直感的には、図4のように砂山p(x)を砂山q(y)に移すときの総コストが最小になる動かし方(最適な輸送経路)を求める問題と解釈できる。


図4 最適輸送問題の直感的な解釈の例

※2巡回対称性
回転や反転などの変換を適用しても、その構造が変わらない性質のこと(例えば、歯車や雪結晶などは巡回対称性を持つ)

※3 AAAI
人工知能に関するトップレベルの国際会議
URL: https://aaai.org/aaai-conference/

この企業の関連リリース

この企業の情報

組織名
日本電信電話株式会社
ホームページ
https://group.ntt/jp/corporate/overview/
代表者
島田 明
資本金
93,800,000 万円
上場
東証プライム
所在地
〒100-8116 東京都東京都千代田区大手町一丁目5番1号大手町ファーストスクエア イーストタワー
連絡先
03-6838-5111