マーケティング情報のデータ分析を加速する暗号化データの統合・分析手法を世界で初めて開発 ~セキュリティの最高峰国際会議 ACM CCS で発表~
なお、本成果は2023年11月26日から30日まで、デンマーク・コペンハーゲンで開催されるセキュリティ分野の最高峰国際会議 30th ACM Conference on Computer and Communications Security (ACM CCS 2023) において発表されます。
1.研究の背景
データの活用が拡大している昨今、活用の対象を個人に関する情報や機密データへと広げる際に、どう安全性や安心感を確保するかが課題となっていました。NTTはこの課題に対し、データを暗号化したまま計算途中の値をも一度も元に戻すことなく分析結果を計算する秘密計算技術の研究を進めてきました。理論研究においては秘密計算で任意の処理が実現できることは証明されているものの、現実的な時間で実行できる処理は限られていました。秘密計算の効果が大きいと考えられる利用シーンとして、異業種の組織間のデータを持ち寄った分析があり、大量かつ多くの種類のデータの分析のため、秘密計算で多様な分析をより高速に実現されることが望まれていました。
2.研究の成果
従来の技術では計算可能な統計量が平均値や最大値、最小値などに限られていましたが、当該技術により、複数の組織が持ち寄ったデータを暗号化したまま、双方のデータに共通して含まれる人物に関し名寄せしたデータを作成(データ結合)し、名寄せ後のデータに対して統計値計算(グループ化集計)を行うという一連の分析(図1)を、これまでよりも多様な統計値を対象に、より高速に実現することができるようになりました。クレジット利用額のような極端な値が含まれるデータに対しても、楽曲データを販売している会社Aとクレジットカード会社Bが、好みの楽曲とクレジットカード利用額の関係に着目した分析(グループ化集計)を行い、双方の持つデータを誰にも明かすことなく名寄せを行い、好みの楽曲のジャンルごとのクレジット利用額の統計量を計算することができます。
一方、NTTが今回開発したグループ化集計のアルゴリズムを使うと、中央値やパーセンタイルなどの、極端な値の影響を受けにくい重要な統計量をも世界で初めて計算できるようになり、これまでよりもデータの特徴を捉えた分析ができるようになります(図2)。また、今回開発したデータ結合のアルゴリズムは従来の技術と比較して実測値で3.95倍の世界最高速を達成しています。これらのアルゴリズムを使うことにより、100万件の顧客データ同士を名寄せしてから好みの楽曲のジャンルごとのクレジット利用額の5種類の統計値(件数、総和、最大値、最小値、中央値)を計算するまでの一連の処理を9秒で完了する実験結果を得られました。
3.技術のポイント
NTTが今回開発した方法では、従来の技術とは異なる方法でデータ結合とグループ化集計を実現しています。ポイントは大きく2つあります。
1つめのポイントは、データ結合で累積和の計算を利用したことです。データ結合の従来手法では、集計木と呼ばれる技術を用いていましたが、集計木には前の計算に依存した計算が多く含まれるため、並列性が高くなりにくいという問題がありました。これに対しNTTが開発したデータ結合の方法は、集計木を使わずに並列性を高めやすい累積和の計算を利用することで、高い並列性を生かした高速なデータ結合を実現しました。
2つめのポイントは、グループ化集計でデータの並びを効果的に利用したことです。グループ化集計の従来研究では、集計木を応用することにより、層別の総和や最大値などの統計値計算を実現できることが証明されていました。これに対しNTTが開発したグループ化集計の方法では、データを昇順に並び替え、データの並びが昇順であることを効果的に利用することによって、世界初の中央値やパーセンタイルを含む、従来手法よりも多くの種類のグループ化集計を実現しました。
4.今後の展開
本成果はNTT Comが提供中のサービス「析秘」に実装されており、サービスを通じて複数の組織が持ち寄ったデータの安全な統計分析に貢献しています。今後はさらなる演算の拡充により、より広範囲のデータベース処理の実現を進めていきます。
〈参考〉
NTTコミュニケーションズ株式会社 秘密計算サービス 析秘(セキヒ)
https://www.ntt.com/business/services/secihi.html
※「析秘」はエヌ・ティ・ティ・コミュニケーションズ株式会社の商標です。