【東芝】一般的なPCで高速に群集の人数をカウントするAIを開発
独自の深層学習手法で、カメラ画像に映る群集を高速・世界トップレベルの精度で解析、施設における新型コロナウイルス対策などを低コストで実現
当社は、独自の深層学習手法によって、カメラ画像に映る群集の人数を一般的なPCで高速に計測できる画像解析AIを開発しました。深層学習方式による解析は一般的にGPU注1などの専用の演算装置を必要としますが、本技術は一般的なPCに搭載されているCPU注2上での高速解析を可能とし、1分間に約180台のカメラ画像を処理することができます。また、従来の深層学習手法と比較して、画像1枚あたりの測定人数の誤差を16.0%から14.7%に改善し、世界トップレベルの計測精度を実現しました注3。
本技術により、大型施設や複数施設のカメラ映像をクラウド上で一括解析するシステムを、少ない計算リソースで運用することができるとともに、新型コロナウイルスの感染予防における有効な密集防止策としても活用することが期待できます。
当社は本技術の詳細を、2020年6月10日~12日に開催されるSSII2020(第26回画像センシングシンポジウム)で発表します。
近年では、AI(深層学習技術)を応用することで、密集度が極めて高い群集の人数の推定が可能になっています。一方で、一般的に深層学習を用いた解析は、データの処理量が膨大でGPUなどの高価な専用演算装置が必要となるため、コストの増加が避けられず、幅広い施設への普及が困難です。
そこで当社は、GPUなどの専用の演算装置を用いず、一般的なPCに内蔵されているCPU上の動作に最適な独自の深層学習手法を用いることで、CPU上での高速処理を可能としました。本技術は、従来の深層学習手法を用いてCPU上で処理した場合との比較において、約4倍にあたる1秒間に約3台のカメラ画像を解析処理することができます。1分間では約180台のカメラ画像を処理することが可能であり、大規模施設に設置されている大量の監視カメラを1台のPCで計測することもできます。
CPUでの高速処理に加え、本技術では世界トップレベルでの計測精度を実現しました。従来の深層学習手法は、画像に映る人物を同一の推定単位・尺度で解析するため、カメラからの距離によって人物の大きさが変わると正確に検知できず、推定精度が低下していました。本技術は、人物の大きさの変化に対応するため、画像に映る複数のグループが大小どのようなサイズであっても解析できるネットワーク構造にすることで、推定精度の向上を実現しました(図3)。
超高密度な群集を撮影した難易度の高い群集計測のための公開データセット注4による評価において、今回開発した手法を適用することで、画像1枚当たりの推定人数の誤差が、16.0%から14.7%に改善し、世界トップレベルの性能であることが確認できました。
また、本技術は、画像の中で混雑している箇所を密度マップとして可視化し、流れの中で人が滞留している箇所や、密集箇所を検知することが可能です。
本技術により、監視カメラの画像から、密集状態を検知して通知することで店舗や公共施設内の状態を把握できるようになり、監視の平準化・省力化が図れるほか、滞留する場所を可視化することにより密集緩和対策への貢献が期待できます。
当社は今後、新型コロナウイルスの感染予防などの応用に向けて、本技術を当社グループの製品およびサービスへ広く活用することを検討し、2020年度中の製品化を目指します。また、渋滞の解消に向けた車両数解析、在庫管理に向けた箱や商品数解析に対応するなど、解析の対象を拡充していきます。
注1 GPU:Graphics Processing Unitの略で、画像処理に特化した演算装置。
注2 CPU:Central Processing Unitの略で、コンピュータの主要な構成要素の一つ。
注3 公開データセット(ShanghaiTech-PartA)の基準に基づき、画像300枚で学習を行い、評価画像182枚を用いて、画像1枚当たりの正解人数に対する推定人数の絶対誤差の割合を算出し評価。当社調べ。(2020年4月現在)
注4 手法の評価を目的として各大学が公開している画像データであり、人数計測の評価に一般的に用いられるShanghaiTech-PartAデータに対して評価した。