-
-
-
学校法人 千葉工業大学 人工知能・ソフトウェア技術研究センター(ステアラボ)と国立研究開発法人 産業技術総合研究所(産総研)と国立研究開発法人 新エネルギー・産業技術総合開発機構(NEDO)は、世界最大で、日本語では初となる、動画キャプションデータセット「STAIR Actions キャプションデータセット」を構築しました。本データセットは79,822万本の動画に付与された399,233個のキャプション(動画内容を説明する日本語記述)からなります。ディープラーニングの訓練用データとして用いれば、動画を日本語に変換するモデルを構築することができます。3月12日よりインターネットで公開します。
【 概 要 】
ディープラーニングの長足の発展により様々な産業分野で人工知能の応用が行われるようになってきました。少子高齢化が進展する社会においては育児や介護など人を対象とした人工知能活用が大いに期待されています。そのためには人の動作の認識、認識した内容の言語化などの能力が必要になります。
そこで、ステアラボと産総研とNEDOは2016年より人の動作のきめ細かい認識の研究に取り組んで来ました。ディープラーニングによってきめ細かい動作認識を実現するためには人の動作を収録した動画やその動画を日本語で記述したデータが大量に必要ですが、本プロジェクト※1ではディープラーニングによる動作認識モデル構築のための日常シーンをおさめた動作動画10万本からなるデータセット STAIR Actions ※2を構築し、昨年7月公開しました。今回STAIR Actionsに含まれる動画79,822本の動画に対して日本語で内容を記述した399,233個のキャプションデータセットを構築し、3月12日にインターネットで公開します。人の動作動画キャプションデータセットとしてはマイクロソフト社の26万件を超えて世界最大規模のデータセットとなります。また日本語では初の大規模データセットとなります。今までの欠落していた日本語キャプションの穴を埋めることにより、日本語に基づく動画と言語をつなぐマルチモーダル研究が一気に加速されることが期待されます。本データセットについての詳細を3月12日より名古屋大学で開催される言語処理学会第25回年次大会で発表致します。
【 技術の詳細 】
1.データセットの特徴
・動画は昨年7月公開したSTAIR Actions所蔵の10万本に含まれる79,822本
・一本の動画あたり平均5つの日本語キャプション
・キャプション総数:399,233個
・キャプションは動画の内容を日本語で記述しており、記述は「誰が」「どこで」「何をしている」の3つの要素から構成されている
・日常生活シーンが中心
2.公開情報
・公開日 2019年3月12日
・URL
http://sa-captions.stair.center
・学会発表:言語処理学会第25回年次大会 (NLP2019)
2019年3月12日~15日 会場:名古屋大学 東山キャンパス
・利用範囲:人工知能研究目的に限る
・費用:無償
※1 本プロジェクト
NEDO事業名:次世代人工知能・ロボット中核技術開発/次世代人工知能技術分野「きめ細かい動作認識の研究開発」
実施期間:2016年度~2019年度
※2 STAIR Actions
昨年7月公開した日常生活シーン約100,000本の動画データセット: 100種類の動作おのおのにつき約1,000本の動画を収納。
http://actions.stair.center
〈開発・研究についてのお問い合わせ〉
竹内彰一(タケウチ アキカズ)
千葉工業大学 STAIR Lab
(人工知能・ソフトウェア技術研究センター)
http://stair.center
〒275-0016 千葉県習志野市津田沼2-17-1
TEL:047-478-4412 FAX:047-478-4412
E-Mail: takeuchi@stair.center
〈広報関連についてのお問い合わせ〉
大橋 慶子(オオハシ ケイコ)
海老根 克磨 (エビネ カツマ)
千葉工業大学 入試広報課
〒275-0016 千葉県習志野市津田沼2-17-1
TEL:047-478-0222 FAX:047-478-3344
E-Mail: katsuma.ebine@p.chibakoudai.jp
▼本件に関する問い合わせ先
千葉工業大学
【リリース発信元】 大学プレスセンター
https://www.u-presscenter.jp/