【東芝】世界初、少量データによる「オフライン強化学習」で複雑なロボット操作を高精度に制御するAIを開発

2024年05月10日 10:28

２０２４－５－１０
株式会社　東芝

世界初、少量データによる「オフライン強化学習」で複雑なロボット操作を高精度に制御するAIを開発
～安全かつ効率的に学習可能なAIで製造現場などの自動化を推進し、人手不足の解消に貢献～

概要
　当社は、ロボット制御に用いられる機械学習の一つである「オフライン強化学習」において、世界で初めて(*1)、少量の画像データから複雑なロボット操作を高精度に制御するAI技術を開発しました。本AIを用いて、公開ベンチマーク環境でピッキングや物を置くといった8種類の作業のシミュレーション評価を行ったところ、従来手法では36％だった平均成功率が今般の開発手法を用いると72％に向上し、世界最高精度(*2)を達成しました。
　AI自身が試行錯誤して学習する強化学習に対して、あらかじめ作成したデータで学習する手法は「オフライン強化学習」と呼ばれています。従来、この手法で精度を上げるには数千以上の学習データが必要で、データの作成に数週間から1ヵ月以上かかるといった課題がありました。本AIは100程度の少量の学習データで精度を上げることが可能で、必要なデータが減ることから、わずか半日ほどで学習データを作成することができるようになります。学習データの作成に必要なデータが少ない分野や試行錯誤してデータを作成することが難しい分野で、導入時の負荷を抑えながらより簡単に機器制御ができるようになり、安全性が求められる製造機器や医療機器の操作・自動運転を含む、あらゆる分野における自動化を推進し、人手不足の解消に貢献できます。
　本AIは、理化学研究所革新知能統合研究センター長　兼　東京大学大学院新領域創成科学研究科教授の杉山将氏(*3)との共創の成果で、ロボットアームの作業状況を撮影した画像から注目領域を切り出して制御の微調整を行う、2段階制御を学習する技術を開発し、精度の大幅な改善を実現しました。
　当社は、本技術の詳細を、5月13日から17日にかけて横浜で開催されるロボティクス分野で世界トップの国際学会「ICRA（IEEE International Conference on Robotics and Automation）」にて5月14日に発表します。

開発の背景
　近年、製造・保守・物流など産業のさまざまな現場で、労働力不足や熟練者の減少などを背景に、ロボットによる自動化が急速に進められています。世界の産業オートメーション市場は、2022年の2,058億6,000万米ドルから2029年までに3,950億9,000万米ドルに成長（年平均成長率9.8％）すると予測されており(*4)、より複雑な作業を自動化できる技術へのニーズが高まっています。
　現在、製造現場などでロボットを導入して複雑な作業をさせるためには、対象物の位置や向きなどの状態推定や、状態ごとの動作計画などを専門家が設計・開発する必要があり、人手で学習させています。ロボット制御に用いられる機械学習手法の一つである「強化学習」は、カメラで取得した画像から自律的にロボットの操作を学習できるため、複雑な作業を自動化する手法として期待されています。しかし、高精度な作業を実現するには、AIがロボットを実際に稼働させ（オンライン）、試行錯誤して学習していくため、安全上の懸念が生じます。
　そこで、あらかじめ作成したデータから制御を学習し（オフライン）、試行錯誤を必要としない「オフライン強化学習」への期待が高まっています。オフライン強化学習で精度を上げるには、想定される物の配置や作業のパターンを網羅的に学習する手法が一般的ですが、数千以上の学習データが必要であり、その学習データの作成に数週間から1ヵ月以上かかるなど、多大な手間と労力がかかります。複雑なロボット制御を安全かつ高精度に少量のデータで学習するオフライン強化学習が実現すれば、より多くの現場でロボットによる自動化を進めることができます。

本技術の特徴
　そこで当社は、人手によるティーチングであらかじめ作成した少量のデータで、AIが精度の高いロボット操作を学習する手法を開発しました。本手法では、ロボットアームの操作範囲を撮影した画像からロボットアームの移動先を決定する１段目の制御と、移動先周辺のみを切り取った画像から移動先を補正する2段目の制御により構成される2段階制御を学習します（図1）。
　従来手法は1段目の制御のみを学習して制御を行っていました。今般開発した手法では、2段目の制御の学習において、注目領域のみを含む画像が入力されること、データの水増し(*5)ができること、効率的に学習可能な移動先の補正のみを学習対象としていることにより、より高い精度のロボット操作が可能になりました（図2）。
　本手法を用いてロボット操作100回の画像データで学習したロボット制御AIを、公開ベンチマーク環境（RLBench)でシミュレーション評価したところ、ピッキングや物を置くなどの8種類の作業をそれぞれ500回行った際の平均成功率が従来手法の36％から72％に大幅改善し、世界最高精度を達成しました（図3）。作業別では、従来手法では最高79%の成功率が、本手法では最高99%に向上しました。また、2段目の学習データとなる切り取り画像は、1段目のロボットアームの移動先決定と同時に自動的に生成されるため、追加作業が不要です。100回分の学習データであればわずか半日ほどで作成することが可能であり、学習データの作成に必要なデータが少ない分野や試行錯誤してデータを作成することが難しい分野などでの活用が期待できます。
　本AIにより、少ない時間とコストで、製造機器や医療機器の操作・自動運転など、安全な学習が必要とされる機器の制御の精度を大きく向上させることができます。例えば、高熱を扱うため安全性が求められる製造工場の溶接機器の自動化に適用することで、従来必要だった熟練者の作業をロボットで代替でき、人材不足の解消に貢献します。

図1：開発した2段階制御学習手法の概要

図2：開発技術のポイント

図3：公開ベンチマーク環境での評価結果

今後の展望
　当社は、本技術の有効性を実環境のデータを用いて進めるとともに、精度のさらなる向上を図り、早期の実用化を目指します。

*1　少量の画像を学習データに用いたオフライン強化学習において、高精度なロボット制御シミュレーションを実現したのが世界初。2024年4月当社調べ。
*2　100回分という少量の学習データでオフライン強化学習したロボット制御AIを用いて、公開ベンチマーク環境(RLBench/シミュレーション環境）で、ピッキングや物を置くなどの8種類の作業をそれぞれ500回行った場合の平均成功率72％が世界最高精度。2024年4月当社調べ。
*3　理化学研究所革新知能統合研究センターセンター長、東京大学大学院新領域創成科学研究科教授。IBM Faculty Award、情報処理学会長尾真記念特別賞、文部科学大臣表彰若手科学者賞、日本学術振興会賞、日本学士院学術奨励賞、文部科学大臣表彰科学技術賞、FIT船井業績賞など多数受賞。今般の学会発表論文も杉山氏と当社研究者による共同執筆。
*4　FORTUNE BUSINESS INSIGHTS　産業オートメーション市場規模、シェア　成長レポート
https://www.fortunebusinessinsights.com/jp/%E6%A5%AD%E7%95%8C-%E3%83%AC%E3%83%9D%E3%83%BC%E3%83%88/%E7%94%A3%E6%A5%AD%E3%82%AA%E3%83%BC%E3%83%88%E3%83%A1%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B3%E5%B8%82%E5%A0%B4-101589
*5　機械学習において、学習に用いる画像データが少ない時に、画像の回転・切り取り・合成などを行いデータを増やす手法で、データ拡張のこと

その他のリリース

一覧を見る

話題のリリース

一覧を見る

お知らせ

2026年04月06日
ゴールデンウィーク期間の営業について
2026年03月17日
リニューアルに伴うサービス停止期間のお知らせ｜3/31（火）20:00～
2026年02月03日
2/24（火）23:00～メールメンテナンスのお知らせ
2025年11月26日
サーバーメンテナンスのお知らせ｜11/27（木）19:00〜19:10
2025年11月21日
年末年始の営業のお知らせ
2025年10月31日
サーバーメンテナンスのお知らせ｜11/19（水）19:00～20:00
2025年09月01日
9/16（火）23:00～メールメンテナンスのお知らせ
2025年06月25日
サーバーメンテナンスのお知らせ｜7/3（木）19:00～20:00
2025年04月04日
ゴールデンウィーク期間の営業について
2025年02月17日
3/4（火）23:00～メールメンテナンスのお知らせ
2024年11月20日
年末年始の営業のお知らせ
2024年09月25日
10/12（土）19:30～24:00サーバーメンテナンスのお知らせ
2024年08月05日
8/13(火) 19:00～20:00 サーバーメンテナンスのお知らせ
2024年08月05日
8/6（火）23:00～メールメンテナンスのお知らせ
2024年05月24日
サーバーメンテナンスのお知らせ｜6/10（月）19:00～20:00
2024年04月04日
ゴールデンウィーク期間の営業について