向きが揃っていない物体をつかむ作業は、特に産業オートメーションの分野では中心的です。しかし、現在のビンピッキングソリューションは一般に柔軟性に欠け、把持する加工品向けに細かく調整されています。ROLE の研究プロジェクトでは、これまで未知だった物体をコンテナから持ち上げる方法を独立して学習するロボットで、改善策を見い出します。このようなタスクを学習するため、ロボットは人間と同様、無秩序につかみ取ることから始めます。ニューラルネットが、把持に成功または失敗した 3D 画像をつなぎあわせます。各画像について把持結果が保存されます。結果はグリッパーの力センサーによって判定されています。AI (人工知能) では保存されたデータを使用して、物体の意味のある把持ポイントを特定し、自己「トレーニング」ます。先進的な強化学習*として、このためには大量のデータと多数の把持試行が欠かせません。しかし、KIT の科学者は試行回数を大幅に削減することに成功し、学習に必要な時間も短縮できました。

適切な把持でトレーニング時間を短縮

把持方法から学習する
把持方法から学習する

分析的 (またはモデルベース) 把持手法とは異なり、ROLE ロボットには前述した認識に必要な機能は不要です。それでも、画像が「類似」している物体をうまくつかめる頻度を高めるために、重要な役割を果たしています。 ロボットによる把持の試行は、学習をすばやく成功に導くために必須です。ニューラルネットワークの助けを借りて、既存の知識を使用して把持結果を予測できるようになりました。

うまく機能するシステムについて、現時点では 約 20,000 の把持試行が必要です。これはロボットに対する約 80 時間のトレーニングに相当します」と、KIT の科学者で Robot Learning Group のメンバーである Lars Berscheid 氏は言います。この数値はおよその値で、主に部品の形状によって影響を受ける無作為なグリップの把持率などの多数の要因に左右されます。学習システムの常として、利用できるデータ量により、システムの能力が制限されます。「このため、私たちの研究にとって、必要な把持試行の回数を減らすことが重要な任務です。この場合、科学的に重要な疑問となるのは、できるだけ多くの情報をできるだけ速やかに得て、トレーニング時間を短縮するには、どのようなグリップを試すべきかということです」と Berscheid 氏は付け加えます。

この時点で、転移学習も使用されています。すでにトレーニング済みのニューラルネットワークの知識を、これまで未知だった物体の認識に使用できます。システムのトレーニングオブジェクトの数が多く、範囲が広ければ、未知の物体の一般化がしやすくなります。すると、特定の物体のトレーニングを適用する必要性が完全になくなります。長期的な目標は、産業レベルの信頼性で、任意の未知の物体でも独立して柔軟に把持できる、制御システムです。

特定のモデルなしの学習

これは今日のビンピッキングソリューションとの決定的な違いです。ROLE グループの研究システムは、把持対象の加工品に対する「学習済み」モデルを使用せずに動作し、未知の物体に対しても動作します。原則として、形状や性質について制限はありません。材料および表面の特性の知識も不要で、暗黙的に学習されます。 これはモデルなしアプローチの大きなメリットで、物体の 3D 形状も把持プロセスの数学的モデリングも不要です。産業分野で柔軟に使用でき、プログラミング作業も少なくなります。イントラロジステックスからサービスロボットまで、多数の新しい用途の自動化も可能になります。同時に、把持自体に加えて、移動などのその他の種類の物体操作を実現できます。

ロボットは、次のステップではもっとうまく把持できるように、独立して物体の移動を学習します。これにより、他の装置 (振動台など) を使わなくても、箱から物体をすべて取り出せます。ロボットのトレーニングには人手はまったく不要です。実際には、このような学習プロセスの自動化は、最大の課題の 1 つに挙げられます。システムが所定のサイクル時間などのすべての要件を満たしてはじめて、生産現場で使用でき、さらなる学習が可能になります。

ここでも、ビンピッキング用途の通常の手順よりも時間に関してメリットがあります。まず、ROLE システムは次に行う把持の計算がわずか 20 ミリ秒と非常に高速です。また、システムを起動すると手動プログラミングの作業量が減少します。これにより、ビンピッキングの柔軟性が大幅に上昇します。

ROLE グループの研究者が Ensenso SDK を使用して奥行き画像を撮影し、OpenCV および TensorFlow で処理する
ROLE グループの研究者が Ensenso SDK を使用して奥行き画像を撮影し、OpenCV および TensorFlow で処理する

3D 画像データがベース

ロボット用の視覚データは Ensenso 3D カメラが提供します。コンテナの上部から見下ろします。コンテナには 1 つまたは複数の種類の物体がランダムに詰められています。画像処理システムが箱の中身に高輝度のテクスチャを投影し、上部から見える表面の 3D 点群を生成し、これをベースとして奥行き画像をグレースケールで計算します。このステップは Ensenso SDK で直接実行されます。奥行き画像はわずか 12,000 ピクセルの解像度に調整され、AI アルゴリズムの入力として使用されます。 その後、ニューラルネットワークが画像分析と箱への次の把持に向けた論理ステップを実行します。

別の実験を柔軟に実現できるように、カメラはロボットの「頭部」に直接取り付けられます。「Ensenso N10 カメラに決めたのは、このモデルなら物体への最小距離を 30 cm まで縮められ、全体的な距離範囲が広いからです。赤外線範囲でアクティブなステレオカメラで、移動するシーンにも最適で、私たちの要件のすべてを満たします」と、Berscheid 氏はカメラモデルを選択したいきさつを説明します。

コンパクトで頑丈なアルミニウム製ハウジングを備えた Ensenso N10 カメラは、トリガーとフラッシュ向けのねじ止め式 GPIO コネクターと USB 2.0 コネクターを装備し、2 台のモノクロ CMOS センサー (グローバルシャッター、752 x 480 ピクセル) と赤外線パターンプロジェクター (850 nm で動作) を搭載しています。事前校正済みで、MVTec HALCON インターフェースとオブジェクト指向 API (C++、C#/.NET) を搭載した 3D カメラは、焦点距離が 3.6 ~ 16 mm で、最大 2,000 mm の動作距離に最適で、移動する物体の 3D 検出にも使用できます。ROLE グループの研究者は Ensenso SDK の NxLib を使用して奥行き画像を撮影し、OpenCV および TensorFlow で処理します。

今後の予定

KIT で開発された手法は今後の主流となると予想されますが、研究者たちはまだ目標を達成していません。「ビンピッキングはねじなどの単純な物体についてはすでに確実に機能していますが、製品を成熟させるには、特により複雑な未知の物体を把持するためには、さらなる研究が必要です。ただし、私たちが開発した手法は基本的で柔軟なので、別のタスクにも使用できます」と Lars Berscheid 氏は語ります。

自己学習システムはロボット工学の研究において中心的なテーマです。アプリケーション指向のプロジェクトから、科学者たちは実用面ではさらに柔軟性が必要とされることを認識しています。ロボット工学において、これは使用するセンサー数を増やし、画像処理をもっと活用することになります。

KIT では、2 つのテーマを中心として研究を進めていきます。1 つは、基本的な学習方法をどの程度改善し、高速化できるかです。デジタルツインを利用したトレーニング、コンピューター上でのシミュレーションとその後の実際のロボットでの実施などのテクニックに加えて、異なるタスク間での知識の転移もまた将来性があります。もう 1 つのテーマとして、科学者たちは学習するロボットシステムで、どのような新しい用途の自動化を改善できるか、または自動化を実現できるかを研究しています。画期的なチャンスとして、テキスタイルの操作 (タオルや衣類をつかんでたたむ)、リサイクルでの電気モーターなどの工業部品の取り外し、カメラデータに基づく未知の物体の塗装、液体や粒状の媒体の処理などがあります。このような作業はシミュレーションで学習してから、実際のロボットに転送します。

問題は、把持率とシステムの堅牢性をさらに向上するにはどうするかということです。「原則として、ROLE システムで 95% 以上の把持率を達成できます」と Berscheid 氏は言います。つまり、100 回の把持試行のうち、失敗するのは 5 回までということです。すると、次のような疑問がわいてきます。失敗した試行回数は、学習時間を長くすれば減らせるのでしょうか?

もう 1 つの問題は、奥行き画像に欠けている 3D データをシステムでどのように処理するかということです。現在、ROLE チームは物体を上部から垂直につかむ方法に限定しています。

しかし、どうしたらシステムで自由度 6 をすべて使えるでしょうか。新しいソリューションは、モデルなしビンピッキングが抱える典型的な課題からも模索されます。特に、保存などの以降の処理ステップや把持した物体のその後の処理などです。

KIT の科学者たちには研究すべきことがまだたくさんありますが、アプローチとこれまでの結果から、機械学習が持つ産業用途への多大な可能性が見て取れます。3D 画像処理がこれに関連しているのは明らかで、「ロボットの手」が完璧にグリップできるように制御するための重要な基本データを提供します。見て、保存して、学ぶ。それが未来です。

*) 報酬によって支援を受けて戦略が独立して学習される、機械分野での強化学習

Ensenso N10 - 高速で高精度の 3D ビジョン

  • USB 2.0 インターフェース搭載 – 汎用で柔軟

  • コンパクトで丈夫なアルミニウム製ハウジング

  • グローバルシャッター CMOS センサーとパターンプロジェクターを内蔵

  • フル解像度、視差数 64 で、毎秒最大 30 フレーム

  • 動作距離最大 2,000 mm (N10)、可変像面

  • マルチカメラモードで使用するすべてのカメラからのデータを、1 つの 3D 点群で出力

  • 複数の視野角からの 3D ポイントクラウドをその場で構成

  • 射影テクスチャステレオビジョン」プロセスでテクスチャ化されていない表面を撮影

  • 静止物と移動物の両方を撮影

  • 無料のソフトウェアパッケージには Windows および Linux 向けのドライバーと API が付属

  • 1 つのソフトウェアパッケージで USB モデルと GigE モデルに対応

  • HALCON、C、C++、および C# サンプルプログラム、ソースコード付き

  • 事前校正済みで、セットアップが簡単

  • 基準板によるロボットハンドアイ校正の統合機能

  • ソフトウェア側に uEye 産業用カメラを統合し、追加のカラー情報やバーコードを取得

  • 柔軟なデータとフレームレートのためのサブサンプリングとビニング