インテリジェントなカメラによるジェスチャー認識

2023年10月15日

ロボットによる「じゃんけん」 - Part 1/3

セバスチャン・トレラはテクノロジーとロボット工学に情熱を注いでいます。彼のブログを見ると、彼がいつも新しいタスクに取り組んでいるのが窺えます。しかし、画像処理に取り組んだことはほとんどない。しかし、彼の同僚が持っている LEGO® MINDSTORMS® ロボットは、複数の異なるセンサーによって手のジェスチャーを認識できます。ここから、次のようなアイデアが浮かびました。「ロボットは『見る』ことができなければいけない」これまでは、確実に認識させるにはそれぞれのジェスチャーをロボットの前で、特定の時点で行う必要がありました。これには複数のセンサーが必要で、システムの柔軟性が失われ、システムの良さが損なわれていました。画像処理はこのタスクをより「エレガント」にできるのでしょうか？

着想から実装まで

このために彼は適したカメラを探し、IDS NXT を見つけました。インテリジェントな画像処理に使用できる包括的なシステムです。このカメラは彼が必要とするすべての要件を満たし、人工知能を使って単なるジェスチャー認識以上の働きをします。Trella 氏の関心は高まりました。画像の評価と結果の通信がカメラ上で直接、またはカメラを通じて実行され、追加の PC は不要だからです。さらに、IDS NXT Experience Kit には、アプリケーションをすぐに使い始めるために必要なすべてのコンポーネントが含まれており、AI の事前知識は不要です。

Trella 氏はアイデアをさらに発展させ、古典的な意味でのゲームに似たプロセスで、将来「ジャンケン」ゲームをするロボットの開発に着手しました：人間がカメラに向かって、ジェスチャーの 1つ (グー、チョキ、パー) をするように求められます。仮想の対戦相手がこの時点で、ジェスチャーをランダムに判定します。リアルタイムで動きが評価され、勝者が表示されます。

Gesture recognition with IDS NXT: Scissors

第一歩:画像処理を使用したジェスチャー認識

これまでは、中間にいくつかのステップが必要でした。Trella 氏は画像処理を使用したジェスチャー認識の実装に取り組みました。これはロボット工学の愛好家にとっては新たな領域です。しかし、クラウドベースの AI Vision Studio である IDS lighthouse のサポートにより、実現は予想よりも容易になりました。ここでは、ひとつのアイデアが完全なアプリケーションに進化します。この目的のために、ニューラルネットワークは製品知識 (この場合は、異なる視点からの個々のジェスチャー)のアプリケーション画像によりトレーニングされ、適切なアプリケーションワークフローにパッケージされます。「トレーニングプロセスは非常に簡単で、自分の手を使ってグー、チョキ、パーの動作を異なる背景で行い、この画像をさまざまな角度から数百枚撮影した後、IDS Lighthouse のステップごとのウィザードを使用しただけでした。最初にトレーニングした AI は直接動作を確実に認識できました」と Sebastian Trella 氏は話します。これはおよそ 95% の認識率で、右手でも左手でも認識しました。ラベル「Rock」、「Paper」、「Scissor」、「Nothing」に対して確率が返されます。結果は満足のいくものでした。取得したデータに対して何が行われたのでしょうか？

Robot for playing "Rock, Paper, Scissors"

さらなる処理

認識したジェスチャーのその後の処理は、特別に作成されたビジョンアプリによって実行されます。このためには、AI で評価後、個々のジェスチャーの撮影された画像をアプリに渡す必要があります。アプリはゲームのルールを「知って」おり、どのジェスチャーで勝ちになるのかを判定できます。そして勝者を決定します。現在開発の初期段階ですが、アプリは対戦相手をシミュレーションします。このすべてが鋭意開発中で、次のステップではこれが実装され、「じゃんけん」をするロボットになります。