カメラは試合中の手の動きを紙として認識するので、アルゴリズムは適切に反応する。

ロボットによる「じゃんけん」 - Part 1/3

インテリジェントなカメラによるジェスチャー認識

ロボットの隣で自撮りするセバスチャン・トレラ

着想から実装まで

このために彼は適したカメラを探し、IDS NXT を見つけました。インテリジェントな画像処理に使用できる包括的なシステムです。このカメラは彼が必要とするすべての要件を満たし、人工知能を使って単なるジェスチャー認識以上の働きをします。Trella 氏の関心は高まりました。画像の評価と結果の通信がカメラ上で直接、またはカメラを通じて実行され、追加の PC は不要だからです。さらに、IDS NXT Experience Kit には、アプリケーションをすぐに使い始めるために必要なすべてのコンポーネントが含まれており、AI の事前知識は不要です。

Trella 氏はアイデアをさらに発展させ、古典的な意味でのゲームに似たプロセスで、将来「ジャンケン」ゲームをするロボットの開発に着手しました:人間がカメラに向かって、ジェスチャーの 1つ (グー、チョキ、パー) をするように求められます。仮想の対戦相手がこの時点で、ジェスチャーをランダムに判定します。リアルタイムで動きが評価され、勝者が表示されます。

Gesture recognition with IDS NXT: Scissors

第一歩:画像処理を使用したジェスチャー認識

Robot for playing "Rock, Paper, Scissors"

これまでは、中間にいくつかのステップが必要でした。Trella 氏は画像処理を使用したジェスチャー認識の実装に取り組みました。これはロボット工学の愛好家にとっては新たな領域です。しかし、クラウドベースの AI Vision Studio である IDS lighthouse のサポートにより、実現は予想よりも容易になりました。ここでは、ひとつのアイデアが完全なアプリケーションに進化します。この目的のために、ニューラルネットワークは製品知識 (この場合は、異なる視点からの個々のジェスチャー)のアプリケーション画像によりトレーニングされ、適切なアプリケーションワークフローにパッケージされます。「トレーニングプロセスは非常に簡単で、自分の手を使ってグー、チョキ、パーの動作を異なる背景で行い、この画像をさまざまな角度から数百枚撮影した後、IDS Lighthouse のステップごとのウィザードを使用しただけでした。最初にトレーニングした AI は直接動作を確実に認識できました」と Sebastian Trella 氏は話します。これはおよそ 95% の認識率で、右手でも左手でも認識しました。ラベル「Rock」、「Paper」、「Scissor」、「Nothing」に対して確率が返されます。結果は満足のいくものでした。取得したデータに対して何が行われたのでしょうか?

さらなる処理

認識したジェスチャーのその後の処理は、特別に作成されたビジョンアプリによって実行されます。このためには、AI で評価後、個々のジェスチャーの撮影された画像をアプリに渡す必要があります。アプリはゲームのルールを「知って」おり、どのジェスチャーで勝ちになるのかを判定できます。そして勝者を決定します。現在開発の初期段階ですが、アプリは対戦相手をシミュレーションします。このすべてが鋭意開発中で、次のステップではこれが実装され、「じゃんけん」をするロボットになります。

遊びから普段使いまで

初め、プロジェクトはギミックのようなものでした。さて、今後は何に発展するのでしょうか。スロットマシンや、AI ベースの手話翻訳者かもしれません。

つづく...