概要

 ロボットは通常,人間が日常生活する場所で動くことが自然なことといえます.このロボットの動く環境を考えてみると,周りには動くものが沢山あります.人々がロボットの周りを歩いていたり,近くを車が通っていたり,扇風機がその首を振っていたり,犬や猫が動いていたりしているのが普通です.これらはロボットが普通に見る風景です.また,ロボットは自分でも動きますので,ロボットの目には,それだけで外界が動いているように映ります.

 このような環境で,ロボットは,相手をする人間の動作を認識して,自分の動きを決めたり,音声での適切な返事をすることが求められます.

 このようなことが出来ないロボットは,人間とうまく環境の中で協調できないとして,自然に人間社会に受け入れてくれなくなります.

 我々が,すでに開発した動画像認識のアルゴリズム「時空間連続DP (Time-Space Continuous Dynamic Programming (TSCDP)」[1] は,上に述べた機能を実現しています.すなわち,動くカメラ(ロボットについている目に当たります)で,背景にいろいろの動くものあって,それらがロボットの目に入るという環境で,相手である人間などの動作を良好に認識できます.

 さらには,程度問題がありますが,相手としている人間の動作を遮るものが,ロボットのカメラの前にあるときでも良好に動作を認識できるものとなっています.

下図の1つは,背景に人が動いており,カメラ自体も動いている状況で,人間が"S"の字を動作してところを認識している様子をショット図で示しています.実際は動画となっています.

 では,動画中にある全ての動くものをどのように区別されて識別されているのでしょう.

TSCDPでは,識別したい動きを時空間の一筆書きで表現します.これを標準パターンといいます.いま,下図では,TSCDPで分離できる様々な標準パターンを始点を合わせて表示しています.この中で,動くカメラと動く背景の動きは,標準パターンとしてみると単純なものに属します.これら以外の動きを標準パターンにすれば(ジェスチャなど),それらが識別できます.

 TSCDPは,この標準パターンそれぞれを動画中のピクセルの時空間系列を最適にマッチングして,時空間の切り出しなしに認識します.

 すなわち,動きの始点と終点の時点は,TSCDPでは事前に指定する必要はありません.空間的な位置,つまり動画中のどこでも識別対象は存在してもかまいません.このときのTSCDPでの識別の様子も下図1つで示しています.

 ロボットが人工知能をもつというのは,具体的にこのような機能をもつことです.Deep Learning や他の手法でも,ここで示した機能は得られていないといえます.

本研究は,以下の論文で提案されたアルゴリズムの1つの応用です.

[1] Yuki Niitsuma, Syunpei Torii, Yuichi Yaguchi & Ryuichi Oka:"Time-segmentation and position-free recognition of air-drawn gestures and characters in videos", Multimedia Tools and Applications, An International Journal, ISSN 1380-7501, Volume 75, Number 19, pp.11615--11639.




講座・グループ

研究カテゴリー

活動分野
ロボット 画像処理
関連キーワード