概要

車載ビデオから構成した3次元の距離つき動画を以下のYoutube にupload しました。

https://youtu.be/GCVjb8N_W2k

 自動運転では、車は静止した物体のみの世界ではなく、同一車線や隣の車線を走る車、対向車線を走る車、歩行者など、様々なものやひとが動いている環境を想定なくてはなりません。それらの動くものの位置と自分の車との距離、相対速度などを動画から抽出することは困難な課題です。

 われわれはこの課題を、Frontward-Motion-Parallax Method によって解決しつつあります。

提案するアルゴリズムは,前方に移動する車やドローンの移動体に搭載された単一カメラによる動画像から,移動前方方向の距離シーン、側面のシーンについて、RGB-Dの4次元画像の動画像を実時間で再構成する方式の提案となっています.これによって,高価なまた多種類,多数のセンサーを用いることなく,車やドローンの自動運転技術の実現に寄与する、新たな画像センサーを提供することになります。

現在、Deep learning によっても動画からの距離を検出する試みがありますが、それらは動画中に他の車や歩行者などの動くものの存在を想定していません。またdeep learning は事前に動画clip を沢山準備し、学習を必要とします。適用対象は学習データに依存します。したがって、実世界の任意のシーンには適用できないものです。そのため、自動運転にとって、deep learning は現在のところ、動画から実世界で使える距離情報を抽出しているとはいえません。

 近年,車やドローンなどの移動する物体に,外界を捉えるセンサーを搭載することが行われています.DARPA Urban ChallengeにおけるStanford University, Carnegie Mellon University, Google Car の取り組みやなどです.

 この目的は,車やドローンの自動運転のための距離情報の取得のためであり,これらのセンサー情報はそのために使われます.例を,車の自動運転をとれば,距離センサーとは,レーザLaidar),超音波,赤外線,ステレオカメラがその主なものです.特にレーザセンサーは1台の車に10台程度搭載されています.その中には極めて高額なレーザセンサーも含まれています.また,その性能も超音波センサーなど車の近くの距離範囲を対象領域とするものが多いといえます.また,車から離れた場所に届くレーザセンサーでも,距離を測る対象物を特定することが困難であるという問題を抱えています。ステレオカメラでの距離センサーで測られる距離も含め、従来法は距離の点群(distance point cloud) であり、点群がどの外界の物体に対応しているかを決定する課題を抱えています.

Youtube の動画像では、動画中の各画像について、碁盤のようにマス目に分割し、マス目の中心の点を target pixel とし、それのtracking により、motion parallax を抽出し、それを距離値に変換します。その他のpixel 点での距離は補間で距離を与えます。これによる動画像がYoutube の画像で示されています。

また、動画中の画面で、target pixel の時刻間の接続性を、たとえばmean-shift による領域の重なりで決めると、距離の動きに対応する動く棒で表わすこともできます。棒状表現には、target pixel の周辺のtexture も表示できます。これにより、動画中の個別の対象物(建物、先行車、対向車、人など)の動きが表現できます。


 本技術は,動画のピクセルをトラッキングすることに基づく動的距離風景を再構成しています。これの応用として車の自動運転をするための3次元地図の作成にも応用できます. また、車が停車中の場合の動画像からは、前方シーン中で、動くものの距離がframe-wise に抽出できることになります。

 一方,関連する技術として,動画像における対象物のトラッキング技術というものがあります.従来のトラッキング技術は,歩行者などの動きを単にトラッキング(追跡)するものです.

 従来のトラッキングには,2つの分類がされています.1つは,画像の領域テンプレートを用いるもの,1つは,特徴テンプレート(画像の特徴を記述したもの)を用いるものです.画像テンプレートを用いるものには,パーティクル・フィルターと,mean-shift によるもの,とされています.また、近年、対象画像の学習を用いるものとして,近年deep learning によるもの(SSDや semantic segmentationなど)がtracking に使われています.

 一般に,従来の領域テンプレートによるトラッキングでは,最初にトラッキング対象画像を画像中から事前に取り出す作業が必要があります.Particle Filter やmean-shift 法では,単一の領域テンプレートを用いて,動画中から,それのピクセル値ヒストグラムの尤度(particle filter) や正規化mean-shiftヒストグラムを手がかりにトラッキング移動先を決定する方法です.いずれも,トラッキング対象物体ごとの処理です.

 次に,従来の特徴に基づくトラッキング方法を述べます.SIFT法やSURF(Speed UP Robust Feature) 法では,sift やSURFと呼ばれる画像の特徴を抽出し,キーポイントと呼ばれる点を定め,そこでのsift や SURF特徴を表現し,これの移動先を次の画像中に推定します.これらの特徴の存在しないところではトラッキングはできないといえます.

 先に述べたようにこれらのトラッキングは物体のトラッキング自体が目的であり,カメラと物体間の距離の計算を目的とするものではありません. 

提案技術は,特許出願中です.

また、方法の一部は、以下に示す会議MIRU 2018 の Extended abstractで示しています。

Ryuichi Oka, Keisuke Hata : "Reconstructing a moving 3D image from video caputured by a forward-moving camera", MIRU 2018, PS3-1, 8-th August (2018).

講座・グループ