基本情報

所属
会津大学
職位
理事長兼学長
E-Mail
oka@u-aizu.ac.jp
Webサイト
http://web-ext.u-aizu.ac.jp/~oka/Home_jp.html

教育

担当科目 - 大学
理工学の勧め(一回の講義のみ)
担当科目 - 大学院
無し

研究

研究分野
パターン認識、人工知能、ロボット
略歴
1. 東京大学工学系研究科修士了 2. 電気試験所(現,産総研)入所 3. National Research Council of Canada (Visiting Scientist) 4. Real World Computing (国家プロジェクト,研究部長兼研究室長)
現在の研究課題
動画からの広領域3次元画像復元、自動運転のための動画処理,動作認識、カクテルパーティ音声の認識、動画によるスポーツ競技自動判定、動画における多数個体群の個々の動き,導線抽出、移動ロボット、ドローンネットワーク(「ドロネット」)
研究内容キーワード
動画認識、音声認識、動作認識,連続DP、カクテルパーティ効果、マッチング、自動運転,移動ロボット、ドロネット、ゴローン
所属学会
IEEE, 電子情報通信学会,日本音響学会,人工知能学会

パーソナルデータ

趣味
音楽鑑賞,読書,旅行(海外の美術館巡り)
子供時代の夢
理学的工学研究者になること
これからの目標
会津大学をより魅力的にすること, 工学的新アルゴリズムの発見とその有効性を実証すること.
座右の銘
「あらゆる創造は少年のこころが行う」(司馬遼太郎)
愛読書
塩野七生,志村五郎,加藤周一,内田樹,武谷三男,司馬遼太郎,エマニュエル・トッド, ユヴァル・ノア・ハラリ,の著作.
学生へのメッセージ
岐路にあってはより積極的と思われる方向を選ぶ
その他
学長挨拶
会津大リレーエッセー 35号 「大震災と大学のこれから保証ない社会の復元力
会津大リレーエッセー 68号 「新しい市場創造 IT教育で人材を育成

主な研究

重なりや任意の個数を含む画像から切り出しなしで画像を認識する2次元連続DP

 画像認識は Deep Learning などでも中心課題となっています。しかし、Deep Learning でもいろいろの大小のサイズの複数のカテゴりーの画像が複数個または重なって存在し、かつそれらが変形をもっている場合、識別が困難である状況にあります。

  その理由は、Deep Learning では現在のところ「階層性」の導入が困難なためと言われています。1つの画面にサイズの異なる複数カテゴリの画像が重なって入っていると、入っている複数の画像は階層性によって扱かわねばならないのに、それができなくて、正確な識別ができないことが生じています。

 Deep Learning では、サイズの異なる多数のカテゴリの画像が、学習段階で多層階層の結合係数の中では、サイズを強制的に合わせて融合させてしまっています。そこで形成された特徴抽出は学習した多数の画像に共通して使うことが可能ですが、入力パターンにある、1つの大きい画像の中に重なっている他の小さいパターンの分節を良好に担えるものではありません。

 言い換えると、入力画像にある小さいパターンは、大きなパターンとサイズの異なりに応じた扱いがされないということです。従って、特に小さいパターン同士で類似していて、少しの違いがカテゴリーを分けている場合に、この弱点が顕著にでます。これは、階層性がないことで生じるのです。
 
 1つの画像に、多くの種類のものが重なって入っている場合の画像認識には,分節(segmentation) の本質的な解決を必要とします。認識と分節は、「ニワトリと卵」の関係にあり、分節ができれば認識は容易になり、認識ができれば分節も容易になるというものです。
従って、それを解決するアルゴリズムは、「ニワトリと卵」の関係を直接的、かつ明示的に解決していることが必要です。

  我々は、2次元の連続DPとよぶものを提案していますが、これがまさにその解決を直接的に行っているものです。2次元連続DPは、岡と、長年に渡る他の研究者との、一連の共同研究の結果、現在の極めて、完成度の高いversion に至ったものです。岡との共同研究者を行った方々は、西村拓一さん(現、産総研)、岩佐有弥さん(現、セイコーエプソン)、矢口勇一さん(現、会津大)です。

 2次元連続DPは、1次元連続DPを2次元に拡張したものです。1次元連続DPは、1978年に岡によって提案されたもので、これは、時系列のような1次元のパターンのsegmentation-free の認識を実現しています。

2次元連続DPでは、個別識別対象ごとに対象画像について、独立に適用され, segmentation-free の認識を行います。これは、個別識別対象がそれぞれカテゴリに依存する1つの階層を外部的に構成しており、Deep Learning のようなカテゴリが内部的に多重になっている階層ではありません。

2次元連続DPとDeep Learning との最大の方式の異なりは、以下の点です。

 Deep Leaning はsegmentationを実現するために、カテゴリー間に本来ある階層を扱うに際し、CNN 内でその階層を無くす方向(画像サイズをそろえるなど)での学習を行なわねばならない。しかし、その階層をなくす方向は、認識の劣化を招く方向でもあるという矛盾を抱えています。

一方、2次元連続DPは、個別カテゴリーごとにsegmentation-free の認識が独立してでき、外部的に階層を扱っても、認識性能を落とさずsegmentation-free 機能は維持されます. つまり,2次元連続DPはDeep Leaning のように,segmentation を行わせるために階層への毀損を必要としないのです.

さらに、2次元連続DPには、個別対象画像の拡大縮小を含む形の非線形変形を吸収していますので、つまり参照パターン(「学習データ」)は1つとなります。

2次元連続DPは、このような独立の階層構造をもち、学習を不要とすることで、画像パターンの識別で有用なものとなっています。

Deep Learning(convolution 演算を含む)と2次元連続DPも、階層ネットワークのfeed-forward and local 計算であるところは共通しています。DLのlocalityはconvolution 演算によって生じていますが、2次元連続DPのlocalityはdynamic programming の局所化によって生じています。

1次元の連続DPは、以下の文献が多方面で引用されています。

[1] "Spotting Method for Classification of Real World Data": Ryuichi Oka, The Computer Journal, Vol.41, No.8, pp.559-565 (1998)。

この研究を見る

移動ロボット”ゴローン”のジェスチャによる行動制御

   現在,われわれは,”ゴローン”とよぶ移動ロボットを開発している.この”ゴローン”の機能の1つとして,”ゴローン”のカメラの動画映像を無線で計算機に送信し,計算機でジェスチャ認識した結果をリアルタイムで”ゴローン”に送信し,それによって”ゴローン”を操作するようにしている.ジェスチャ識別は「時空間連続DP」というアルゴリズムで行っているが,その部分を,FPGAなどで実装すれば”ゴローン”ト内でジェスチャ識別を行わせることもできる.

  「時空間連続DP」は以前にわれわれが,開発したものであるが,それを移動ロボットに搭載された単一カメラの動画像からのジェスチャ認識を行わせた.ジェスチャの指示は,移動ロボットの右回り,左回りの指示,また,ロボットに搭載されたライトのスイッチのつけと消しを指示する4つの動作の認識である.現在は識別するジェスチャの数は少ないが,今後その数を増やしていきたい.
 
 通常,移動ロボットは,その動きを,自律的に決めるか,あるいは人間の指示で決めるかの,2つのどちらか,または双方によって行われている.自動運転自動車は前者である.他方,介護ロボットなど,人間と関わる移動ロボットは,人間の指示によって動いて欲しい場合も多い.そのとき,人間側は指示の方法には通常2つがある.音声とジェスチャである.音声は便利ではあるが,ロボットと人間が離れているときは人間側に近いマイクを使わなければならないという制約が,現在の技術ではある.一方,ジェスチャはそのような制約はないが,ロボットと人間が共に,動いている状況で,人間のジェスチャをうまく認識する技術はまだ確立していない.

  従来は,レーザや超音波のセンサーやキネクトセンサなどを搭載した移動ロボットが,周辺にいる静止している人物を検知し,それに追随するというものである.単一のカメラの動画像を搭載した移動ロボットが,周辺にいる移動する人間のジェスチャを認識して,それによって操作をされるという研究はほとんどないといってよい.その理由は,動く背景で,また,不特定多数の動く人間がいる環境で,特定のジェスチャを,その始めと終わりの時刻を指定せずに認識する技術がないためである.

この研究を見る

ビデオから都市風景の3D画像化 --- 市街地や室内のウォーク・スルー・データのビデオ動画から作成---

   室内に限らず,都市や街,山岳,里山の広範囲の風景を,長時間のビデオ動画として取得することは容易です.ここでは,これらの長時間のビデオ動画に写っている室内外の広域のシーン全体を,高密度かつ距離のdynamic range の極めて大きい3次元シーンで自動復元する手法を提案します.この課題は,実世界の3次元復元技術のフロンティアといえるものです.

  このようなシーンの3次元画像復元ができれば,室内外でのロボットの作業支援(Visual SLAM技術)や,室内,あるいは室外の広域の3次元シーンに人間が任意に入り込むVR体験(walk through)システムの構築など,の実現に寄与します.更には,自動車の屋根に360度カメラをつけ,移動する車からのビデオ動画像から周辺の3Dシーンを再構成するとき、これは自動運転にも利用できます.

  3次元復元の従来技術として,超音波,赤外線やレーザの距離センサーを用いるものや,視覚を使うものも,ステレオの2眼以上のカメラを用いるもの、シルエットで空間のvoxel を埋めるもの、など多様な方法(image-based, voxel-based, object-based algorithmsに分類される)がありました.しかし,従来技術では,扱える対象のシーンは,距離範囲や画素の稠密性の限定や,広域性,対象物の反射特性の制約がされたものとなっています.さらには,SIFTなどの特徴抽出,factorization, RANSAC, Kalman filter など複数の技術を総合する必要もありました.そのため,一般のユーザが普通にとるビデオ動画から、簡単に3次元画像をうる技術が従来,提供されてこなかったといえます.

   本研究では,室内外や広域のシーンを対象に,特段の制約なしに,普通に得られる単一の長時間ビデオから,高密度、距離範囲の広い3次元シーンの復元を行っています.その簡単さのために,一般の各種目的への供用が容易なものとなっています.ここでいうシーンは,必ずしもカメラの直下の風景に限らず,任意のカメラ方向が撮る風景を意味します.

   都市,建物,道路,川,森などでは、大きなもの同士を区別する3次元情報があり、また,個々の大きなものの構成部分を区別する3次元情報があります.ここでは,前者の3次元情報を取り出したものを示します.個々の内部を区別することも同じ手法で抽出が可能です.

 ここでは,前者のみを以下の画像で示します.

 下の画像は、(1) 市街地を撮った ビデオの1フレーム画像(静止画)、 (2) 前記(1)の画像のR,G,Bと距離値を合わせた3次元画像を斜め方向から見たもの、 (3)  会津大学の庭園をドローンで10m の高さから撮った下方の動画からの3次元復元を示している.

  なお,提案方式の内容の一部については,Ryuichi Oka and Ranaweera Rasika, Region-wise 3D Image Reconstruction from Video Based on Accumulated Moton Parallax, MIRU2017,PS1-5,August 2017 で発表している.

また,この手法は,特許出願中です.
 

この研究を見る

スポーツ演技の自動の採点や判定

  ビデオ動画から,フギュアスケートの演技運動,空中手書き漢字などの複雑な人間の動作や動物やものの動きの認識を行う方式として,「時空間連続DP(TSCDP)」と呼ぶものを提案します [1].

  従来の,ビデオ動画からの人間の動作認識方式では,

1) カメラ映像中の対象動作である指などにマーカーや色のついたキャップをつける必要があった,
2) 1つの画面には1つの動作のみが存在すると仮定してきた,1つの画面に多数の同一動作や多種の動作は無いとされてきた,
3) 動作の始まりと終わりの時刻の検出問題を抱えていた,
4) 画面の任意の位置での動作を許してはいなかった,
5) 漢字などの複雑な動作が認識できなかった,
6) 識別対象動作の背景シーンに他の動くものの存在が許されなかった,
7) 動作の前に遮るものの存在が許されなかった,
8) 撮影カメラの動いていることが許されなかった、

 などの困難さがありました.また,風景中の車など、ものの動きを動画から認識するとき、従来技術(HMMなど)は,上記と類似した困難さがありました.

 また、従来技術には,ビデオ映像からではなく,Kinect などのような赤外線やレーザーのセンサーを用いるもの,加速度センサーを用いるものがありました.しかし,これらのセンサーを使っても,上記の機能の実現の困難さは依然として存在しています.

  これらの従来方式の困難な課題をすべて解決するものが,われわれの提案する「時空間連続DP」というマッチング方式です.

 この方式は,動画から,識別対象の動作している時間区間や,動作の画像内での空間位置の,双方について,事前の切り出しを必要としません.これは大きな機能です.

 その結果,フィギュア・スケートなどのスポーツの長時間の,あるいは実時間のビデオ映像から,演技の自動採点や勝負の自動判定を行うシステムの実現にも使えます.スポーツ中継では、必ずしもカメラは固定されていませんので、これも本手法では許されます.

 フィギュアスケートでは,理想的な演技からのズレが採点のポイントとなります.理想的な演技動作を標準パターンとして,時空間連続DPは,それを識別し,理想的な演技動作からの非線形的なずれも抽出できます.これを採点のパラメータします.

 さらには,1つの画面に任意の個数の動作があっても,また開始と終了時間の任意であっても,それらを全部認識できます.TV実況のような動画では、演技者の背景が動いていますが、このような動画データでも問題ありません。

 下図では,「時空間連続DP」のフギュアスケートの演技に認識を含む,上述した様々の動画への適用や,時空間の非線形性の変動を捉える様子など,得られている認識機能を示しています.
 
 また,この技術はすでに特許取得済みです。

[1] Yuki Niitsuma, Syunpei Torii, Yuichi Yaguchi & Ryuichi Oka:"Time-segmentation and position-free recognition of air-drawn gestures and characters in videos", Multimedia Tools and Applications, An International Journal, ISSN 1380-7501, Volume 75, Number 19, pp.11615--11639.





 

この研究を見る

「ドロネット」の提案-- 有線ケーブルでつながったドローン群による新機能実現 --

 有線ケーブルで繋がれたドローンのネットワークを「ドロネット」とよび,この概念を提案します.

 従来のドローンは,単体が通常であり,また,それらの群を考える場合でも,単体ドローン運動の協調動作は一部実現されていますが,ドローン群の実現する機能は限られていました.

 提案する「ドロネット」は,有線ケーブルでドローン間を結合してネットワークを構成しています.ドロネットの各ドローンは,近傍の結合有線ケーブル群に依存する,分散制御の新アルゴリズムで,外力で生じる不安定状態の安定化を実現します.ドロネットの目的地への飛行は,仮想外力の設定により,安定化の機能の中で実現します.その他,以下で述べる,単体の群では実現できない機能を実現しています

 また,ドロネットには,各ドローンへの給電が,自分のもつバッテリーによるものと,地上から有線ケーブルによるもの,の2種類があります.その結果,

1) 地上から有線ケーブルで給電するドロネットは長時間飛行を可能とする,
2) 単体ドローンでは運べなかった重い荷物を,ネット全体が負荷分散として,運ぶことができる,
3) ネットワークを形成することで,風などの外乱や,故障したドローンは荷物扱いされ落下せず.故障について頑健となる,
4) 線状のドロネットは,建物や橋梁の複雑な構造物内部に,空中ヘビのように入り込むことができ,そこでの計測機器を,地上からの有線給電で,長時間に動作させることができる.
5) 地上からの有線給電をしないドロネットには,飛行用のみのバッテリーを搭載する部分ドローン群により,長時間飛行を行う.

 など,ドローンが群をなすことで実現する新しい機能を生じさせています.

 下の画像は,ドロネットの,飛行,荷物の運搬,一部のドローンの故障,線状ドロネット飛行のシミュレーションと,製作中の実機を示しています.

[参考]  岡 隆一、畠 圭佑,"ドロネット -- 有線結合ドローン・ネットワーク ---",  計測と制御,Vol.56, No.1, pp.40--43 (2017).

 なお、この技術は特許出願中です.


 

この研究を見る

話者混合の単一音声からの音声認識 --- 複数人同時発声の単一音声波形からの波形分離なしの音声認識

 我々は,複数話者が同時的に音声を発声し,また,ノイズ雑音も同時に存在している環境で,1つのマイクロフォンで収録される連続音声波形から,波形の分離なしに,特定話題音声が認識できる方式を提案しています.ここで,認識すべきカテゴリーの入力は合成音声となっています.従って,不特定話者に認識となっています.

 人間がもっている音声の認知機能の1つに,「カクテルパーティー効果」というものがあります.これは、人間が、多数の話者の同時会話している状況で,自分が興味をもつ話題について、認識できる,という能力です.

  これを工学的に解決しようという研究があります.その典型は,ICA( Independent Component Analysis,独立成分解析) というものです.ICAの機能は,混合した話者音声波形から,個人ごとの波形の分離を行うものです.しかし,音声の認識は行いません. また、ICAでは,通常,話者の数以上のマイクロフォンの数で収集した音声群を必要とします.

複数話者からなる単一音声から識別する試みもいくつかありますが,これらは,音声の話者による分離と認識を合体したものがほとんどです.従って,問題を本質的に解決していないといえます.特に音声の部分認識に課題が残ります.

  一方、人間は、カクテルパーティ効果の問題を実際に解決していますが,人間は両耳以外にマイクロフォンに対応しているものを使っていません.また,人間は,無意識に,あるいは意識的に会話話題の部分音声を選択して,部分認識することを行っています.別の表現をすると,会話音声の注意がいった,特定部分のスポッティング認識を行っています.

  人間の両耳効果は、音源の立体的把握が主目的で、2つの音源をとらえるためのものではないといわれています.このことは,単一のマイクロフォンで収集した音声波形からカクテルパーティ問題を解決するアルゴリズムが存在しうることを示唆しています.

 従って,話者数以上の本数のマイクロフォンを必要とするICA は,波形の分離が目的であって,不特定話者音声の認識も含む本来のカクテルパーティ問題の解決法とはいえません.ICAで波形を分離しても,その後の不特定話者の連続音声からの認識は,それ自体別途の研究課題となっています.つまり、複数の異なるアルゴリズムを必要としています.さらに,カクテル・パーティー音声の部分音声を選択的に認識することが実際のカクテル・パーティ音声の認識といえます.

  われわれの提案は,1つのアルゴリズムで,また1つのマイクで収集される音声から,個人ごとの波形を分離しない人間のように、かつ部分音声の不特定話者認識を行う,本来のカクテル・パーティー効果という人間の認知機能を実現しています.

添付の画像では,英語,日本語,中国語,ドイツ語が4人の話者が同時に発話したものとノイズが加算したものを,1つのマイクで録音したものから,キーワードや一部のフレーズを切り出すことなく認識している様子を示している.ここで,キーワードやキーフレーズは合成音声で作成され,これを事前切り出しなしの検索,かつ,不特定話者認識を行っている.



この方式については、現在特許出願中です.   

この研究を見る

人と車の動きや軌跡を上空のカメラの動画から検出

 災害時などにおける人や車の動き,またその混雑状況の把握は,災害の人的被害を最小化するために必要な情報の1つです.災害時に飛行機やドローンをとばし,搭載のカメラの映像を解析することによって,その情報の取得の努力が,これまでさまざまに試みられてきました(optical flow, particle filter, Kalman filter, 時空間voxel code の統計処理、など).しかし,従来の手法では,個別の人や車の多様な動きを検出して,状況を把握するまでの性能がでていません.特に,人や車の動画からの切り出し問題が良好に解決されていません.さらに,災害時には広範囲の地上をとらえる動画映像からリアルタイムで処理する必要があります.

 災害時では,屋外の広い領域が対象ですので,狭い街中をレーザーなどで人混みを検出するのでは間に合いません.

 求められている新アルゴリズムとは,広い領域において、迅速に、容易に,持続的に、自動的に,実時間で,また,個々の人や個々の車の動きを,動画像から人や車を切りだすことなく,良好に検出できるものです."切り出し"と"認識"を同時的に行うことで,この問題を解決しています.
 
 われわれの開発した「時空間連続DP」[1]という手法は,人や車の写っている動画からの,時間と場所について切り出し不用なことを含めて,上記の必要される様々な機能をもつものであり,人や車の動きが実時間で検出できるものです.

   ここでは,災害時ではありませんが,この手法を別の動画に適用した2種類の実験例を下図に示します.いずれもビデオカメラによる動画映像から,個々の人や個々の車の動きを良好に検出しているものです.1つは,サッカーの試合をとっているビデオ映像から,各選手がどのように動いているかの様子を検出したものです.1つは,町の道路で,各々の歩いている人や,各々の動いている車の様子をビデオ映像から検出したものです.ここでは,歩道を歩いている人も検出されています.それぞれの図中で,色の違いは動きの違いを表現しています.

 これらの結果から,「時空間連続DP」 は,確かに,個々の人や個々の車の動きを検出していることがわかります.それ故,災害時にも先に述べた目的に利用できる可能性を示しています.この技術はすでに特許取得済です.
 
 近年,利用が盛んになっているドローンには,様々なセンサーが搭載できますが,これらからどのような有用な情報が検出できるかに,ドローンの有効性がかかっています.そのため,良好なアルゴリズムの開発とその実装,評価に関するソフトウエアが,実際的なドローンの利用価値を決めることにもなります.

[1] Yuki Niitsuma, Syunpei Torii, Yuichi Yaguchi & Ryuichi Oka:"Time-segmentation and position-free recognition of air-drawn gestures and characters in videos", Multimedia Tools and Applications, An International Journal, ISSN 1380-7501, Volume 75, Number 19, pp.11615--11639.


 

この研究を見る

動くロボットが、背景も動く環境で、人間の動作を認識

 ロボットは通常,人間が日常生活する場所で動くことが自然なことといえます.このロボットの動く環境を考えてみると,周りには動くものが沢山あります.人々がロボットの周りを歩いていたり,近くを車が通っていたり,扇風機がその首を振っていたり,犬や猫が動いていたりしているのが普通です.これらはロボットが普通に見る風景です.また,ロボットは自分でも動きますので,ロボットの目には,それだけで外界が動いているように映ります.

 このような環境で,ロボットは,相手をする人間の動作を認識して,自分の動きを決めたり,音声での適切な返事をすることが求められます.

 このようなことが出来ないロボットは,人間とうまく環境の中で協調できないとして,自然に人間社会に受け入れてくれなくなります.

 我々が,すでに開発した動画像認識のアルゴリズム「時空間連続DP (Time-Space Continuous Dynamic Programming (TSCDP)」[1] は,上に述べた機能を実現しています.すなわち,動くカメラ(ロボットについている目に当たります)で,背景にいろいろの動くものあって,それらがロボットの目に入るという環境で,相手である人間などの動作を良好に認識できます.

 さらには,程度問題がありますが,相手としている人間の動作を遮るものが,ロボットのカメラの前にあるときでも良好に動作を認識できるものとなっています.

  下図の1つは,背景に人が動いており,カメラ自体も動いている状況で,人間が"S"の字を動作してところを認識している様子をショット図で示しています.実際は動画となっています.

 では,動画中にある全ての動くものをどのように区別されて識別されているのでしょう.

TSCDPでは,識別したい動きを時空間の一筆書きで表現します.これを標準パターンといいます.いま,下図では,TSCDPで分離できる様々な標準パターンを始点を合わせて表示しています.この中で,動くカメラと動く背景の動きは,標準パターンとしてみると単純なものに属します.これら以外の動きを標準パターンにすれば(ジェスチャなど),それらが識別できます.

 TSCDPは,この標準パターンそれぞれを動画中のピクセルの時空間系列を最適にマッチングして,時空間の切り出しなしに認識します.

 すなわち,動きの始点と終点の時点は,TSCDPでは事前に指定する必要はありません.空間的な位置,つまり動画中のどこでも識別対象は存在してもかまいません.このときのTSCDPでの識別の様子も下図1つで示しています.

 ロボットが人工知能をもつというのは,具体的にこのような機能をもつことです.Deep Learning や他の手法でも,ここで示した機能は得られていないといえます.

本研究は,以下の論文で提案されたアルゴリズムの1つの応用です.

[1] Yuki Niitsuma, Syunpei Torii, Yuichi Yaguchi & Ryuichi Oka:"Time-segmentation and position-free recognition of air-drawn gestures and characters in videos", Multimedia Tools and Applications, An International Journal, ISSN 1380-7501, Volume 75, Number 19, pp.11615--11639.




 

この研究を見る

動く3次元風景のビデオからの再構成  --自動運転や3次元地図作成へも応用--

提案するアルゴリズムは,前方に移動する車やドローンの移動体に搭載された単一カメラによる動画像から,移動前方方向の距離シーン、すなわちRGB-Dの4次元画像の動画像を実時間で再構成する方式の提案である.これによって,高価なまた多種類,多数のセンサーをもちいることなく,車やドローンの自動運転技術に応用することができる画像センサーを提供することにある.

 近年,車やドローンなどの移動する物体に,外界を捉えるセンサーを搭載することが行われている.DARPA Urban ChallengeにおけるStanford University, Carnegie Mellon University, Google Car の取り組みやなどである.

 この目的は,車やドローンの自動運転のための距離情報の取得のためであり,これらのセンサー情報はそのために使われる.例を,車の自動運転をとれば,距離センサーとは,レーザ,超音波,赤外線,ステレオカメラがその主なものである.特にレーザセンサーは1台の車に10台程度搭載されている.その中には極めて高額なレーザセンサーも含まれている.また,その性能も超音波センサーなど車の近くの距離範囲を対象領域とするものが多い.また,車から離れた場所に届くレーザセンサーでも,距離を測る対象物を特定することが困難であるという問題を抱えている.ステレオカメラでの距離センサーで測られる距離の点群がどの外界の物体に対応しているかを決定する課題を抱えている.

 本技術は,動画のピクセルをトラッキングすることに基づく動的距離風景を再構成している.これの応用として車の自動運転をするための3次元地図の作成にも応用できる. また、車が停車中の場合の動画像からは、前方に動くものの距離がframe-wise に抽出できることになる。

 一方,関連する技術として,動画像における対象物のトラッキング技術というものがある.従来のトラッキング技術は,歩行者などの動きを単にトラッキング(追跡)するものである.

 従来のトラッキングには,2つの分類がされている.1つは,画像の領域テンプレートを用いるもの,1つは,特徴テンプレート(画像の特徴を記述したもの)を用いるものである.画像テンプレートを用いるものには,パーティクル・フィルターと,mean-shift によるもの,とされている.上記文献にはないが,画像領域を用いるものとして,近年deep learning によるものが提案されている.

 一般に,従来の領域テンプレートによるトラッキングでは,最初にトラッキング対象画像を画像中から事前に取り出す作業が必要である.Particle Filter やmean-shift 法では,単一の領域テンプレートを用いて,動画中から,それのピクセル値ヒストグラムの尤度(particle filter) や正規化mean-shiftヒストグラムを手がかりにトラッキング移動先を決定する方法である.いずれも,トラッキング対象物体ごとの処理である.

 次に,従来の特徴に基づくトラッキング方法を述べる.SIFT法やSURF(Speed UP Robust Feature) 法では,sift やSURFと呼ばれる画像の特徴を抽出し,キーポイントと呼ばれる点を定め,そこでのsift や SURF特徴を表現し,これの移動先を次の画像中に推定する.これらの特徴の存在しないところではトラッキングはできないといえる.

 先に述べたようにこれらのトラッキングは物体のトラッキング自体が目的であり,カメラと物体間の距離の計算を目的とするものではない. 

提案技術は,特許出願中です.

この研究を見る

主な著書・論文

1) "A new cellular automaton structure for macroscopic linear-curved features extraction": Ryuichi Oka, p.654, Proc. 4-th International Joint Conference on Pattern Recognition (1978).
コメント:セル特徴は方向性パターンの提案でもあり,以後文字認識分野の主流となる.

2) "Continuous Words Recognition by Use of Continuous Dynamic Programming for Pattern Matching": Ryuichi Oka, Technical Report of Speech Committee, Acoustic Society of Japan, Vol.S78-20, pp.145-152, June (1978)(in Japanese).
コメント:連続DPの最初の提案である日本語論文である. 連続DPによるスポッティング認識 (切り出し不要の認識)の機能は,1次元系列,2次元画像,時空間パターン,へと拡張されている。

3) "Spotting Method for Classification of Real World Data": Ryuichi Oka, The Computer Journal, Vol.41, No.8, pp.559-565 (1998).
コメント:連続DPでは海外ではこれが引用される.

4) "Hierarchical labeling for integrating images and words": Ryuichi Oka, Artificial Intelligence Review, Vol. 8, pp. 123-145 (1994).
コメント:画像理解で最も提案が少ないmiddle vision についての提案である. vision 研究は、early,middle,highと分けられている。

5) On Spotting Recognition of Gesture Motion from Time-varying Image: Ryuichi OKA, Takuichi Nishimura, Hiroaki Yabe, Transactions of Information Processing Society of Japan, Vol.43, No.SIG 4 (CVIM 4), pp.54-68 (2002).
コメント:コンピュータと人間におけるMulti-media の実時間統合アーキテクチャの提案である。

6) Image-to-word transformation based on dividing and vector quantizing images with words: Y.Mori, H.Takahashi and R.Oka, First International Workshop on Multimedia Intelligent Storage and Retrieval Management (MISRM'99), December 1999. (1999)
コメント:画像と言語の統合関連研究では海外でよく引用されている.この分野のさきがけの1つである。

7) Time-segmentation and position-free recognition of air-drawn gestures and characters in videos, Yuki Niitsuma, Syunpei Torii, Yuichi Yaguchi & Ryuichi Oka, Multimedia Tools and Applications, An International Journal, ISSN 1380-7501, Volume 75, Number 19, pp.11615--11639.

コメント:時空間連続DPについて,英語論文ではもっとも詳しく書かれている。この技術は実用化が試みられている。