基本情報

所属
会津大学
職位
理事長兼学長
E-Mail
oka@u-aizu.ac.jp
Webサイト
http://web-ext.u-aizu.ac.jp/~oka/Home_jp.html

教育

担当科目 - 大学
理工学の勧め(一回の講義のみ)
担当科目 - 大学院
無し

研究

研究分野
パターン認識、人工知能、ロボット
略歴
1. 東京大学工学系研究科修士了 2. 電気試験所(現,産総研)入所 3. National Research Council of Canada (Visiting Scientist) 4. Real World Computing (国家プロジェクト,研究部長兼研究室長)
現在の研究課題
動画からの広領域3次元画像復元、自動運転のための動画処理,動作認識、カクテルパーティ音声の認識、動画によるスポーツ競技自動判定、動画における多数個体群の個々の動き,導線抽出、移動ロボット、ドローンネットワーク(「ドロネット」)
研究内容キーワード
動画認識、音声認識、動作認識,連続DP、カクテルパーティ効果、マッチング、自動運転,移動ロボット、ドロネット、ゴローン
所属学会
IEEE, 電子情報通信学会,日本音響学会,人工知能学会

パーソナルデータ

趣味
音楽鑑賞,読書,旅行(海外の美術館巡り)
子供時代の夢
理学的工学研究者になること
これからの目標
会津大学をより魅力的にすること, 工学的新アルゴリズムの発見とその有効性を実証すること.
座右の銘
「あらゆる創造は少年のこころが行う」(司馬遼太郎)
愛読書
塩野七生,志村五郎,加藤周一,内田樹,武谷三男,司馬遼太郎,エマニュエル・トッド, ユヴァル・ノア・ハラリ,の著作.
学生へのメッセージ
岐路にあってはより積極的と思われる方向を選ぶ
その他
学長挨拶
会津大リレーエッセー 35号 「大震災と大学のこれから保証ない社会の復元力
会津大リレーエッセー 68号 「新しい市場創造 IT教育で人材を育成」"

主な研究

話者混合の単一音声からの音声認識 --- 複数人同時発声の単一音声波形からの波形分離なしの音声認識

 我々は,複数話者が同時的に音声を発声し,また,ノイズ雑音も同時に存在している環境で,1つのマイクロフォンで収録される連続音声波形から,波形の分離なしに,特定話題音声が認識できる方式を提案しています.ここで,認識すべきカテゴリーの入力は合成音声となっています.従って,不特定話者に認識となっています.

 人間がもっている音声の認知機能の1つに,「カクテルパーティー効果」というものがあります.これは、人間が、多数の話者の同時会話している状況で,自分が興味をもつ話題について、認識できる,という能力です.

  これを工学的に解決しようという研究があります.その典型は,ICA( Independent Component Analysis,独立成分解析) というものです.ICAの機能は,混合した話者音声波形から,個人ごとの波形の分離を行うものです.しかし,音声の認識は行いません. また、ICAでは,通常,話者の数以上のマイクロフォンの数で収集した音声群を必要とします.

複数話者からなる単一音声から識別する試みもいくつかありますが,これらは,音声の話者による分離と認識を合体したものがほとんどです.従って,問題を本質的に解決していないといえます.特に音声の部分認識に課題が残ります.

  一方、人間は、カクテルパーティ効果の問題を実際に解決していますが,人間は両耳以外にマイクロフォンに対応しているものを使っていません.また,人間は,無意識に,あるいは意識的に会話話題の部分音声を選択して,部分認識することを行っています.別の表現をすると,会話音声の注意がいった,特定部分のスポッティング認識を行っています.

  人間の両耳効果は、音源の立体的把握が主目的で、2つの音源をとらえるためのものではないといわれています.このことは,単一のマイクロフォンで収集した音声波形からカクテルパーティ問題を解決するアルゴリズムが存在しうることを示唆しています.

 従って,話者数以上の本数のマイクロフォンを必要とするICA は,波形の分離が目的であって,不特定話者音声の認識も含む本来のカクテルパーティ問題の解決法とはいえません.ICAで波形を分離しても,その後の不特定話者の連続音声からの認識は,それ自体別途の研究課題となっています.つまり、複数の異なるアルゴリズムを必要としています.さらに,カクテル・パーティー音声の部分音声を選択的に認識することが実際のカクテル・パーティ音声の認識といえます.

  われわれの提案は,1つのアルゴリズムで,また1つのマイクで収集される音声から,個人ごとの波形を分離しない人間のように、かつ部分音声の不特定話者認識を行う,本来のカクテル・パーティー効果という人間の認知機能を実現しています.

添付の画像では,英語,日本語,中国語,ドイツ語が4人の話者が同時に発話したものとノイズが加算したものを,1つのマイクで録音したものから,キーワードや一部のフレーズを切り出すことなく認識している様子を示している.ここで,キーワードやキーフレーズは合成音声で作成され,これを事前切り出しなしの検索,かつ,不特定話者認識を行っている.



この方式については、現在特許出願中です. 



 

この研究を見る

ビデオから都市風景の3D画像化 --- 市街地や室内のウォーク・スルー・データのビデオ動画から作成---

   室内に限らず,都市や街,山岳,里山の広範囲の風景を,長時間のビデオ動画として取得することは容易です.ここでは,これらの長時間のビデオ動画に写っている室内外の広域のシーン全体を,高密度かつ距離のdynamic range の極めて大きい3次元シーンで自動復元する手法を提案します.この課題は,実世界の3次元復元技術のフロンティアといえるものです.

  このようなシーンの3次元画像復元ができれば,室内外でのロボットの作業支援(Visual SLAM技術)や,室内,あるいは室外の広域の3次元シーンに人間が任意に入り込むVR体験(walk through)システムの構築など,の実現に寄与します.更には,自動車の屋根に360度カメラをつけ,移動する車からのビデオ動画像から周辺の3Dシーンを再構成するとき、これは自動運転にも利用できます.

  3次元復元の従来技術として,超音波,赤外線やレーザの距離センサーを用いるものや,視覚を使うものも,ステレオの2眼以上のカメラを用いるもの、シルエットで空間のvoxel を埋めるもの、など多様な方法(image-based, voxel-based, object-based algorithmsに分類される)がありました.しかし,従来技術では,扱える対象のシーンは,距離範囲や画素の稠密性の限定や,広域性,対象物の反射特性の制約がされたものとなっています.さらには,SIFTなどの特徴抽出,factorization, RANSAC, Kalman filter など複数の技術を総合する必要もありました.そのため,一般のユーザが普通にとるビデオ動画から、簡単に3次元画像をうる技術が従来,提供されてこなかったといえます.

   本研究では,室内外や広域のシーンを対象に,特段の制約なしに,普通に得られる単一の長時間ビデオから,高密度、距離範囲の広い3次元シーンの復元を行っています.その簡単さのために,一般の各種目的への供用が容易なものとなっています.ここでいうシーンは,必ずしもカメラの直下の風景に限らず,任意のカメラ方向が撮る風景を意味します.

   都市,建物,道路,川,森などでは、大きなもの同士を区別する3次元情報があり、また,個々の大きなものの構成部分を区別する3次元情報があります.ここでは,前者の3次元情報を取り出したものを示します.個々の内部を区別することも同じ手法で抽出が可能です.

 ここでは,前者のみを以下の画像で示します.

 下の画像は、(1) 市街地を撮った ビデオの1フレーム画像(静止画)、 (2) 前記(1)の画像のR,G,Bと距離値を合わせた3次元画像を斜め方向から見たもの、 (3)  会津大学の庭園をドローンで10m の高さから撮った下方の動画からの3次元復元を示している.

  なお,提案方式の内容の一部については,Ryuichi Oka and Ranaweera Rasika, Region-wise 3D Image Reconstruction from Video Based on Accumulated Moton Parallax, MIRU2017,PS1-5,August 2017 で発表している.

また,この手法は,特許出願中です.
 

この研究を見る

「ドロネット」の提案-- 有線ケーブルでつながったドローン群による新機能実現 --

 有線ケーブルで繋がれたドローンのネットワークを「ドロネット」とよび,この概念を提案します.

 従来のドローンは,単体が通常であり,また,それらの群を考える場合でも,単体ドローン運動の協調動作は一部実現されていますが,ドローン群の実現する機能は限られていました.

 提案する「ドロネット」は,有線ケーブルでドローン間を結合してネットワークを構成しています.ドロネットの各ドローンは,近傍の結合有線ケーブル群に依存する,分散制御の新アルゴリズムで,外力で生じる不安定状態の安定化を実現します.ドロネットの目的地への飛行は,仮想外力の設定により,安定化の機能の中で実現します.その他,以下で述べる,単体の群では実現できない機能を実現しています

 また,ドロネットには,各ドローンへの給電が,自分のもつバッテリーによるものと,地上から有線ケーブルによるもの,の2種類があります.その結果,

1) 地上から有線ケーブルで給電するドロネットは長時間飛行を可能とする,
2) 単体ドローンでは運べなかった重い荷物を,ネット全体が負荷分散として,運ぶことができる,
3) ネットワークを形成することで,風などの外乱や,故障したドローンは荷物扱いされ落下せず.故障について頑健となる,
4) 線状のドロネットは,建物や橋梁の複雑な構造物内部に,空中ヘビのように入り込むことができ,そこでの計測機器を,地上からの有線給電で,長時間に動作させることができる.
5) 地上からの有線給電をしないドロネットには,飛行用のみのバッテリーを搭載する部分ドローン群により,長時間飛行を行う.

 など,ドローンが群をなすことで実現する新しい機能を生じさせています.

 下の画像は,ドロネットの,飛行,荷物の運搬,一部のドローンの故障,線状ドロネット飛行のシミュレーションと,製作中の実機を示しています.

[参考]  岡 隆一、畠 圭佑,"ドロネット -- 有線結合ドローン・ネットワーク ---",  計測と制御,Vol.56, No.1, pp.40--43 (2017).

 なお、この技術は特許出願中です.


 

この研究を見る

スポーツ演技の自動の採点や判定

 ビデオ動画から,フギュアスケートの演技運動,空中手書き漢字などの複雑な人間の動作や動物やものの動きの認識を行う方式として,「時空間連続DP(TSCDP)」と呼ぶものを提案します [1].

 従来の,ビデオ動画からの人間の動作認識方式では,

1) カメラ映像中の対象動作である指などにマーカーや色のついたキャップをつける必要があった,
2) 1つの画面には1つの動作のみが存在すると仮定してきた,1つの画面に多数の同一動作や多種の動作は無いとされてきた,
3) 動作の始まりと終わりの時刻の検出問題を抱えていた,
4) 画面の任意の位置での動作を許してはいなかった,
5) 漢字などの複雑な動作が認識できなかった,
6) 識別対象動作の背景シーンに他の動くものの存在が許されなかった,
7) 動作の前に遮るものの存在が許されなかった,
8) 撮影カメラの動いていることが許されなかった、

 などの困難さがありました.また,風景中の車など、ものの動きを動画から認識するとき、従来技術(HMMなど)は,上記と類似した困難さがありました.

 また、従来技術には,ビデオ映像からではなく,Kinect などのような赤外線やレーザーのセンサーを用いるもの,加速度センサーを用いるものがありました.しかし,これらのセンサーを使っても,上記の機能の実現の困難さは依然として存在しています.

  これらの従来方式の困難な課題をすべて解決するものが,われわれの提案する「時空間連続DP」というマッチング方式です.

 この方式は,動画から,識別対象の動作している時間区間や,動作の画像内での空間位置の,双方について,事前の切り出しを必要としません.これは大きな機能です.

 その結果,フィギュア・スケートなどのスポーツの長時間の,あるいは実時間のビデオ映像から,演技の自動採点や勝負の自動判定を行うシステムの実現にも使えます.スポーツ中継では、必ずしもカメラは固定されていませんので、これも本手法では許されます.

 フィギュアスケートでは,理想的な演技からのズレが採点のポイントとなります.理想的な演技動作を標準パターンとして,時空間連続DPは,それを識別し,理想的な演技動作からの非線形的なずれも抽出できます.これを採点のパラメータします.

 さらには,1つの画面に任意の個数の動作があっても,また開始と終了時間の任意であっても,それらを全部認識できます.TV実況のような動画では、演技者の背景が動いていますが、このような動画データでも問題ありません。

 下図では,「時空間連続DP」のフギュアスケートの演技に認識を含む,上述した様々の動画への適用や,時空間の非線形性の変動を捉える様子など,得られている認識機能を示しています.
 
 また,この技術はすでに特許取得済みです。

[1] Yuki Niitsuma, Syunpei Torii, Yuichi Yaguchi & Ryuichi Oka:"Time-segmentation and position-free recognition of air-drawn gestures and characters in videos", Multimedia Tools and Applications, An International Journal, ISSN 1380-7501, Volume 75, Number 19, pp.11615--11639.





この研究を見る

人と車の動きを上空のカメラの動画から検出

 災害時などにおける人や車の動き,またその混雑状況の把握は,災害の人的被害を最小化するために必要な情報の1つです.災害時に飛行機やドローンをとばし,搭載のカメラの映像を解析することによって,その情報の取得の努力が,これまでさまざまに試みられてきました(optical flow, particle filter, Kalman filter, 時空間voxel code の統計処理、など).しかし,従来の手法では,個別の人や車の多様な動きを検出して,状況を把握するまでの性能がでていません.特に,人や車の動画からの切り出し問題が良好に解決されていません.さらに,災害時には広範囲の地上をとらえる動画映像からリアルタイムで処理する必要があります.

 災害時では,屋外の広い領域が対象ですので,狭い街中をレーザーなどで人混みを検出するのでは間に合いません.

 求められている新アルゴリズムとは,広い領域において、迅速に、容易に,持続的に、自動的に,実時間で,また,個々の人や個々の車の動きを,動画像から人や車を切りだすことなく,良好に検出できるものです."切り出し"と"認識"を同時的に行うことで,この問題を解決しています.

 われわれの開発した「時空間連続DP」[1]という手法は,人や車の写っている動画からの,時間と場所について切り出し不用なことを含めて,上記の必要される様々な機能をもつものであり,人や車の動きが実時間で検出できるものです.

ここでは,災害時ではありませんが,この手法を別の動画に適用した2種類の実験例を下図に示します.いずれもビデオカメラによる動画映像から,個々の人や個々の車の動きを良好に検出しているものです.1つは,サッカーの試合をとっているビデオ映像から,各選手がどのように動いているかの様子を検出したものです.1つは,町の道路で,各々の歩いている人や,各々の動いている車の様子をビデオ映像から検出したものです.ここでは,歩道を歩いている人も検出されています.それぞれの図中で,色の違いは動きの違いを表現しています.

 これらの結果から,「時空間連続DP」 は,確かに,個々の人や個々の車の動きを検出していることがわかります.それ故,災害時にも先に述べた目的に利用できる可能性を示しています.この技術はすでに特許取得済です.

 近年,利用が盛んになっているドローンには,様々なセンサーが搭載できますが,これらからどのような有用な情報が検出できるかに,ドローンの有効性がかかっています.そのため,良好なアルゴリズムの開発とその実装,評価に関するソフトウエアが,実際的なドローンの利用価値を決めることにもなります.

[1] Yuki Niitsuma, Syunpei Torii, Yuichi Yaguchi & Ryuichi Oka:"Time-segmentation and position-free recognition of air-drawn gestures and characters in videos", Multimedia Tools and Applications, An International Journal, ISSN 1380-7501, Volume 75, Number 19, pp.11615--11639.


この研究を見る

動くロボット(動くカメラ)が、背景も動く環境で、人間の動作を認識

 ロボットは通常,人間が日常生活する場所で動くことが自然なことといえます.このロボットの動く環境を考えてみると,周りには動くものが沢山あります.人々がロボットの周りを歩いていたり,近くを車が通っていたり,扇風機がその首を振っていたり,犬や猫が動いていたりしているのが普通です.これらはロボットが普通に見る風景です.また,ロボットは自分でも動きますので,ロボットの目には,それだけで外界が動いているように映ります.

 このような環境で,ロボットは,相手をする人間の動作を認識して,自分の動きを決めたり,音声での適切な返事をすることが求められます.

 このようなことが出来ないロボットは,人間とうまく環境の中で協調できないとして,自然に人間社会に受け入れてくれなくなります.

 我々が,すでに開発した動画像認識のアルゴリズム「時空間連続DP (Time-Space Continuous Dynamic Programming (TSCDP)」[1] は,上に述べた機能を実現しています.すなわち,動くカメラ(ロボットについている目に当たります)で,背景にいろいろの動くものあって,それらがロボットの目に入るという環境で,相手である人間などの動作を良好に認識できます.

 さらには,程度問題がありますが,相手としている人間の動作を遮るものが,ロボットのカメラの前にあるときでも良好に動作を認識できるものとなっています.

下図の1つは,背景に人が動いており,カメラ自体も動いている状況で,人間が"S"の字を動作してところを認識している様子をショット図で示しています.実際は動画となっています.

 では,動画中にある全ての動くものをどのように区別されて識別されているのでしょう.

TSCDPでは,識別したい動きを時空間の一筆書きで表現します.これを標準パターンといいます.いま,下図では,TSCDPで分離できる様々な標準パターンを始点を合わせて表示しています.この中で,動くカメラと動く背景の動きは,標準パターンとしてみると単純なものに属します.これら以外の動きを標準パターンにすれば(ジェスチャなど),それらが識別できます.

 TSCDPは,この標準パターンそれぞれを動画中のピクセルの時空間系列を最適にマッチングして,時空間の切り出しなしに認識します.

 すなわち,動きの始点と終点の時点は,TSCDPでは事前に指定する必要はありません.空間的な位置,つまり動画中のどこでも識別対象は存在してもかまいません.このときのTSCDPでの識別の様子も下図1つで示しています.

 ロボットが人工知能をもつというのは,具体的にこのような機能をもつことです.Deep Learning や他の手法でも,ここで示した機能は得られていないといえます.

本研究は,以下の論文で提案されたアルゴリズムの1つの応用です.

[1] Yuki Niitsuma, Syunpei Torii, Yuichi Yaguchi & Ryuichi Oka:"Time-segmentation and position-free recognition of air-drawn gestures and characters in videos", Multimedia Tools and Applications, An International Journal, ISSN 1380-7501, Volume 75, Number 19, pp.11615--11639.




この研究を見る

主な著書・論文

1) "A new cellular automaton structure for macroscopic linear-curved features extraction": Ryuichi Oka, p.654, Proc. 4-th International Joint Conference on Pattern Recognition (1978).
コメント:セル特徴は方向性パターンの提案でもあり,以後文字認識分野の主流となる.

2) "Continuous Words Recognition by Use of Continuous Dynamic Programming for Pattern Matching": Ryuichi Oka, Technical Report of Speech Committee, Acoustic Society of Japan, Vol.S78-20, pp.145-152, June (1978)(in Japanese).
コメント:連続DPの最初の提案である日本語論文である. 連続DPによるスポッティング認識 (切り出し不要の認識)の機能は,1次元系列,2次元画像,時空間パターン,へと拡張されている。

3) "Spotting Method for Classification of Real World Data": Ryuichi Oka, The Computer Journal, Vol.41, No.8, pp.559-565 (1998).
コメント:連続DPでは海外ではこれが引用される.

4) "Hierarchical labeling for integrating images and words": Ryuichi Oka, Artificial Intelligence Review, Vol. 8, pp. 123-145 (1994).
コメント:画像理解で最も提案が少ないmiddle vision についての提案である. vision 研究は、early,middle,highと分けられている。

5) On Spotting Recognition of Gesture Motion from Time-varying Image: Ryuichi OKA, Takuichi Nishimura, Hiroaki Yabe, Transactions of Information Processing Society of Japan, Vol.43, No.SIG 4 (CVIM 4), pp.54-68 (2002).
コメント:コンピュータと人間におけるMulti-media の実時間統合アーキテクチャの提案である。

6) Image-to-word transformation based on dividing and vector quantizing images with words: Y.Mori, H.Takahashi and R.Oka, First International Workshop on Multimedia Intelligent Storage and Retrieval Management (MISRM'99), December 1999. (1999)
コメント:画像と言語の統合関連研究では海外でよく引用されている.この分野のさきがけの1つである。

7) Time-segmentation and position-free recognition of air-drawn gestures and characters in videos, Yuki Niitsuma, Syunpei Torii, Yuichi Yaguchi & Ryuichi Oka, Multimedia Tools and Applications, An International Journal, ISSN 1380-7501, Volume 75, Number 19, pp.11615--11639.

コメント:時空間連続DPについて,英語論文ではもっとも詳しく書かれている。この技術は実用化が試みられている。