可変入力型深層学習による入力形式を問わない学習手法の確立とその映像認識への応用
【研究分野】知覚情報処理
【研究キーワード】
深層学習 / 映像認識 / パターン認識
【研究成果の概要】
本研究の主な成果は、画像とテキストデータを融合活用した映像認識手法を提案したことである。本手法は混合ガウス分布で単語ベクトルの分布を推定するものであり、単語ベクトルを用いて語彙拡張を行うことで、映像の意味的インデクシングの精度が向上することを示した。本成果に関する論文はACM Multimediaというマルチメディア情報処理分野の国際会議に採択されている。また、それに合わせて画像特徴量を効率的に算出するアルゴリズムを提案し、IEEE TPAMIというパターン認識分野の論文誌で発表を行った。これらの手法はTRECVID映像認識で評価されており、当初の目的であった映像認識システムの構築ができた。
【研究の社会的意義】
本研究の成果は、映像や画像を認識するための人工知能技術に関するものである。画像データとテキストデータの情報を組み合わせることで、認識精度が向上することを示した。これは映像のどの部分に何があるかを詳細に検索する次世代の検索システムに役立つ技術である。
【研究代表者】
【研究種目】若手研究(B)
【研究期間】2015-04-01 - 2019-03-31
【配分額】3,900千円 (直接経費: 3,000千円、間接経費: 900千円)