Deep Generative Model とその因子分解による音声情報処理基盤
【研究分野】知覚情報処理
【研究キーワード】
音声情報処理 / 深層学習 / 話者適応 / マルチモーダル処理
【研究成果の概要】
多数話者の発声した大量の音声データから、Deep Neural Network (DNN)を構築し、それを音韻と話者の要因毎に分解することで高性能な音声認識モデルを獲得する枠組みの研究開発を行った。2つのDNNの一部を共有させた構造をもつDeep Siamese Networkを用いた話者認識、音韻構造を階層的な出力層で表現したDNNを用いた話者適応化、Soft Targetを教師としたStudent-Teacher学習の枠組みを用いた話者正規化学習、の3つの手法を提案し、それぞれで話者認識性能、音声認識性能の顕著な向上を得た。それ以外にもDNNの実装、ネットワーク構造設計の研究を行った。
【研究代表者】
【研究分担者】 |
岩野 公司 | 東京都市大学 | メディア学部 | 教授 | (Kakenデータベース) |
篠崎 隆宏 | 東京工業大学 | 大学院総合理工学研究科 | 准教授 | (Kakenデータベース) |
|
【研究種目】基盤研究(B)
【研究期間】2013-04-01 - 2016-03-31
【配分額】16,900千円 (直接経費: 13,000千円、間接経費: 3,900千円)