Onoma-to-wave: オノマトペからの環境音合成手法

Onoma-to-wave: オノマトペからの環境音合成手法
　　

著者: 岡本悠希，井本桂右，高道慎之介，山西良典，福森隆寛，山下洋一

論文: https://arxiv.org/abs/2102.05872

このページは系列変換モデル[1]を用いたオノマトペからの環境音合成手法[2]のデモページです．以下の2種類の手法により環境音を生成しています．

オノマトペのみを入力とする環境音合成 (seq2seq)
オノマトペと音響イベントラベルを入力とする環境音合成 (seq2seq + event label)

環境音データとしては，RWCP 実環境音声・音響データベース (RWCP-SSD)[3]の中から，10種類の音響イベント（コーヒー豆をミルで挽く音，カップを叩く音，目覚まし時計の音，笛の音，マラカスの音，ドラムを叩く音，ひげ剃りの動作音，金属製のゴミ箱を叩く音，紙を引き裂く音，ベルを鳴らす音）を使用しました．オノマトペのデータは，RWCP-SSD-Onomatopoeia[4]を使用しました．

Natural sound	Seq2Seq + event label (提案法)
オノマトペ；チィッ (/ ch i: q /)
笛の音	カップを叩く音	ひげ剃りの動作音	笛の音	紙を引き裂く音

オノマトペ：ボンッ (/ b o N q /)
ゴミ箱を叩く音	ドラムを叩く音	金属製のゴミ箱を叩く音

オノマトペ：リンリン (/ r i N r i N /)
ベルを鳴らす音	ベルを鳴らす音	目覚まし時計の音

オノマトペ：ビイイイ (/ b i i i i /)
ひげ剃りの動作音	紙を引き裂く音	笛の音	ひげ剃りの動作音

オノマトペ：スャリスャリ (/ sh a r i sh a r i /)
マラカスの音	マラカスの音	コーヒー豆をミルで挽く音

[1] Ilya Sutskever, Oriol Vinyalsa and Quoc V. Le, "Sequence to Sequence Learning with Neural Networks," arXiv preprint, arXiv:1409.3215, 2014.
[2] Yuki Okamoto, Keisuke Imoto, Shinnosuke Takamichi, Ryosuke Yamanishi, Takahiro Fukumori, and Yoichi Yamashita, "Onoma-to-wave: Environmental Sound Synthesis from Onomatopoeic Words," arXiv preprint, arXiv:2102.05872, 2021.
[3] S. Nakamura, K. Hiyane, F. Asano, and T. Endo, “Acoustical Sound Database in Real Environments for Sound Scene Understanding and Hands-free Speech Recognition,” Proc. Language Resources and Evaluation Conference (LREC), pp. 965–968, 2000.
[4] Yuki Okamoto, Keisuke Imoto, Shinnosuke Takamichi, Ryosuke Yamanishi, Takahiro Fukumori, and Yoichi Yamashita, "RWCP-SSD-Onomatopoeia: Onomatopoeic Word Dataset for Environmental Sound Synthesis," Proc. Detection and Classification of Acoustic Scenes and Events (DCASE), pp. 125-129, 2020.