Onoma-to-wave: オノマトペからの環境音合成手法
  

著者: 岡本 悠希,井本 桂右,高道 慎之介,山西 良典,福森 隆寛,山下 洋一

論文: https://arxiv.org/abs/2102.05872

このページは系列変換モデル[1]を用いたオノマトペからの環境音合成手法[2]のデモページです.以下の2種類の手法により環境音を生成しています.

環境音データとしては,RWCP 実環境音声・音響データベース (RWCP-SSD)[3]の中から,10種類の音響イベント(コーヒー豆をミルで挽く音,カップを叩く音,目覚まし時計の音,笛の音,マラカスの音,ドラムを叩く音,ひげ剃りの動作音,金属製のゴミ箱を叩く音,紙を引き裂く音,ベルを鳴らす音)を使用しました.オノマトペのデータは,RWCP-SSD-Onomatopoeia[4]を使用しました.




Natural sound KanaWave Seq2seq
(提案法)
Seq2Seq + event label
(提案法)
 オノマトペ;チィッ (/ ch i: q /)
笛の音 カップを叩く音 ひげ剃りの動作音 笛の音 紙を引き裂く音
 オノマトペ: ボンッ (/ b o N q /)
ゴミ箱を叩く音 ドラムを叩く音 金属製のゴミ箱を叩く音
 オノマトペ: リンリン (/ r i N r i N /)
ベルを鳴らす音 ベルを鳴らす音 目覚まし時計の音
 オノマトペ:ビイイイ (/ b i i i i /)
ひげ剃りの動作音 紙を引き裂く音 笛の音 ひげ剃りの動作音
 オノマトペ:スャリスャリ (/ sh a r i sh a r i /)
マラカスの音 マラカスの音 コーヒー豆をミルで挽く音



[1] Ilya Sutskever, Oriol Vinyalsa and Quoc V. Le, "Sequence to Sequence Learning with Neural Networks," arXiv preprint, arXiv:1409.3215, 2014.
[2] Yuki Okamoto, Keisuke Imoto, Shinnosuke Takamichi, Ryosuke Yamanishi, Takahiro Fukumori, and Yoichi Yamashita, "Onoma-to-wave: Environmental Sound Synthesis from Onomatopoeic Words," arXiv preprint, arXiv:2102.05872, 2021.
[3] S. Nakamura, K. Hiyane, F. Asano, and T. Endo, “Acoustical Sound Database in Real Environments for Sound Scene Understanding and Hands-free Speech Recognition,” Proc. Language Resources and Evaluation Conference (LREC), pp. 965–968, 2000.
[4] Yuki Okamoto, Keisuke Imoto, Shinnosuke Takamichi, Ryosuke Yamanishi, Takahiro Fukumori, and Yoichi Yamashita, "RWCP-SSD-Onomatopoeia: Onomatopoeic Word Dataset for Environmental Sound Synthesis," Proc. Detection and Classification of Acoustic Scenes and Events (DCASE), pp. 125-129, 2020.