Transformerを用いたオノマトペからの環境音合成
  

著者: 岡本 悠希,井本 桂右,高道 慎之介,福森 隆寛,山下 洋一


このページはTransformer [1]を用いたオノマトペからの環境音合成手法 [2]のデモページです.

環境音データとしては,RWCP 実環境音声・音響データベース (RWCP-SSD)[3]の中から,10種類の音響イベント(コーヒー豆をミルで挽く音,カップを叩く音,目覚まし時計の音,笛の音,マラカスの音,ドラムを叩く音,ひげ剃りの動作音,金属製のゴミ箱を叩く音,紙を引き裂く音,ベルを鳴らす音)を使用しました.オノマトペのデータは,RWCP-SSD-Onomatopoeia[4]を使用しました.




Natural sound Seq2seq Transformer
(提案法)
 オノマトペ:ズザー (/ z u z a: /)
 オノマトペ:ブイイイイイイ (/ b u i i i i i i i i /)
 オノマトペ: ギュリギュリギュリ (/ gy u r i gy u r i gy u r i /)
 オノマトペ;リリリリリリン (/ r i r i r i r i r i r i N /)
 オノマトペ: グオーン (/ gu o: N /)



[1] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, "Attention is all You need," Proc. NIPS, pp. 6000-6010, 2017.
[2] 岡本 悠希,井本 桂右,高道 慎之介,福森 隆寛,山下 洋一,"Transformerを用いたオノマトペからの環境音合成," 日本音響学会2021年秋季研究発表会,pp. 943-946.
[3] S. Nakamura, K. Hiyane, F. Asano, and T. Endo, “Acoustical Sound Database in Real Environments for Sound Scene Understanding and Hands-free Speech Recognition,” Proc. Language Resources and Evaluation Conference (LREC), pp. 965–968, 2000.
[4] Yuki Okamoto, Keisuke Imoto, Shinnosuke Takamichi, Ryosuke Yamanishi, Takahiro Fukumori, and Yoichi Yamashita, "RWCP-SSD-Onomatopoeia: Onomatopoeic Word Dataset for Environmental Sound Synthesis," Proc. Detection and Classification of Acoustic Scenes and Events (DCASE), pp. 125-129, 2020.