catbook DeokJin about AI

Double Adversarial Network based Monaural Speech Enhancement for Robust Speech Recognition (ISCA 2020)

» paper

ISCA 2021 제출 목표를 위한 실험 설계로 본 논문에서는 데이터 셋 구축만 살펴보았음.

RIR과 노이즈 합성을 사용하여 90시간의 반향과 노이즈가 담긴 데이터를 생성함. RIR은 특정 환경의 impulse와 음성을 convolving함.

We adopted a linear microphone array containing 4 microphones with spacing of 0.05 m. The target speaker was randomly located in angles from 0 ◦ to 180◦ .

위와 같은 방법으로 사용했다는데, 아마도 실제로 마이크와 스피커를 배치한 것으로 보임.

Reference

https://isca-speech.org/archive/Interspeech_2020/pdfs/1101.pdf