과학연구

문조절재귀유니트에 기초한 로바스트적인 음성활성검출방법

 2024.4.30.

음성활성검출은 많은 음성응용제품들에서 입력신호의 음성구간을 검출하는 전처리단계이다. 음성신호는 여러가지 잡음신호의 영향을 항상 받는것으로 하여 잡음속에서 음성활성검출은 중요한 문제로 나선다.

연구에서는 강한 잡음환경에서 전통적인 음성활성검출의 단점을 극복할수 있는 시간지연신경망과 문조절재귀유니트에 기초한 효과적인 심층신경망을 제안하였다.

특징량으로서는 40차원 MFCC를 리용하였다.

음성활성검출기는 3개층의 시간지연신경망과 2개의 적층된 문조절재귀유니트로 이루어진 신경망으로 구성하였다. 실험에서는 Musan코퍼스를 리용하였으며 TensorFlow흐레임워크를 리용하여 학습시키였다.

실험에서는 공장잡음, 웅성거리는 잡음 등 10가지 잡음을 리용하였다.

실험에서는 신호대잡음비가 10, 5, 0,-5dB에서 10가지 잡음으로 섞은 조건하에서 제안한 방법을 전통적인 방법과 비교하였다.

제안된 방법의 성능을 표현하기 위하여 ROC곡선(즉 참정의률과 거짓정의률사이 관계를 나타내는 곡선)을 고찰하였다.

실험결과는 제안한 방법이 고찰한 잡음조건하에서 선행방법보다 우월하다는것을 보여준다. 다시말하여 시간지연신경망과 문조절재귀유니트에 기초한 신경망방법이 검출성능을 개선한다는것을 보여주었다.

연구결과는 잡지 《Multimedia Tools and Applications》에 《A gated recurrent unit based robust voice activity detector》(https://doi.org/10.1007/s11042-023-17123-w)의 제목으로 출판되였다.