과학연구

조선어대어휘련속음성인식에서 음절단위의 리용방법

 2020.4.14.

경애하는 김정은동지께서는 다음과 같이 말씀하시였다.

《우리는 가까운 앞날에 전반적인 과학기술분야에서 세계를 디디고 올라설수 있다는 배심을 가지고 첨단돌파의 기적들을 련이어 창조하여야 합니다.》

대어휘련속음성인식에서 리용되는 인식단위는 언어에 따라 서로 다르다. 영어를 비롯한 유럽계언어들은 굴절어의 특성을 가지는것으로 하여 어휘변동이 심하다. 이러한 형태론적인 풍부성은 높은 OOV률을 산생하고 자료성김문제와 높은 LM분기수를 초래하게 되므로 LVCSR에 부분어휘단위를 적극 리용하고있다.

가장 대표적인 류형의 부분단어는 최소의미단위인 형태부이다. 그러나 조선어인 경우에 앞붙이와 뒤붙이와 같이 길이가 짧은 형태부들은 형태부들사이의 경계에서 발생하는 발성전이현상을 정확히 반영하기 어려우며 음성인식에서 삽입, 탈락오유의 기본원인으로 된다. 결합형태부(합성단어)들은 형태부경계에서 일어나는 발성전이현상을 반영할수 있을뿐아니라 국부적으로 고차의 n-gram적용효과를 얻을수 있으나 어휘수증대를 가져오며 모형의 비대화를 초래하게 된다.

다른 류형의 부분단어로서 단어의 음운론적구성토막인 음절이 있다. 조선어에서 음절단위는 길이가 짧고 언어적제약이 약한것으로 하여 독자적인 인식단위로 쓰이지 못하고있다. 또한 가변길이음절단위는 순수 통계적으로 결합된것으로 하여 많은 음절렬들이 언어적인 의미정보를 류실하며 결국 음성인식성능에 부정적인 영향을 주게 된다.

부분단어의 다른 류형으로서 서사소론적인 부분단어가 그의 문맥의존형 발음과 결합되여 하나의 복합단위를 이루는 서사음소이다. 서사음소는 어학적고려가 없이 고정길이의 부분단어들에 기초하여 구축되며 주로 OOV단어들을 모형화하는데 리용된다.

김일성종합대학 정보과학부에서는 조선어음성인식에 선행한 방법들을 적용하는데서 나서는 문제점들을 분석한데 기초하여 세가지 류형의 부분단어단위들이 혼합된 언어모형화체계를 개발하였다.

우리는 통계적인 해석과 조선어의 어음학적특성에 기초하여 합성단어와 형태부들을 그대로 리용하는것과 함께 전체 어휘사전의 많은 비중을 차지하고 화제의존성이 강한 고유명사 및 일반명사사전에 대해서 저빈도단어들을 음절단위로 토막화하고 음절 n-gram으로 표현함으로써 어휘의 피복률과 어휘수, 인식성능문제들을 다같이 해결하였다.

실험에서는 제안모형이 가변길이음절모형과 합성단어 및 형태부단위 모형에 비하여 각각 0.46%, 0.44%의 절대적인 WER개선을 이룩하였다. 또한 합성단어와 형태부단위의 어휘들을 전부 포함하고있는 모형에 비한 제안모형의 우월성을 모형크기와 OOV률, 인식성능의 모든 견지에서 확증하였다.

구체적인 자료는 https://doi.org/10.1007/s10772-019-09637-2를 참고하기 바란다.