과학연구

중조기계번역기《압록강》에서 통계적학습의 병렬화실현

 2017.12.18.

경애하는 김정은동지께서는 다음과 같이 말씀하시였다.

《정보기술, 나노기술, 생물공학을 비롯한 핵심기초기술과 새 재료기술, 새 에네르기기술, 우주기술, 핵기술과 같은 중심적이고 견인력이 강한 과학기술분야를 주타격방향으로 정하고 힘을 집중하여야 합니다.》

오늘날 기계번역리론은 응용언어학의 한 분과로서의 지위를 확고히 차지하고있으며 그 리론을 구현한 여러 어종사이 기계번역체계가 개발되여 리용되고있다. 현시기 기계번역분야에서 나서고있는 주요과업중의 하나는 번역체계의 질을 결정적으로 높이는것이다.

품사결정의 정확도를 올리는것은 기계번역의 수준을 제고하는데서 대단히 중요하며 중조기계번역의 경우 중어단어의 다의적이고 다품사적인 특성으로 하여 특별히 관건적인 문제이다. 규칙에 기초한 품사결정방법은 규칙의 획득이 어렵고 규칙이 다양한 언어현상에 대응하지 못하는 결함을 가지고있기때문에 세계적으로는 코퍼스에 기초한 통계적방법을 널리 리용하고있다. 이 품사결정방법은 많은 우점을 가지고있지만 품사가 정확히 표기된 많은 분야의 다량의 중문코퍼스가 요구되며 그 량이 불어날수록 단어분할이나 품사판정을 기계가 옳바로 할수 있도록 코퍼스에 대한 반복학습을 시키는데 드는 통계적학습시간이 수렴정밀도에 비례하여 대폭 늘어난다는 치명적인 결함도 내재하고있다. 따라서 이러한 방법을 사용한 번역프로그람의 부족점을 메꾸고 학습속도와 질을 제고하는데서 병렬화를 도입하는것은 중요한 해결방도로 된다.

김일성종합대학 정보과학대학 연구사들은 다년간에 걸쳐 중조기계번역기 《압록강》을 개발하였으며 쏘프트웨어공학강좌에서는 이에 토대하여 품사결정을 위한 통계적학습의 병렬화를 실현하였다. 우리는 중조기계번역기 《압록강 3.2》에서 통계적학습을 진행하는 부분에 대한 계산특성을 분석하고 그에 알맞는 병렬화방법들을 연구한데 기초하여 다음과 같은 문제들을 해결하였다.

첫째로, 번역체계에서 코퍼스를 통한 통계적학습부분의 계산특성을 분석하고 성능제고의 대상을 찾아내였다.

둘째로, 통계적학습부분의 자료의존성을 해결하여 병렬화의 효과를 높이기 위한 병렬알고리듬을 제안하였다.

셋째로, MPI모형을 리용하여 통계적학습에 걸리는 시간을 줄이는 방법을 제안하고 프로그람으로 실현하였다.

넷째로, 작성한 병렬프로그람을 기억기공유의 다중처리기핵심부체계에서 실행시켜 그 효과성을 검증하였다.

병렬화를 실현한 중조기계번역기 《압록강 3.2》의 통계적학습시간은 처리기핵심부의 개수에 비례하여 선형감소하기때문에 분산병렬체계만이 아닌 개인용콤퓨터에서도 적극 활용할수 있어 개발자들에게 유리한 조건을 지어주며 사용자들에게는 보다 높은 질의 번역기능이 담보된다.

우리는 앞으로 품사결정의 정확성을 한계단 더 제고하기 위하여 현시기 세계적추세로 되고있는 GPU를 리용한 CUDA방식을 도입하고 스레드준위에서의 병렬화를 실현함으로써 빠른 코퍼스갱신에 보다 실시간적으로 따라서는 학습능력을 구비한 질좋은 중조기계번역기를 연구개발해나갈것이다.