국제규격《언어자원관리-서사본문의 단어구분》과 조선어

 2019.12.3.

2007년 8월 국제규격화기구(ISO) 제37기술위원회(TC 37) 제4분과(SC4)에서는 언어정보처리에서 중요한 문제의 하나인 《언어자원관리-서사본문의 단어구분》을 국제규격으로 정할데 대한 과제를 중요사업항목으로 제의하였다.

국제규격화기구 제37기술위원회가 규격사업항목으로 제시한 과제인 《언어자원관리-서사본문의 단어구분》은 정보처리를 진행함에 있어서 세계의 각이한 언어들에서 단어구분을 각이하게 하는 페단을 막고 유일적으로 일관적으로 할 목적으로 제시된 과제이다.

제37기술위원회 4분과에서는 조선, 중국, 일본 등 아시아의 언어들에서의 단어구분을 규격화하는 사업을 전문으로 맡아하였다.

김일성종합대학에서는 2007년 8월부터 2010년까지 6차례에 걸쳐 국제규격들인 ISO 24614-1:2010 "Language resource management-Word segmentation of written texts-Part 1: Basic concepts and general principles"(언어자원관리-서사본문의 단어구분-1부: 기초개념과 일반원칙)ISO 24614-2:2011 "Language resource management-Word segmentation of written texts-Part 2: Word segmentation in Chinese, Japanese and Korean"(언어자원관리-서사본문의 단어구분-2부: 중국어, 일본어, 조선어의 단어구분)을 제정하는데 참가하여 2011년부터 세계적인 적용에 들어가게 하는 성과를 거두는데 기여하였다.

규격표지
사진 1. 규격표지

굴절어, 고립어와는 다른 교착어인 조선어의 특성을 반영한 규격이 채택되게 됨으로써 이 규격은 세계적인 각이한 류형의 언어들의 특성을 포괄적으로 반영한 표본규격으로서의 역할을 원만히 할수 있게 되였으며 전 세계가 단어구분에서의 통일성과 호환성을 보장할뿐아니라 언어정보처리에서의 신속성과 정확성을 보장할수 있는 기준이 세워지게 되였다.

앞으로 이 규격은 중국어, 일본어, 조선어, 타이어, 윁남어, 몽골어, 티베트어와 같은 언어들의 자연언어처리, 정보검색, 탐색기, 질의응답, 기계번역, 음성합성의 전처리, 문서교정, 음성인식, 문자인식 기타 글자입력방법들의 후처리, 전자도서관, 의미망, 전자업무와 전자상업, 전자학습 등 언어정보처리를 위한 모든 응용분야들에서 서사본문의 단어구분을 일관적으로 하는데 적용된다.

특히 이 규격채택과정을 통하여 어휘가 풍부하고 문법구조가 발달한 세상에서 가장 우수한 조선어의 민족적특성이 더욱 널리 소개되게 되였으며 세계적으로 대표적인 언어로서의 자기의 지위를 확고히 차지할수 있게 되였다.

배광희박사
사진 2. 규격작성을 토의하는 배광희박사

이 규격작성에는 김일성종합대학 조선어문학부 조선어학강좌 교원 배광희(박사, 부교수)와 중국의 청화대학 콤퓨터학부 교수 손무송(교수 박사)을 비롯하여 아시아의 이름있는 4명의 교수, 박사들이 집필편집자로 참가하였다.