《새로운 과학기술분야를 개척하기 위한 사업도 전망성있게 밀고나가야 합니다. 나라의 과학기술을 세계적수준에 올려세우자면 발전된 과학기술을 받아들이는것과 함께 새로운 과학기술분야를 개척하고 그 성과를 인민경제에 적극 받아들여야 합니다.》 (
세계적으로 조선어의 리용범위가 넓어짐에 따라 매몰형체계들에서 조선어입력의 편리성, 고속성에 대한 요구가 절박하게 제기되고있다.
세계적으로 매개 민족어의 형태론적 및 통계론적특성에 대한 분석에 기초하여 본문편집체계에서의 고속성을 보장하기 위한 연구 및 개발사업이 진행되고있다.
조선어입력체계와 관련한 연구에서는 조선어자모와 글자들의 확률통계적특성과 관련한 연구, 조선어문자판의 최량설계와 관련한 연구들이 진행되여 도입되고있지만 편집작업의 고속화와 관련한 연구는 진행된것이 없다.
우리는 조선어단어고속입력을 위한 열쇠어로 쓰이는 단위선택과 관련한 분석연구를 통하여 조선어자모음들을 다른 나라들에서처럼 더 기초적인 필획으로 분리하는것은 의의가 없다는 결론을 도출하였다. 따라서 조선어고속입력과 관련한 연구과제는 초성렬을 비롯한 일부 자모들의 입력에 의하여 요구되는 조선어단어를 선택하게 하는 단어입력방법을 실현하는데 귀착된다고 볼수 있다.
본문에서의 매 단어들을 하나의 상태(Si)로 볼 때 한개 단어가 출현한 다음 출현되는 단어는 마르꼬브과정에서의 다음상태(Sj)라고 볼수 있으며 Si상태에서 Pij의 확률을 가지고 Sj상태로 넘어갈수 있다. 이때 Pij는 본문코퍼스상에서 학습된 2그람사전에 의하여 결정된다.
이렇게 놓고보면 본문편집과정은 언어생활에서 리용되는 단어들을 각 상태로 하는 마르꼬브이행과정에서 본문편집자의 경로조종에 따라 필요한 상태들을 선택해나가는 과정으로 볼수 있다.
경로조종수단은 2가지 즉 요구하는 단어에 해당한 초성렬입력과 다음 단어후보렬모임중에서의 선택기능이다.
초성법에 의한 단어고속입력은 "초성1+[초성2+초성3+초성4]"입력에 의한 편집방식으로 실현한다.
초성렬편집차에 입력하려는 단어에 해당한 초성렬을 입력하면 단어후보목록창에 그에 해당한 단어후보렬들이 현시되는데 여기에서 필요한 단어를 선택하는 방식으로 단어입력을 진행한다.
실례: "ㄱ,ㄱ"=> {"국가", "국규", …}중에서 선택한다.
초성렬입력에 의한 단어고속입력기능은 다음의 경우에 리용된다.
- 문장의 첫 단어입력시, 즉 편집작업 시초
이때는 본문을 이루는 단어들의 마르꼬브과정에서 출발상태가 결정되지 않은 경우이기때문에 편집자가 의도하는 첫 단어를 반드시 입력해주어야 한다.
- 불완전마르꼬브과정인 경우
편집자가 원하는 본문에 들어있는 단어들에 대한 마르꼬브사슬이 다 형성되여있지 않은 경우인데 시각적으로는 단어후보모임창에 단어후보모임이 없는 경우, 편집자가 원하는 단어가 없는 경우이다.
련상법에 의한 단어고속입력은 리상적으로 편집자가 원하는 본문에 들어있는 단어들에 대한 마르꼬브사슬이 다 형성되여있는 경우,즉 완전마르꼬브과정인 경우에 리용된다.
이 경우 본문의 편집과정은 단순히 단어후보렬모임중에서의 선택기능으로 경로조종을 실현할수 있다.
단어들에 대한 마르꼬브사슬은 단어2그람사전정보로 표현되는데 이 사전정보는 본문편집창에 넘어간 앞단어다음에 출현가능한 단어후보모임을 추출하고 그 가운데서 출현빈도가 가장 높은 20개의 후보단어모임을 추출하여 후보제시창에 제시하는데 리용된다.
이러한 목적에 리용되는 단어2그람사전을 조선어본문코퍼스를 리용하여 생성할수 있다.
하지만 일반적인 경우 다음 이행가능한 상태모임이 크고 편집자가 요구하는 단어의 이행확률이 작은 경우(즉 우선순위상 20이상인 경우) 편집자의 선택조종이 불가능하게 된다.
이때 초성렬입력에 의하여 그 초성패턴만을 가지는 상태모임만을 후보모임으로 제한해주면 선택조종이 가능하게 된다.
또한 일단 선택된 상태로의 이행확률을 높여주어 마르꼬브사슬을 개인지향적으로, 화제지향적으로 동적으로 적응시켜주면 후보제시의 적중률을 점점 높여줄수 있다.
이 체계에서 본문편집작업이 시작되면 사용자가 입력하려는 단어에 해당한 초성렬(최대 4개까지)을 입력한다. 체계는 이 초성렬을 열쇠어로 하여 초성렬패턴사전에서 해당한 단어후보모임을 추출하여 그중 앞의 20개까지의 단어모임을 후보단어렬로 후보제시창에 제시한다.
이때 사용자는 후보제시창에서 필요한 단어를 찾아 선택하여 편집창에 넘긴다.
만약 필요한 단어가 후보제시창에 없는 경우 다음의 3개중의 한개 방법을 취한다.
∘길이 4까지 초성렬의 길이를 증가시키는 방법으로 요구되는 단어를 검색한다.
∘실패이면 4번째 초성에 중성, 종성을 덧붙여 4번째 문자를 완성하여 요구되는 단어를 검색한다.
∘실패이면 기존의 입력방식으로 완전단어를 입력한다.
사용자가 필요한 단어를 선택하여 편집창에 넘긴 단계에서 체계는 해당 단어가 초성패턴사전에 없는 경우 그 단어를 초성렬패턴사전에 제일 높은 우선권(제일 앞자리)을 주어 등록시킨다.
다음 체계는 단어2그람사전을 리용하여 이미 채택된 단어의 뒤단어로 될수 있는 단어후보모임을 검색하고 이행확률이 가장 높은 20개의 단어모임만을 확률순위대로 후보제시창에 제시한다.
그 후보모임중에 요구되는 단어가 있으면 단어선택단계로 넘어간다. 없으면 초성입력단계로 넘어간다.
편집작업이 완료되면 체계는 편집된 본문정보를 가지고 단어2그람사전을 학습시켜 기억시킨다.
초성렬패턴의 정합방법에 의한 입력체계에서는 일반입력체계보다 편집속도에서 약 3배의 성능을 가진다.
우리는 조선어고속입력체계에 대한 연구를 꾸준히 진행하여 나라의 정보화수준을 세계적으로 발전된 수준에 올려세움으로써