《우리는 가까운 앞날에 전반적인 과학기술분야에서 세계를 디디고 올라설수 있다는 배심을 가지고 첨단돌파의 기적들을 련이어 창조하여야 합니다.》
문서인식랑독기는 수자식사진기로 입력한 문서화상을 콤퓨터본문문서로 자동변환하고 인식결과본문을 음성합성의 방법으로 랑독함으로써 사람이 책을 보고 읽을수 있는 기능을 콤퓨터로 실현한것이다. 다시말하여 문자인식과 음성합성이 통합된 체계이다.
문서인식랑독기개발에서 중요한것은 문자인식의 인식정확도와 음성합성에서 사람의 억양을 그대로 모방할수 있도록 합성음의 질을 높이는것이다.
우리는 수자식사진기로 입력한 조선어인쇄문서에 대하여 99%이상의 높은 인식성능을 가지는 문자인식체계를 개발하여 문서인식랑독기에 리용하였다.
문서인식랑독기는 문서화상전처리부, 인식부, 랑독부로 구성되여있다.
문서인식랑독기의 동작과정은 다음과 같다.
먼저 수자식사진기로 입력된 문서화상을 높은 정확도로 인식하기 위하여 화상전처리부에서 기하학적 및 밝기이지러짐보정을 진행한다.
지난 시기 수자식화상입력장치로 입력한 문서화상을 인식하던 일반용도의 문서인식과 달리 문서인식랑독기의 입력화상은 수자식사진기로 입력되는것으로 하여 여러가지 기하학적 및 밝기이지러짐이 있게 된다. 이로부터 문서랑독기의 화상전처리부에서는 입력화상의 이지러짐보정을 위한 화상처리기능을 요구한다.
다음으로 인식부에서 문서화상으로부터 본문행추출과 문자분리방법을 리용하여 개별문자화상을 추출하고 그것을 인식한다.
수자식사진기로 입력한 문서화상에서 본문행은 구부러지게 되며 화상흐림의 영향으로 글자들이 붙는 현상이 나타난다. 이 문제를 해결하기 위하여 련결성분해석법에 의한 행추출방법과 동적계획법을 리용한 문자분리방법을 적용한다.
문자인식부에서는 화상흐림의 영향으로 보통 저품질로 나타나는 문자화상의 특성에 맞게 구배특징을 적용하고 조선어문자와 같이 문자코드류형이 수천에 달하는 대규모문자인식문제에 적합한 LDA-PCA식별기를 리용한다.
마지막으로 랑독부에서는 인식부에서 출력되는 인식결과본문으로부터 음성을 합성하여 그것을 랑독한다.
음성합성은 HMM에 의한 음성합성법 즉 음성특징량을 HMM들로 모형화하고 그 HMM들로부터 합성음을 생성하는 통계적파라메터음성합성을 진행한다. HSMM을 리용하여 스펙트르, 피치, 지속을 함께 모형화하여 합성음의 자연성을 높이고 음성잔차신호를 모형화하고 대역분산모형추정과 대역분산을 고려한 음성파라메터를 적용하여 합성음질을 개선한다.
문서인식랑독기는 문건을 많이 보는것으로 하여 눈피로를 느끼는 문서원들과 시력이 좋지 못한 사람들 특히 로인, 시각장애자들에게 독서의 편리성을 보장해주는데 널리 리용되고있다.
더우기 오늘날 수자식사진기가 내장된 지능형손전화기가 광범히 사용됨에 따라 문서인식랑독기의 응용범위는 더욱 커지고있다.
개발집단은 앞으로 인공지능분야에 대한 연구를 더욱 심화시켜 문서인식랑독기의 성능을 계속 개선나갈것이다.