과학연구

다중문서요약에서 무리짓기기술에 기초한 요약문장들의 순위화효률제고기술

 2020.12.26.

경애하는 김정은동지께서는 다음과 같이 말씀하시였다.

《새 세기 산업혁명의 불길높이 우리 나라를 지식경제강국으로 일떠세워야 합니다.》

현시기 인공지능학연구분야에서 다중문서요약에 대한 연구가 세계적으로 활발히 진행되고있다.

다중문서요약 특히 다중문서추출요약과제는 다중문서모임으로부터 정보적가치가 큰 중요문장 즉 요약문장들을 추출하는 과제와 추출된 요약문장들에 의해 생성되는 요약문서의 가독성을 높이기 위한 요약문장들의 순위화의 과제를 포함한다.

요약문장들의 순위화를 위한 기술에는 크게 두가지 기술이 있다. 하나는 문장들의 전후관계를 고려한 순위화기술이며 다른 하나는 요약문장들의 무리짓기에 기초한 순위화기술이다.

이 기사에서 우리는 조선어다중문서요약에 관한 연구를 진행하는 과정에 이룩한 요약문장들의 한가지 순위화기술을 소개한다. 우리가 소개하려는 순위화기술은 그 효과성이 이미 검증된 무리짓기에 기초한 요약문장순위화기술의 갱신으로 된다.

무리짓기기에 기초한 요약문장들의 순위화기술에서 순위화과정은 두 단계 즉 무리수준의 순위화단계와 문장수준의 순위화단계를 거쳐 진행된다. 무리수준의 순위화단계는 순위화의 대역적성질을 반영한 단계로서 요약문장들이 문장들사이의 류사성에 의해 N개의 클라스들로 무리지어졌을 때 클라스들사이에서의 순위화이며 문장수준의 순위화는 순위화의 국부적성질은 반영한 단계로서 동일한 클라스에 속하는 문장들사이에서의 순위화이다. 무리수준의 순위화와 문장수준의 순위화가 완성된 다음 첫번째순위의 클라스로부터 마지막순위의 클라스의 순서에 따라 매 클라스에 속하는 문장들을 문장수준순위화의 순서로 라렬하여 최종적인 요약문장들의 순위화를 진행한다.

무리짓기에 기초한 요약문안장들의 순위화에서 기본은 첫번째순위의 클라스와 클라스내에서의 첫번째순위의 문장을 어떻게 선택하는가에 따라 순위화의 결과가 크게 달라지게 된다.

무리짓기에 기초한 여러 선행문헌들에서는 첫번째순위의 클라스선택과 클라스내에서 첫번째순위의 문장선택을 위해 탐욕법을 리용하였다.

이 기사에서 우리는 린접한 문장일수록 문장들사이의 코시누스류사도가 크다는 가정을 제기하고 이 가정하에서 클라스들내에서의 첫번째순위의 문장을 선택하는것을 기본원리로 하는 개선된 요약문장들의 순위화 방법을 제기하였다.

린접한 문장일수록 문장들사이의 코시누스류사도가 크다는 가정하에서 클라스들내에서 첫번째순위의 문장을 다음과 같이 선택한다.

첫번째순위에 놓이는 클라스에서의 첫번째순위의 문장으로는 두번째순위에 놓이는 클라스에 속하는 요약문장들과의 코시누스류사도의 합이 최소로 되는 문장을 선택하며 기타순위에 놓이는 클라스들에서의 첫번째순위의 문장으로는 주목하는 클라스의 바로 앞순위에 놓이는 클라스에 속하는 요약문장들과의 코시누스류사도의 합이 최대로 되는 문장으로 선택한다.

이밖에 우리는 주어진 문서모임에서 앞순위에 놓이는 요약문장들을 가장 많이 포함하고있는 클라스를 첫번째순위의 클라스로 설정하였으며 요약문장들의 무리짓기를 k-평균2진무리짓기에 의해 실현하였다. 무리짓기에서 리용되는 요약문장들의 벡토르모형은 조선어다중문서요약연구조에서 제기한 단어의 정보적득점값의 개념에 의해 얻어진다.

조선어다중문서요약에 대한 연구조는 실험을 통해 τ-거리척도와 AC-척도를 가지고 이 기사에서 제기한 요약문장들의 순위화방법이 탐욕법에 의해 클라스들내에서의 첫번째순위의 문장들을 선택하는 방법에 비해 효과적이라는것을 론증하였다.

우리 연구조는 이러한 성과에 토대하여 요약문장들의 전후관계를 고려한 순위화기술과 무리짓기에 기초한 순위화기술을 결합한 보다 완성된 요약문장순위화기술을 개발하기 위한 연구사업을 진행하고있다.