과학연구

영조기계번역프로그람《룡남산》에 도입한 련어코퍼스의 언어학적특성과 그 구축

 2017.9.18.

경애하는 김정은동지께서는 다음과 같이 말씀하시였다.

《다른 나라의 선진과학기술성과들을 우리 실정에 맞게 제때에 받아들이도록 하여야 합니다.》

경애하는 김정은동지께서 말씀하신바와 같이 나라의 과학기술을 하루빨리 세계적수준에 올려세우자면 발전된 선진과학기술성과들을 우리의 구체적인 현실과 실정에 맞게 받아들이는것과 함께 그를 위한 옳바른 과학기술적대책을 세워나가야 한다.

나라의 과학기술을 발전시키고 세계선진과학기술을 제때에 받아들이는데서 나라들사이의 <언어적장벽>을 제거하는 문제가 중요한 과제로 나서며 여기에서 영조기계번역프로그람이 차지하는 위치와 중요성은 매우 크다.

일반적으로 기계번역프로그람개발에서 목표로 되는 동시에 가장 어렵게 제기되는 문제의 하나가 바로 언어들간의 정확한 대역선택문제이다. 지금까지 문장에서 출현하는 영어단어에 대응하는 조선어대역이 둘이상인 경우 그의 정확한 대역을 찾기 위한 연구가 해당 단어의 본문이 속한 분야를 알고 전문분야사전을 선택하여주는 방법(실례로 영어단어 "bus"의 경우 일반대역은 《뻐스》이고 정보기술분야에서는 《모선》으로 선택), 그 단어가 속한 의미마당에 의한 선택방법(사전의 명사올림말들을 대역에 따라 정해놓은 의미마당에 소속시키고 그에 따라 동사의 대역을 선택) 등 여러 측면에서 연구되여왔다.

그러나 이러한 방법만으로 모든 언어현상을 다 포괄할수 없으며 해당 분야에서도 출현하는 영어단어가 여러가지 조선어대역으로 쓰이거나 그가 속한 의미마당의 주종관계가 여러 단계에서 대응되는 경우 해당 어휘의 다의성과 관련한것으로서 어쩔수 없는것으로 여기였다. 물론 분야별 전문사전이나 의미마당을 내놓고도 해당 영어단어에 대응하는 조선어대역을 영어표현이나 그에 기초하여 규칙 또는 문형으로, 또는 명사, 동사, 형용사인 경우 그의 격관계를 리용하여 정하는 방식도 있으나 오랜기간 발전풍부화되여온 언어들간의 언어현상을 몇개의 규칙이나 단순한 격관계로 표현한다는것은 불가능한것이다.

영조기계번역프로그람 《룡남산》체계에서는 이러한 대역선택에서의 어려움을 분석한데 기초하여 그를 해결하기 위한 한가지 방도를 영어어휘의 련어적결합관계로 보고 그를 위한 련어코퍼스를 구축하였다.

오랜 언어발전과정을 통하여 매 언어마다에 생긴 어휘의 핵은 이러저러한 동기로 하여 제한된 단어들과 어울려 쓰이고있다.

모국어사용자들에게 있어서 이 단어들의 결합관계는 관습적으로 이루어지며 말을 하거나 글을 쓸 때 이러한 결합관계가 말이나 글에 반영된다.

이런 결합관계에 있는 어휘들의 대역이 한정되여있거나 일상생활에서 많이 쓰이는 대역인 경우는 그 대역선택이 크게 문제로 제기되지 않는다.

그러나 , 에서 보는바와 같이 영어동사 file과 pay의 대역은 뜻밖의것들이다. 명사형의 영어단어 report는 deliver, give, make, present, compile, do, draw up, prepare, produce, type (up), write, file, submit, issue, release, have, hear, receive, call for, commission, launch, undertake, accept, endorse, reject, confirm, deny, read, consider, discuss, publish, appear in 등 제한된 영어동사들과 결합할수 있으며 역시 명사형의 영어단어 attention은 devote, direct, give, pay, turn, get, have, receive, attract, call, capture, catch, command, compel, draw, excite, grab, deflect, distract, divert, draw, hold, keep, rivet, concentrate, confine, focus, refocus, transfer, deserve, need, require, jostle for, repay, avoid, escape 등 제한된 영어동사들과 결합할수 있다. 명사로서의 영어단어 report와 attention은 이밖에도 제한된 형용사, 명사, 전치사 등과 결합관계를 가질수 있다.

영어단어들의 이러한 결합관계를 련어적결합관계라고 하며 이런 단어결합을 련어(collocation)라고 한다.

련어는 한마디로 말하여 어느한 단어가 특정한 단어 또는 단어들과 어울리는 단어결합이다. 단어는 주로 다른 단어들과 결합하여 언어적표현성을 나타낸다. 이러한 어휘들의 결합관계는 문장론적통합을 이루거나 어휘결합모형의 기초로 된다.

영어를 모국어로 하는 사람들은 련어를 자기들의 일상적인 언어생활에서 늘 쓰고있는것으로 하여 어렵게 느끼지 않고있다. 그러나 영어를 외국어로 배우거나 영조기계번역프로그람과 같이 영어와 조선어의 대응관계를 설정할 때에는 련어가 어려운 단어결합으로 된다.

우의 실례에서 영어단어 report와 attention의 <동사+명사>결합관계를 보면 두 명사형단어에 꼭같이 쓰이는 영어동사로 give(제출하다, 돌리다), draw(작성하다, 끌다), receive(접수하다, 받다), call(요구하다, 끌다) 등 4개를 들수 있으며 이 동사들은 결합하는 명사에 따라 서로 다른 조선어대역을 요구하고있다.

지금까지 일반언어학연구에서는 련어적결합관계를 다음과 같이 분류하고있다.

1. 동사 + 명사

2. (관사)형용사 + 명사

3. 부사 + 형용사

4. 동사 + 부사

5. 명사 + 동사

6. 동사 + 형용사

7. 단위명사 + of + 명사

영조기계번역프로그람《룡남산》체계에서 실현한 련어코퍼스의 련어적결합관계는 다음과 같다.

1.형용사 + 명사례: bright / harsh / intense / strong light
2.단위명사 + 명사례: a beam / ray of light
3.동사 + 명사례: cast / emit / give / provide / shed light
4.명사 + 동사례: light gleams / glows / shines
5.명사 + 명사례: a light source
6.전치사 + 명사례: by the light of the moon
7.명사 + 전치사례: the light from the window
8.부사 + 동사례: choose carefully
9.동사 + 동사례: be free to choose
10.동사 + 전치사례: choose between two things
11.동사 + 형용사례: make / keep / declare sth. safe
12.부사 + 형용사례: perfectly / not entirely / environmentally safe
13.형용사 + 전치사례: safe from attack
14.구결합례: the speed of light, pick and choose, safe and sound

* (우의 결합관계에서 전치사는 명사결합전치사로 한다.)

영조기계번역프로그람《룡남산》체계에서 실현한 련어코퍼스의 련어적결합관계를 구체적으로 보면 다음과 같다.

1)《형용사 + 명사》결합

<형용사 + 명사>결합관계는 련어적결합관계에서 가장 많은 비중을 차지한다.

strong wind (센 바람), heavy rain (폭우), a raw deal (공정치 못한 처사), a rough sea (사나운 바다), a wild life (동식물세계)

여기에서 련어적속성을 띠는 요소는 형용사이다.

《형용사 + 명사》형의 련어적결합은 두 언어의 대비에서 그 특성이 뚜렷이 나타난다.

black(까만) tea: 홍차, hot(뜨거운) dish: 매운 료리, the high(높은) seas: 공해

2) 《단위명사 + 명사》결합

<단위명사 + 명사>결합이라고 할 때 구조적으로는 결합을 본다.

a pair of trousers 바지 한벌, a cake of soap 비누 한장, a piece of software 쏘프트웨어 한건, a shock of hair숱이 많은 머리

여기에서는 첫 요소인 단위를 나타내는 명사가 련어적속성을 가진다.

《단위명사 + 명사》결합은 완전히 어휘화되여 사전에 올라있는것으로부터 시작하여 언어행위순간에 조성되는것에 이르기까지 그 포괄범위가 매우 넓다.

3)《동사 + 명사》결합

make a speech (연설을 하다), launch a campaign (깜빠니야를 벌리다), pose a problem (문제거리로 되다), run a bath (목욕물을 준비하다), suffer a defeat(패배를 당하다)

여기에서 련어적속성을 띠는 요소는 동사이다. 두번째 요소인 명사는 그 대역을 쉽게 얻어낼수 있지만 동사의 대역을 그 기본뜻으로 주면 우리말 어법에 맞지 않는것으로 된다. 이 결합형에서 기본의미는 명사가 나타내며 동사는 주로 맞물려주는 역할을 하면서 자기의 의미를 상실하기도 한다. 이러한 동사들은 많은 경우 do의 의미를 가진다. 그러나 《동사 + 명사》형의 련어적결합의 활력은 역시 동사에 있다.

4) 《명사 + 동사》결합

A heavy fog rolled in from the sea.

(짙은 안개가 바다에서 밀려들었다.)

The evidence pointed to the existence of an international smuggling network.

(증거는 국제적인 암거래망의 존재를 보여주었다.)

This data reflects the magnitude of the problem.

(이 자료는 그 문제의 중요성을 반영한다.)

여기에서는 련어적속성을 주어의 영향을 받아 선택된 동사술어가 가진다.

5) 《명사 + 명사》결합

<명사 + 명사>결합관계는 <명사올림말 + 명사>와 <명사 + 명사올림말>의 두가지 경우가 있으며 핵으로 되는 명사가 련어적속성을 가진다.

baby carrier (유모차), data security (자료보안), earth tremor (지진), gear change (변속지레대), name plate (명패), radio receiver (무전기)

6) 《전치사 + 명사》결합

with range (성이나서), on raid(기습으로), out of danger (위험에서 벗어난), in effect (효과있는)

<전치사 + 명사>결합에서는 련어적속성을 명사가 가지며 명사단어의 대역에 따르는 전치사대역을 정해준다.

7) 《명사 + 전치사》결합

raid on (~에 대한 기습), danger to (~에 대한 위험), effect on (~에 미치는 영향), know-how about (에 대한 묘리)

련어코퍼스구축에서는 <명사 + 전치사>결합관계를 설정하여 전치사의 대역이 앞에 오는 명사에 의하여 결정되는 경우를 보았다. 이 결합에서도 련어적속성을 명사가 가진다.

8) 《부사 + 동사》결합

bleed profusely (피를 많이 흘리다), criticize sharply (신랄하게 비판하다), read avidly (많이 읽다), reduce drastically (대폭 축소하다)

여기에서 련어적속성은 동사가 가진다. 아래에 각기 다른 동사와 결합한 부사 widely의 대역결정실례를 주었다.

At present, no anti-virus program was widely approved for computer viruses

(현재 콤퓨터비루스들에 대응하여 널리 인정받은 반비루스프로그람이 없다.)

The molecular model may vary widely depending on the kind of material.

(분자모형은 물질의 종류에 따라 매우 다양하다.)

He was widely grinning, waving to Se Jin, as he ran.

(달리면서 세진이를 본 그는 환하게 웃으면서 손을 흔들었다.)

He published widely in linguistic journal. (그는 언어학잡지에 글을 많이 내였다.)

He has widely travelled. (그는 려행을 많이 하였다.)

9) 《동사 + 동사》결합

<동사 + 동사>결합관계에는 결합동사와 기본동사사이의 관계가 기본을 이룬다. 대표적인 동사들을 보면 다음과 같다.

manage to, try to, be expected to, fail to, be unable to, come to, tend to, learn to, be able to, attempt to, be likely to, have to, etc

여기에서는 기본동사가 련어적속성을 가진다.

10) 《동사 + 전치사》결합

twitch with (~으로 하여 경련을 일으키다), advertise for (~을 구하는 광고를 내다), advise on (~에 대하여 권고하다), correspond to (~와 일치하다), insist on (~을 주장하다)

여기에서는 전치사가 련어적속성을 가지며 동사에 의하여 그 대역이 결정된다.

11) 《동사 + 형용사》결합

loom large (점점 커지다), play fair/rough (경기를 공정하게/란폭하게 하다), run wild (미쳐 날뛰다), smell sweet/awfull (냄새가 좋다/나쁘다), stand firm (립장이 확고하다)

여기에서는 두 요소가 서로 끌어 당기는것이 특징적이다. 문맥에서 첫 요소인 동사가 흔히 다음 요소인 형용사를 련상시킬 정도이다.

12) 《부사 + 형용사》결합

awfully sorry (매우 미안하다), deeply concerned (깊이 우려하다), heavily depending (심히 의존하다), highly intelligent (매우 령리하다), sharply critical (매우 비판적이다)

여기에서는 부사가 련어적속성을 가진다.

13) 《형용사 + 전치사》결합

She was guilty of fraud. (그녀자는 사기죄가 있었다.)

The road runs parallel with the sea. (그 도로는 바다와 평행으로 뻗어있다.)

He's quite knowledgable about the computer. (그는 콤퓨터에 대해 아주 많이 알고있다.)

He is deeply intolerant of all opponents. (그는 모든 적수들에 대해 대단히 무자비하다.)

The diagram is correct in every detail. (그 도표는 모든 세부들에서 정확하다.)

여기에서는 전치사가 련어적속성을 가진다.

14) 구결합

구결합관계(phrase)는 련어적결합의 한 형태이다. 이 결합관계는 여러 단어들이 오랜 기간 같이 어울려 써오는 과정에 거의 공고한 결합으로 묶이여 그 의미를 나타낸다.

a solution to a dilemma (해결책), the folks back hom(자기 나라에서 온 응원단), in need of help (방조를 받아야 하는), find oneself laughing (웃다), the birth of a nation (민족의 발생), the speed of light (빛속도)

구결합은 품사적으로 명사, 동사, 형용사, 부사, 전치사뿐아니라 하나의 옹근 문장을 이루는것도 있다.

영어어휘의 련어적결합관계에 따르는 특성에 기초하여 련어코퍼스를 구축하고 영조기계번역프로그람《룡남산》(3.0)에 도입하였다.

일반적으로 언어학에서 코퍼스는 언어연구와 학습에 리용할수 있는 전자화된 대규모언어자료기지의 개념으로서 20세기 전반에 제기되였으며 그후 1세대 코퍼스(100만단어), 2세대 코퍼스(2천만단어), 3세대 코퍼스(1억단어) 에 이어 오늘날 3억단어이상을 초과한 대용량의 영어코퍼스가 구축되여 쓰이고있다. 우리는 3억단어규모의 BNC (British National Corpus: 영국국립코퍼스)를 토대로 한 Collocation Dictionary, Cobuild Dictionary, Longman Contemperary Dictionary에 기초하여 우에서 언급한 14가지 련어적결합관계에 따라 영조기계번역프로그람《룡남산》용 련어코퍼스를 구축하였다.

련어코퍼스의 구축과정은 다음과 같이 나눌수 있다.

1. 련어코퍼스설계 (언어학적 및 프로그람적설계)

2. 자료구입 및 준비단계 (생코퍼스준비 및 인원설비보장)

3. 자료입력

4. 련어코퍼스구축 (련어관계에 있는 영어어휘의 대역결정 및 실례문장구축)

5. 기계번역엔진과의 결합 및 련동시험

1)련어코퍼스설계

설계단계에서는 영어어휘의 련어적결합관계를 기계번역의 견지에서 구체적으로 분석하고 그에 기초하여 코퍼스에 반영할 구조적결합관계를 14가지로 확정한 다음 코퍼스에 반영할 부가정보 및 항목들을 설계한다.

 부가정보:

-품사부가정보(편리상 자연어사전의 품사를 그대로 리용함 noun, verb, adj, adv, prep, quant, phrase)

-품사위치부가정보 (<+>기호: prep+, +prep, verb+, +verb, etc)

-대역 및 영어단어후보부가정보(기호)

-기타 부가정보(sb, sth, 조선어토(<^>기호와 수자), ||기호,)

 항목설계

항목으로는 올림말, 올림말품사, 올림말대역, 결합단어품사, 결합단어, 결합단어대역의 6가지로 한다.

실례: 올림말-widely, 올림말품사-adv, 올림말대역-<매우>, 결합단어품사-verb, 결합단어-vary, 결합단어대역-<다양하다>

-련어코퍼스구조설계

 설계한 항목에 기초하여 올림말품사는 명사, 동사, 형용사로 하고 이 3개의 품사에 해당한 결합구조를 밝힌다.

 명사 - 형용사 + 명사, 단위명사 + 명사, 동사 + 명사, 명사 + 동사, 명사(올림말) + 명사, 전치사 + 명사, 명사 + 전치사

 동사 - 동사 + 명사, 명사 + 동사, 부사 + 동사, 동사 + 동사, 동사 + 전치사

 형용사 - 형용사 + 명사, 동사 + 형용사, 부사 + 형용사, 형용사 + 전치사

*구결합은 해당올림말에 속하여 결합단어품사에서 밝힌다.

구결합은 구의 문장론적특성에 따라 phrase(noun), phrase(verb), phrase(adj), phrase(adv), phrase(prep), phrase(sen)으로 밝혀준다.

 Text문서형식으로 한다.

2) 자료 구입 및 준비

사전자료로는 BNC코퍼스에 토대하여 출판된 Collocation Dictionary, Cobuild Dictionary, Longman Contemperary Dictionary와 《삼흥》전자사전을 리용하며 영조기계번역프로그람《룡남산》이 대상하고있는 분야들에서 정보기술, 화학, 경제, 일반분야를 대상으로 한 4개 분야를 선정하고 해당 분야들에서 출현하는 련어결합관계를 추출하여 기초자료로 한다.

3) 자료입력

전자사전은 필요한 내용을 Text문서로 구축하고 종이매체로 된 사전은 화상입력하여 OCR 및 타자입력으로 구축한다.

4) 련어코퍼스구축

자모순에 따르는 올림말을 선정하고 언어전문가와 해당 분야의 전문가들로 영어어휘에 따르는 조선어대역을 실례문장들에 토대하여 가장 적합한 대역들로 결정하여 구축한다. 이때 리용한 실례문장들을 분야별에 따라 올림말별로 구축한다.

5) 번역기엔진과의 결합 및 성능평가

구축된 련어코퍼스를 영조기계번역프로그람《룡남산》(3.0)의 대역선택부에 결합하였으며 실례문장들을 통한 성능평가를 진행하였다.

성능평가는 일반분야, 정보기술분야, 화학분야, 경제분야의 4개 분야를 선택하고 매 분야에서 평균 350문장을 선택하고 종전의 대역선택부를 통한 번역결과와 련어코퍼스를 도입한 대역선택부의 번역결과를 전문번역원들이 동원되여 대비분석하였다.

결과 일반분야에서는 85.6%에서 90.4%, 정보기술에서는 94.8%에서 97.2%, 화학분야에서는 92.4%에서 95.7%, 경제분야에서는 93.7%에서 96.3% 개선되였다.

이상에서 영조기계번역프로그람《룡남산》(3.0)에서 실현한 련어코퍼스의 언어학적분류와 그 구축에서 나서는 문제들을 서술하고 성능평가를 진행하였다. 앞으로 련어코퍼스리용에서는 동사결합형태들의 합리적리용, 전치사대역을 비롯한 일부 대역설정에서의 모호성해소 등 여러가지 문제가 해결되여야 한다고 본다.

우리는 앞으로 련어코퍼스구축에서 쌓은 경험에 기초하여 영조기계번역프로그람의 번역질을 높이는데 필요한 더 많은 여러가지 코퍼스들을 구축해나감으로서 나라의 과학기술을 하루빨리 발전시켜나가는데 적극 기여할것이다.