한겨레말글연구소 제4차 학술발표회

 

 

쉬운 소통 - 기계번역기 점검·평가

 

발표문 및 토론문 모음

 

 

 

□ 2008년 12월4일(목) 오후 1시30분부터

□ 한겨레신문사 3층 강당

□ 주최 : 한겨레말글연구소(전화 : 02-710-0625, www.hanmalgal.org)

□ 후원 : 한글학회, 국립국어원, 한국전자통신연구원

 

 

 

차 례

 

 

□ 사회 : 유재원(한국외국어대학교 교수)

 

 

□ 제1주제 : 한↔영 번역기 점검·평가(개발자로서)

발표 : 박상규 박사(한국전자통신연구원)

토론 : 엘엔아이소프트 임종남 대표

 

 

□ 제2주제 : 한↔일 번역기 점검·평가(수용자로서)

발표 : 오상현 번역가협회 간사

토론 : 솔트룩스 이경일 대표

 

 

□ 제3주제 : 기계번역기 문제와 전망

발표 : 이종혁 교수(포스텍)

토론 : 최기선 교수(카이스트)

 

 

□ 제4주제 : 세종 전자사전 평가

발표 : 유한용 교수(정보통신대학)

토론 : 신효필 교수(서울대)

 

 

 

<제2주제>

 

 

 

한↔일 번역기 점검·평가(수용자로서)

 

 

 

발표 : 오상현 번역가협회 간사

 

 

Ⅰ. 서론

 

 

번역연구는 번역의 이론과 실제에 관한 과학적이고 다면적인 연구를 다루는 인문과학의 한 분야라고 인식되어 왔다. 그러나 최근 들어 통역연구 및 기계번역에의 연구분야까지 확대되어 인문과학의 범위를 벗어난지 오래다. 또 번역연구의 역사는 짧지만, 언어학, 문헌학, 기호학, 커뮤니케이션학 및 컴퓨터 과학과 인지과학 등의 다양한 분야를 기반으로 한 학제적 연구분야로 간주되고 있다.

 

이러한 학제적 연구분야와 더불어서 최근 번역시장의 확대로 인하여 신속하고 실용적인 번역을 요하는 번역량이 상당히 많이 늘어났다. 예를 들면 EU의 영문 사이트에 의하면 EU 기구의 번역 등의 다언어주의정책을 유지하는 데에 매년 11억 2300만 유로가 들며, 이것은 EU의 연간 예산의 1%에 상당하며, 시민 한 명 당 2.28 유로의 부담이 되고 있다.

 

George Mounin은 그의 저서 『번역의 이론적 문제점』의 서문에서 ‘우리보다 더 빠르고 더 정확하게 번역할 수 있는 번역기계가 우리를 노리고 있을 뿐이다. 불행을 예언하는 사람들은 자동번역의 시대가 온다고 말한다. 따라서 우리가 살고 있는 시대가 힘들지만 낙원인지도 모른다.’고 하는 폐쇄공간에 살고 있는 번역가의 존재방식에 대해서 언급한 바가 있다. 그런데 현대의 기계번역 시스템은 그가 예측했던 ‘기계번역은 번역가를 노린 것’이 아니라 오히려 기계번역에 의한 번역결과를 점검하고 후편집(교정)하여 최종번역물로 생산되기를 갈망하는 ‘공존의 틀’을 형성했다고 볼 수 있다. 기본적으로 아무리 우수한 기계번역 시스템을 거친 번역이라 할지라도 결국 인간의 손을 거치지 않으면 상당히 불안한 상태에 머무른 채, 오역의 천국을 이룰 것이다.

 

기계번역이 완전성을 유지하려면 Douglas Robinson이 그의 저서에서 강조한 2천여 년 동안 번역과 관련하여 연구되어 온 가장 일반적인 용어들인 ‘<의미>, <등가성>, <정확성>, <기교> 등’을 얼마만큼은 충족시키느냐에 달려 있다고 할 수 있다. 그러나 여전히 기계번역이 가지고 있는 기본적인 자체결함은 제거되지 못한 채 수용자들 주변에 맴돌고 있다. 그 이유는 기계번역 시스템에 번역 텍스트의 외부에 존재하는 중요정보인 ‘배경지식’이 부재하기 때문이며 이로 인해 불안한 번역을 생산하고 있다. 여기에 번역가는 진지하고 적극적으로 다가서서 ‘배경지식’을 발휘하여 상기의 ‘의미’ ‘등가성’ ‘정확성’ ‘기교’ 등이 충족된 번역결정체를 뽑아내야 하는 의무가 있다.

 

이러한 맥락구조와 관련시켜서 이 논문의 집필목적은 기계번역을 통한 일본어의 수용자적 입장에서 ‘한↔일 번역기’를 점검평가하여 기계번역이 어떠한 장단점을 지니고 있으며 장차 어떠한 방식으로 문제를 해결해 나아가야 하는지에 대해서 고찰하는 데에 있다. 그에 앞서서 최근의 기계번역에 대한 개발현황 등을 알아보고 번역기를 거친 번역 결과문장을 제시하여 일본어 기계번역의 경우에 어떠한 문제들이 발생하는지를 헤아려 보고자 하다. 또한 최종적으로 ‘후편집(Post-editing)’의 과정을 통하여 완전한 번역물을 생성하는 일례들을 제시하고자 한다. (단, 다양한 시스템이 기능을 하고 있으나 이 논문에서는 <Yahoo翻訳!>를 Partner Tool로 사용했음을 밝힌다. 여기에 한정한 이유는 최근에 일본어 번역방법론을 학습하거나 활용하는 수용자들이 기계번역의 Partner Tool로서 <Yahoo翻訳!>을 가장 많이 활용하기 때문이며, 장차 비교적 활용이 용이하여 네티즌들 사이에서 끊임없이 활용빈도가 늘어날 것이라고 판단했기 때문이다.)

 

 

 

Ⅱ. 본론

 

 

 

1. 번역의 어려움과 기계번역의 한계

 

 

번역이라고 하는 단어의 형성은 ‘飜(翻)=(translate)+譯=(interpret)’으로서 문자생활을 영위해온 인류가 서로 다른 언어를 서로 통할 수 있도록 하기 위하여 자국어의 의미에 맞게 바꾸는 지식행위로서 오랜 세월 동안 ‘문명을 이동시키면서 가치관을 창조해온 장치’였다고 볼 수 있다. 번역행위가 존재하지 않았다면 인류의 문명권은 각자 서로 다른 영역에서 서로 다른 존재방식으로 살아왔을 뿐, 인류보편의 가치관이라든가 세계관은 형성되지 않았을 것이다. 인류는 번역을 통하여 통시적 ․ 공시적 存在相을 항상 현재에 옮겨다 놓음으로써 발전을 거듭해 왔다.

 

번역에 대한 기존의 학문적 정의는 ‘번역은 메시지와 언어 사이에 개입하면서 메시지가 실현되는 언어들의 다양성, 즉 발화 행위를 넘어서 의사소통을 가능하게 한다. 번역이 존재하는 것 자체는 의사소통이 가능한 (보편화가 가능한) 내용으로서의 메시지와 이를 표현하는 (사회적) 언어 사이의 분리 가능성을 전제로 한다. 옳든 그르든 번역의 목표는 인간언어가 구현되는 언어들의 사회적 특성을 넘어서 인간언어의 보편소의 존재를 가정한다’.고 하는 인문과학적 요소만이 강조되었으나, 이제는 기계번역이 등장하면서 인간의 언어는 어떤 차원에서 번역이 이루어지는가를 끌어들이지 않을 수 없는 단계에 이르렀다.

 

번역은 원래부터 쉬운 행위는 아니었으며 기능적 단순행위가 아니며, 번역가의 자의적 주관이 개입될 소지가 다분하기 때문에 매우 어렵다. 중국 청나라 말기의 번역가인 얀후(嚴復 : 1853~1921)의 번역관은 다음과 같다. ‘譯事三難 ; 信, 達, 雅’, 즉 ‘번역의 어려움은 세 가지가 있는데, 신뢰성 있는 번역을 하기가 어렵고, 의미를 충분히 전달하기가 어렵고, 번역어를 곱게 다듬기가 어려운 점 등’이다.

 

이탈리아의 번역속담에 ‘Traduttore, traditore’라는 말이 있는데 ‘번역은 반역이다’이라는 의미로서 번역행위에 대한 함축적인 맥락요소를 제시하고 있다. 따라서 번역가들은 ‘Trans-phobia(번역공포증)’라는 현상을 경험하기도 하는데 이것은 반역을 하면서 상실된 그 무엇 때문에 느끼는 공포감이 아닐까 한다.

 

상기의 입장에도 불구하고 컴퓨터가 발달되면서 번역에 있어서 제반의 난관을 극복하기 위하여 번역 자동화를 연구해왔다. 장차 이러한 토대 위에서 인간은 번역을 하는 데에 기계번역 시스템과 함께 끊임없이 번역의 첨단과학화를 이루어질 것이고, 이를 통하여 다양한 세계를 인식하게 될 것임에 틀림없다. 그리고 이미 번역(학)의 다양성의 시대가 진행되고 있다. 현행 통번역대학원의 커리큘럼(예를들면 ‘기술번역’, ‘기계번역’) 등의 과목은 이미 번역(학)의 개념을 단순한 인간의 집필행위의 일환에서 번역공학의 단위로 확대하고 있는 것을 감지할 수 있다.

 

 

 

 

1-1 기계번역의 역사 및 종류

 

기계번역의 아이디어가 나온 것은 최초의 전자계산기인 ENIAC이 등장하는 1945년보다도 이전의 일이다. 러시아의 트로얀스키는 기계에 의한 번역에 관한 특허를 1933년에 제출했었다. 이것이 세계에서 최초의 기계에 의한 번역의 가능성을 나타낸 것으로 전해지고 있다. 1954년 미국 조지타운 대학이 IBM과 협력하여 기계번역 시스템의 데몬스트레이션을 행했다. 이 시스템은 러시아어에서 영어로의 번역을 행한 것으로서 문법의 수가 약간, 사서의 사이즈가 250 단어 정도의 극히 소규모적인 것이었다. 이 데몬스트레이션은 성공적이었으며, 온 세계에 매우 센세이셔널한 영향을 주었다. 1965년까지 프랑스 그르노블 대학, 미국 텍사스 대학 일본 九州大学 등의 유력한 연구기관이 개발을 개시했었다. 아래의 표는 당시를 즈음한 기계번역 시스템 개발의 역사를 나타낸 것이다. (한국에 있어서의 기계번역 개발의 역사는 1983년 한국과학기술원의 시스템 공학센터와 富士通와의 기술제휴에 의한 국책연구가 최초이다.)

 

<표1> 기계번역 시스템 개발의 역사

 

현재까지 개발 및 개념화된 기계번역(machine translation)은 소프트 웨어에 의해서 행해졌으며, 그러한 의미에서 ‘기계 번역 = 번역 소프트’라는 개념으로 인식되어 있다. 그러나 기계번역의 개념은 컴퓨터보다 이전에 존재했으며, 컴퓨터 번역이라고 하지 않고, 기계번역이라고 하는 것은 전술한 바의 러시아 트로얀스키에 가 고안한 ‘기계에 의한 번역’에 관한 특허로 추정하고 있다. 기계번역이라고 하는 표현은 인간의 주체성이 낮고, 자칫하면 ‘기계가 처음부터 끝까지 모두 번역한다’고 하는 인식을 주기 쉽다. 또 이러한 인식으로 인하여 기계번역이 ‘번역작업 지원 툴로서의 번역 소프트’라는 이해를 하는 데에 방해가 되기도 한다. 그 때문에 기계번역이라고 하는 표현을 피하고 ‘번역 소프트’라고 개념화할 것을 강조하는 연구자도 있다.

 

지금 현재 인터넷 상에 제공되고 있는 번역 소프트의 종류는 매우 다양하다. 무료로 제공하는 것을 비롯하여 고액을 요구하는 유료에 이르기까지 일반 소비자 전용의 제품과 업무용 제품 등 크게 3개의 유형으로 구분된다. 전자는 자동번역을 주목적으로 하고 있으며, ‘영어실력이 부족한 유저’가 ‘버튼 하나로 번역’할 수 있도록 편의성을 지향하고 있다. 이에 비해서 후자는 전문사전이나 사전의 관리기능 등이 충실하여 번역지원에 사용된다. 번역 메모리와의 제휴가 가능한 제품도 있다.

 

업무용 번역 소프트의 기능은 ‘이것을 사용하면 누구라도 프로 수준의 번역을 할 수 있는’ 정도의 능력을 지닌 것은 아니다. 영어실력이 약한 유저가 업무용 번역 소프트를 구입하는 경우도 있지만, 업무용 번역 소프트는 실은 전문지식과 기능을 지닌 번역가의 번역수행을 통해서 그 진가를 발휘할 수 있다.

 

번역 소프트의 특성은 점차적으로 확대되고 있는데, 번역 소프트는 사적인 편지와 같이 비정형적인 문장이나 뉴스 등, 신조어나 고유명사가 많고 다양한 화제를 다루고 있는 문장에 대해서는 번역의 질이 양호하지 않다고 일반적으로 인식되어 있다. 전문적인 내용이라고 할지라도 정형적이고 불특정 다수를 대상으로 하고 알기 쉽게 쓰인 문장, 즉 매뉴얼 등의 문장에서는 번역의 질과 효과가 높다. 적절한 전문용어사전만 있으면, 문장에 전문성이 높으면 높을수록 그 유용성은 높아지는 것이 최근 번역 소프트의 특성이라고 할 수 있다. 최근에 개발된 대표적인 번역 소프트는 아래의 표와 같다.

 

<표2> 일본의 대표적인 현행 번역 소프트

종류 내용 및 특성
コリャ英和!  
영어를 「읽기 · 쓰기 · 말하기 · 탐색하기」 등을 1 개로 실현할 수 있는 다기능 영일 · 일영 번역 소프트. 테크니컬 문서번역에 최적인 전문사전 총 106만어를 추가 수록한 패키지. 부속 전문사전은 IT · 정보계, 전기 전자계, 기계 · 공학계, 비즈니스계 외, 건축 · 화학분야까지의 주요 장르를 탑재. 컴퓨터 · IT 관련의 기술문서에서 비즈니스 · 금융 · 법률계 문서까지 다양한 전문문헌 번역가능.
(번역사전 어휘수: 합계 298만어 탑재)
 
ATLAS - 富士通ミドルウェア

「ATLAS」은 최고 수준의 번역 수준을 보여주는 영일 · 일영 번역 소프트 웨어. 고품질 번역 소프트의 유지. Microsoft Office · Acrobat 제휴 등의 업무 이용을 비롯해서 메일이나 홈 페이지에서의 번역까지 폭넓은 번역에 활용. 풍부한 전문용어 사전실무 번역자를 위한 「비즈니스 기술 실용영어 대사전」을 비롯해서 28개 분야의 557만 어휘의 전문 용어 사전과 4개 분야 73.5 만 문장의 번역예문(번역 메모리 사전)을 탑재.
 
翻訳ブレイン - ジャストシステム

전문가를 위한 번역실행 소프트. 문장의 구문을 해석하여 더욱 정확한 번역 결과 획득가능. 기본사전에는 전문 용어 사전을 포함 총 270만 어휘의 번역사전을 장비. 참조사전으로서「천재 영일 / 일영사전」표준 탑재. 전문직업 번역가를 위한 고속 · 대용량의 「번역 메모리」기능을 탑재. 번역 메모리에 「원문」과「번역문」을 세트로 등록해 두면, 새롭게 원문과 일치하는 문장을 찾아냈을 때, 번역 메모리로부터 「자신이 등록한 번역문」의 호출이 가능.

 

 

 

인터넷 상으로 제공되고 있는 ‘Yahoo!翻訳’는 ‘Yahoo! JAPAN’이 운영하는 기계번역 서비스이며, 텍스트 번역, 웹 번역, 번역 검색 등 3개의 서비스가 제공되고 있다. 번역검색에서는 ‘Yahoo!검색’과 연동장치를 이루고 있고, 검색결과를 번역할 수 있다. 번역 대응어는 <英語↔日本語>, <中国語↔日本語>, <韓国語↔日本語> 등이다. 현재 <英語↔日本語> 텍스트 번역으로 사용되고 있는 대역 방식은 특허 출원 중에 있는 고유기술이며, 원문이나 번역문 내의 어구에 마우스 포인터를 맞추면 어구가 어떻게 번역되었는지를 확인할 수 있다. <Yahoo!辞書>와 제휴되고 있어 <英語↔日本語> 텍스트 번역의 번역결과의 단어를 더블 클릭하면 <Yahoo!辞書>에서 상세한 어구의 의미를 확인할 수 있다.

 

<Google翻訳>은 Google이 제공하는 서비스이며, 텍스트의 일부분 혹은 웹 페이지를 다른 언어로 다양하게 번역한다. 다만 번역할 수 있는 단락의 수, 전문용어의 범위에는 한계가 있다. 몇 개의 언어에서는 전문용어 등에 대해서 더 좋은 말을 유저로부터 제공하고 있으며 장래 번역 프로세스의 업데이트 시에 포함시킬 예정이다.

 

<Babel Fish>나 <AOL>, <Yahoo!>, <MSN> 등의 내부적으로 SYSTRAN를 사용하는 번역 서비스와 달리 Google은 독자적인 번역 엔진을 사용하고 있다. Google의 번역엔진은 기계 번역 중에서도 통계적 기계번역이라고 하는 번역방식을 이용하고 있다. 이 방법은 the United Nations Documents를 코파스로 하여 축적해왔다. 이 코파스는 2백 억 정도의 어휘로 구성되어 있다. 원천 자료와 이것을 목표 언어로 번역한 것(유엔의 번역자에 의한 것)를 사용하여 패턴을 찾고 있으며, 번역에 필요한 엑스퍼트 시스템을 만드는 것이다. 차기 버전은 현재 <아라비아어↔영어> 등의 번역에 관해서 테스트 단계에 있다.

 

개발순 Type A Type B Type C
제 1 기 英 ― 仏
英 ― 独
英 ― 西
仏 ― 英
独 ― 英
西 ― 英
仏 ― 独
独 ― 仏
 

 
제 2 기 英 ― 葡 葡 ― 英  
 

 
제 3 기 英 ― 伊 伊 ― 英  
제 4 기 英 ― 中(簡)
英 ― 日
英 ― 韓
中(簡) ― 英
日 ― 英
韓 ― 英
 
 

 
제 5 기 英 ― 露 露 ― 英  
 

 
제 6 기 英 ― Arab語 Arab語 ― 英  
제 7 기
(2007年 2月~)
英 ― 中(繁)  
中(繁) ― 英
 
中(簡) ― 中(繁)
中(繁) ― 中(簡)

<표3> Google翻訳의 번역가능한 언어

 

 

 

 

 

일본 쪽 翻訳支援 Tool과 번역학 상황

 

번역지원 툴은 번역을 실시하는 번역자가 더욱 질이 좋은 고품질 번역을 효율적으로 실시하기 위해서 사용하는 소프트 웨어를 총칭하는 것으로서, 번역 지원 툴로서 주된 것은 번역 메모리 툴과 번역 소프트이다. 번역자들 사이에서도 자주 오해를 받고 있지만, 번역 메모리 툴과 번역 소프트는 기본적인 발상을 완전히 달리하는 것이다. 번역 메모리 툴과 번역 소프트에는 각각 장점과 단점이 있다.

 

일본의 번역학 상황을 살펴보면, 일본 최초의 서양서적 번역서는 『解体新書(해체신서)』(1774)인데, 이것은 서양의 의학서적을 본격적으로 번역한 서적인데, 이 책에 의해서 일본의 근대학문은 번역으로부터 시작되었다고 하는 것을 입증하는 예로 평가받고 있다. 서구에서는 ‘학문으로서의 번역(학)’이 연구수행되고 있으며, ‘번역학 학위’도 수여되고 있는데, 일본에서는 번역학과는 대학의 전공으로 존재하지 않으며(다만, 최근에 일본 바벨 사이버 번역대학원이 운영되고 있으며 번역학 석사가 배출되고 있음), 번역학회도 없는 실정이다(다만, 2005년 9월에 일본통역 학회의 분과회로서 번역연구분과회가 설립). 이러한 가운데 ‘번역은 누구나 할 수 있다’고 하는 인식이 만연되어 있으며 체계적이고 실제적인 번역 기술의 연구가 낙후되어 있다고 평가하고 있다. 번역 소프트의 번역 지원 툴로서의 유용성은 최근 들어 서서히 주목받기 시작했다.

 

업무용 번역 소프트에서는 번역 메모리 툴의 기능을 포함하는 것도 많다. 그러나 업무용 번역 소프트에 부속되는 번역 메모리 기능은 단독의 번역 메모리 툴과 비교하여 관리나 유연성 면에서 뒤떨어진다. 이 때문에 번역 메모리 툴과 번역 소프트를 제휴시켜 작업하는 방법이 개발되고 있다.

 

 

 

대표적인 翻訳支援 Tool

 

TRADOS는 TRADOS 사가 개발한 번역 지원 툴이다. Microsoft Windows OS가 동작하는 컴퓨터 상에서 작동하며, 텍스트 문서, RTF, HTML, XML 등의 태그 문서(SGML), 마이크로 소프트 사의 워드 문서, 엑셀 문서, 파워포인트 문서, 아도브 사의 프레임 메이커 문서 등의 문서 번역을 지원한다. 마이크로 소프트의 Word 등으로 사용하는 경우에는 태스크 바에 아이콘이 표시된다.

 

번역 메모리라고 하는 기능은 원문과 번역문의 페어를 데이터베이스에 등록하면서 번역을 실시하고 동일하거나 유사한 원문이 등장했을 때에 데이터베이스 등록이 끝난 번역문을 재이용하는 것으로써, 번역 스피드와 정확성을 향상시키는 것이다. 매뉴얼이나 카탈로그 등에 대해서 가필 · 수정이 반복되는 문서 번역에 적절하다.

 

TRADOS를 이용해서 번역하면 태그 문장의 태그를 부수지 않고 번역할 수 있기 때문에, 원래의 레이아웃을 유지한 채 번역을 할 수 있다. 이 때문에 결과적으로는 번역후의 레이아웃 작업을 없애거나 경감할 수 있다. 따라서 페이지 수가 많은 것에 최적인 소프트라고 할 수 있다.

 

TRADOS는 이용하는 데에 익숙해지면 사용하기 어려운 소프트는 아니지만, 초심자가 이용하는 것은 일반적으로 곤란하다고 하여 강의나 서적 등으로 사용법을 습득할 필요가 있다. 특히 태그 처리 등은 경험을 필요로 하는 경우가 있다.

 

원래는 언어적으로 다양한 유럽어으로의 번역을 의도하여 설계되었다. 따라서 일본어-영어뿐만 아니라 각종 언어에 대응하고 있다. 번역 자체는 TRADOS가 하는 것이 아니고 이용자가 수작업으로 실시한다.

 

 

 

 

1-2 기계번역의 수용자 범주와 한계극복

 

인터넷을 활용하는 자는 누구든지 어렵지 않게 기계번역을 접할 수가 있다. 경우에 따라서는 그것을 이용하는 단순이용자에서부터 전문번역가를 ‘수용자’라고 정의할 때 다음의 <표4>와 같이 3가지 유형으로 구분할 수 있다.

 

구 분 세 부 내 용  
전문 수용자

직업 전문 번역가로서 번역 대상 언어에 능통하고 자유자재로 번역할 수 있으며, 기계번역은 단순히 번역어를 모듈화하고 통일시키면서 번역속도와 문장의 형태를 일관성 있게 유지할 수 있도록 도움 받기 위해서 번역 툴을 사용하며 확실하게 ‘후편집(교정)’을 통하여 완벽하게 번역결과물을 생산할 수 있는 자.
 
 
단순 수용자

번역 대상 언어에 대한 독해능력은 있으나 번역문장을 원문과 대조하여 충분한 번역 교정 능력을 갖추지 못한 자로서 기계번역을 이용했을 경우에 오역처리를 하지 못한 상태에서 기계번역 결과를 가지고 문서행위를 하거나 커뮤니케이션 활동을 하는 자.
 
 
간접 수용자

번역 대상 언어에 대해서 거의 무지하며 기계번역의 개념을 숙지하지 못한 상태에서, 위의 ①과 ②에 해당하는 수용자의 번역에 의존하는 자를 비롯한 동일 수준의 네티즌.
 
 

<표4> 기계번역 수용자 유형범주

 

 

 

 

기계번역은 탁월한 가독능력을 갖추고 있음에도 불구하고 배경지식 및 행간의 의미파악 능력의 부재로 인하여 아무리 쉬운 문장도 간단한 어휘도 오역할 소지가 다분하다. word by word의 경우도 후편집의 과정에서 소홀히 하게 되면 기계번역기의 활용을 충분히 하지 못하게 된 셈이다.

 

기계번역은 기본적으로 초보자가 번역한 초벌번역의 수준이라고 여기고 끊임없이 오역을 고쳐 나아가는 것이며, 기계번역은 인간번역을 보조하는 툴에 불과하기 때문에 번역가는 최종 목표인 도착어의 안정성을 위하여 부단히 배경지식을 동원하여 문장을 다듬으면서 완성해야 한다.

 

2. 일본어→한국어 웹 자동번역(Yahoo!翻訳)

 

 

일본어와 한국어는 어순이 동일하고 문법적 활용 및 기능이 거의 유사하기 때문에 인간번역이든 기계번역이든 거의 어려움이 없는 언어관계에 있다. 문장을 그대로 좇아서 번역하는 축자역을 자연스럽게 할 수 있으며, 어떠한 의미에서는 조사, 접속사, 文末 표현 등의 의미기능을 일치시켜 그대로 ‘치환’하는 방식으로도 번역이 가능한 경우가 많다. 이러한 조건에 놓여 있기 때문에 기계번역에 있어서도 다른 언어끼리의 번역에 비해서 번역의 정확도가 훨씬 높다. 그러나 여기에도 피해갈 수 없는 앰비규어티, 동음이의어, 관용어, 신조어 등등의 특이요소가 배합된 문장은 오역의 소지가 다분하므로 반드시 후편집(교정)의 과정을 통해서 번역의 완성도를 높여야 한다.

 

 

 

 

2-1 뉴스 문장

 

 
기계번역(Yahoo!翻訳)에 의한
<일본어→한국어>의 <번역결과문> <분석판단> 및 <후편집 완성문>――①
 
문장출처 TBS News 2008. 11. 22.
(1)
일본어
원문
 
アメリカのオバマ次期大統領が、シカゴを2016年のオリンピック開催地に推すメッセージビデオを発表しました。
 
「私の政権は、これから世界におけるアメリカの義務と役割を見直します。しかし、世界共通の課題には、皆が一緒になって立ち向かう必要があります。オリンピックという平和の祭典は、それが可能だということを思い出させてくれます」(オバマ次期大統領)

(2)
기계번역 결과문
 
미국의 오바마 차기대통령①이, 시카고를 2016년의 올림픽 개최지 헤아리는③ 메세지 비디오를 발표했습니다.
 
 ④나의 정권은, 지금부터 세계에 있어서의 미국의 의무와 역할을 재검토합니다. 그러나, 세계 공통의 과제에는, 모두가 함께 되어 직면할 필요가 있습니다. 올림픽이라고 하는 평화의 제전은, 그것이 가능하다고 하는 것을 생각나게 해 줍니다⑤」
(오바마 차기대통령)
 
(3)
분석판단
 
① 띄어쓰기 : 일본어에서 한국어로 기계번역을 할 경우에 多發 현상의 하나임.
 조사의 오역 : 조사 뒤에 오는 어휘에 따라 가변성이 매우 농후한 오역요소.
③ 관형수식 : 일본어에 부재하는 한국어 ‘~하는 + 명사’, ‘~할 + 명사’의 혼용례
④ 기호의 간섭 : 일본어의 主使用 기호인 「 」(강조, 제목, 인용)의 간섭에
의한 오역이 다발함.
⑤ 표현의 순화 : 회화체 문장, 인용 문장 등에 조절을 요하는 표현이 발생함.
⑥ 구두점의 남용 : 띄어쓰기가 없는 일본어의 특이요소인 구두점으로 인하여
번역문의 가독성에 지장을 초래 하므로 구두점 제거가 요
결사항.
 
(4)
후편집 완성문
 
미국 오바마 차기 대통령이 시카고를 2016년 올림픽 개최지로 추진할 메시지 비디오를 발표했습니다.
 
「나의 정권은 지금부터 세계에 있어서의 미국의 의무와 역할을 재검토하겠습니다. 그러나 세계 공통 과제에는 모두 함께 직면할 필요가 있습니다. 올림픽이라고 하는 평화의 제전은 그것이 가능하다는 것을 생각나게 해 줍니다(?).」
(오바마 차기대통령)
 

 

 

 

 

 

2-2 일본국헌법 문장

 
기계번역(Yahoo!翻訳)에 의한
<일본어→한국어>의 <번역결과문> <분석판단> 및 <후편집 완성문>――②
 
문장출처 日本國憲法 34條
(1)
일본어
원문
 
第34条 : 何人も、理由を直ちに告げられ、且つ、直ちに弁護人に依頼する権利を与へられなければ、抑留又は拘禁されない。又、何人も、正当な理由がなければ、拘禁されず、要求があれば、その理由は、直ちに本人及びその弁護人の出席する公開の法廷で示されなければならない。

(2)
기계번역 결과문
 
제34조 : 몇 사람이나,① 이유를 즉시 전해들어 한편,③ 즉시 변호인에게 의뢰할 권리를 여 줄어지지④ 않으면, 억류 또는 구금되지 않는다. 또, 몇 사람이나,① 정당한 이유가 없으면, 구금되지 않고, 요구가 있으면, 그 이유는, 즉시 본인 및 그 변호인⑤ 출석하는 공개의 법정에서 나타나지 않으면 안 된다.

(3)
분석판단
 
① 同字異音語 何人의 ‘なにびと’의 ‘なんにん’으로 오역
② 오역 및 문장의 중지용법의 모호성 작용
③ 오역 및 앰비규어티
④ 与える의 문어체표기인 与る를 복합어로 인식 및 오역
⑤ の의 다양한 사용으로 인한 다의적인 번역어에 대한 오역
 
(4)
후편집 완성문
 
제34조 : 누구도 이유를 곧바로 고지받지 아니하고, 또 즉시 변호사에게 의뢰할 권리가 주어지지 아니하면, 억류 또는 구금되지 아니한다. 또 누구도 정당한 이유가 있지 아니하면 구금되지 아니하며, 요구가 있다면 그 이유는 곧바로 본인 및 그 변호인이 출석하는 공개의 법정에서 제시되지 아니하면 안 된다.

 

 

 

 

 

 

2-3 신문사설

 
기계번역(Yahoo!翻訳)에 의한
<일본어→한국어>의 <번역결과문> <분석판단> 및 <후편집 완성문>――③
 
문장출처 朝日新聞 2008年 11月 24日 3時 10分
(1)
일본어
원문
 
北朝鮮の核問題をめぐる6者協議の議長国・中国が、12月8日に首席代表会合を開くことを参加各国に打診していることが分かった。北朝鮮も受け入れる方向だ。複数国の政府当局者が22日、明らかにした。
 
開催されれば7月の首席代表会合以来。米朝で話し合ってきた北朝鮮の核計画の検証方法を、6者として合意文書にまとめることを目指す。来年1月に任期が切れるブッシュ米政権にとって、オバマ次期政権に引き継ぐ到達点を固める節目になりそうだ。
 
アジア太平洋経済協力会議(APEC)首脳会議にあわせて22日午前(日本時間23日未明)に日米韓首脳会談が開かれ、中国が提示した日程案を確認した。ブッシュ米大統領は「金正日(北朝鮮総書記)が受け入れた検証内容の文書化が重要だ」と強調。麻生首相は「6者協議で実効的な検証の枠組みを構築できるよう努力しよう」と応じ、李明博(イ・ミョンバク)韓国大統領も「3カ国が一つの声で対応することが大事だ」と述べた。

(2)
기계번역 결과문
 
북한 핵문제를 둘러싼 6자협의의 의장국 · 중국이, 12월8일에 수석대표 회합을 여는 것을 참가각국에 타진하고 있는 것을 알았다. 북한도 받아 들일 방향이다. 복수국의 정부 당국자가 22일, 분명히 했다.②
 
개최되면 7월의 수석 대표 회합 이래. 미 · 북에서 서로 이야기해 온 북한의 핵계획의 검증 방법을, 6자로서 합의 문서에 정리하는 것을 목표로 한다. 내년 1월에 임기가 다 되는 부시미 정권③에 있어서, 오바마 차기 정권에 계승하는④ 도달점을 굳히는 고비가 될 것 같다.
 
아시아 태평양 경제협력 회의 (APEC) 정상회의에 맞추어 22일 오전(일본 시간 23일 미명)에 일·미·한 정상회담이 열려 중국이 제시한 일정안을 확인했다. 부시 미 대통령은「김정일(북한 총서기)이 받아 들인 검증 내용의 문서화가 중요하다」라고 강조. 아소우⑤ 수상은「6자 협의에서 실효적인 검증의 골조를 구축할 수 있도록 노력하자」라고 응해 이명박(이·몰바크)⑥ 한국 대통령도「3개국이 하나의 소리⑦ 대응하는 것이 소중하다」라고 말했다.
 
(3)
분석판단
 
① 외교용어의 불일치
② 표현 조정을 요하는 구문
③ 띄어쓰기의 불안정에서 발생하는 오역의 소지
④ 조사와 용어의 표현의 앰비규어티
⑤ 한국어 표기법
⑥ 고유명사의 오역(奇譯 현상)
⑦ 표현 조정을 요하는 구문
 
(4)
후편집 완성문


북한 핵문제를 둘러싼 6자회담의 의장국인 중국이 12월 8일에 수석대표 회합을 개최할 것을 참가국 각국에 타진하고 있는 것으로 알려졌다. 북한도 받아들일 방향이다. 복수국의 정부 당국자가 22일 이 사실을 밝혔다.
 
개최되면 7월의 수석대표 회합 이래. 북 · 미에서 서로 대화해 온 북한의 핵계획 검증 방법을 6자회담에서 합의문서에 정리할 것을 목표로 한다. 내년 1월에 임기종료 예정인 부시 미 정권 측에서 오바마 차기정권으로 이어지는 도달점을 결정짓는 단락이 될 것 같다.
 
아시아 태평양 경제협력회의(APEC) 정상회의에 맞추어 22일 오전(일본시간 23일 새벽)에 한미일 정상회담이 열려 중국이 제시한 일정안을 확인했다. 부시 미 대통령은「김정일(북한 총서기)이 받아 들인 검증 내용의 문서화가 중요하다」라고 강조. 아소 수상은「6자회담에서 실효적인 검증의 골조를 구축할 수 있도록 노력하자」고 응해 이명박 대통령도「3개국이 한 목소리로 대응하는 것이 중요하다」고 말했다.

 

 

 

 

 

2-4 동화 (현대어역)

 
기계번역(Yahoo!翻訳)에 의한
<일본어→한국어>의 <번역결과문> <분석판단> 및 <후편집 완성문>――④
 
문장출처 昔話の要約 : 鶴の恩返し(現代語)
(1)
일본어
원문
 
昔々、ある所に老夫婦が住んでいた。ある冬の雪の日、夫が町に薪を売りに出かけた帰りに、罠にかかった一羽の鶴を見つける。可哀想に思った彼は、鶴を罠から逃がしてやった。激しく雪が降り積もるその夜、美しい娘が夫婦の家へやってきた。道に迷ったので一晩泊めて欲しいと言う娘を、夫婦は快く家に入れてやった。次の日も、また次の日も雪はなかなか止まず、娘は老夫婦の家に留まっていた。その間、娘は甲斐甲斐しく夫婦の世話をし、彼らを大そう喜ばせた。
 
(2)
기계번역 결과문
 
옛날들①, 어느 곳에 노부부가 살고 있었다. 어느 겨울눈의 날②, 남편이 마을에 ③을 팔러 나간 오는 길에 , 함정에 걸린 한 마리의 학을 찾아낸다. 불쌍하게 생각한 그는, 학을 함정으로부터 놓쳐 주었다④. 격렬하게⑤ 눈이 내려 쌓이는 그 밤, 아름다운 딸(아가씨)⑥가 부부의 집에 왔다. 길을 잃었으므로 하룻밤 묵게⑦ 했으면 좋겠다고 하는 딸(아가씨)⑥를, 부부는 기분 좋게 집에 들어갈 수 있어 주었다⑧. 다음날도, 또 다음날도 눈은 좀처럼 그치지 않고, 딸(아가씨)⑥는 노부부의 집에 머물고 있었다. 그 사이, 딸(아가씨)⑥는 카이 카이 까는⑨ 부부를 돌봐, 그들을 대그렇게⑩ 기쁘게 했다.
 
(3)
분석판단
 
① 동어반복의 복수어의 오역
 の에 의해서 표현되는 일본어 특유표현
③ 일본어 薪(장작)의 한자어를 직역한 예
④ 일본어 ~てやる의 직역의 예
⑤ 부사의 위치와 직역의 예
⑥ 딸(아가씨) : 양쪽 모두 가능한 번역임을 암시하는 예
⑦ ~て欲しい의 직역의 예
⑧ 일본어 ~てやる의 직역의 예
⑨ 직역의 예 (혹은 사서부재 어휘 ? )
⑩ ‘한자+かな’로 구성된 복합어의 오역의 예
 
(4)
후편집 완성문
 
옛날 옛날, 어느 곳에 늙은 부부가 살고 있었다. 어느 겨울이 내린 날, 남편이 마을에 장작을 팔러 나갔다가 돌아오는 길에 함정에 걸린 한 마리의 학을 찾아낸다. 불쌍하게 생각한 그는 학을 함정에서 풀어주었다. 눈이 몹시 내려 쌓이던 그날 밤, 아름다운 소녀가 부부의 집에 왔다. 늙은 부부는 길을 잃어서 하룻밤 묵었으면 좋겠다고 하는 소녀에게 기분 좋게 집에 들어갈 수 있도록 해주었다. 다음 날도 또 그 다음 날도 눈은 좀처럼 그치지 않았고, 소녀는 늙은 부부의 집에 머물고 있었다. 그 사이에 소녀는 정성스럽게 부부를 보살펴 주어 그들을 매우 기쁘게 했다.
 

 

 
기계번역(Yahoo!翻訳)에 의한
<일본어→한국어>의 <번역결과문> <분석판단> 및 <후편집 완성문>――⑤
 
문장출처 昔話 : 夕鶴(現代語)
(1)
일본어
원문
 
与ひょうは、ある日罠にかかって苦しんでいた一羽の鶴を助けた。
 
後日、与ひょうの家を「女房にしてくれ」と一人の女性つうが訪ねてくる。夫婦として暮らし始めたある日、つうは「織っている間は部屋を覗かないでほしい」と約束をして、素敵な織物を与ひょうに作って見せる。
 
つうが織った布は、「鶴の千羽織」と呼ばれ、知り合いの運ずを介し高値で売られ、与ひょうにもお金が入ってくる。その噂を聞きつけた惣どが運ずと共に与ひょうをけしかけ、つうに何枚も布を織らせる。
 
(2)
기계번역 결과문
 
여우박①은, 어느 날 함정에 걸려 괴로워하고 있던 한 마리의 학을 도왔다.
 
후일②, 여우박의 집③「부인으로 해 줘④」라고 한 명의 여성⑤ 찾아 온다. 부부로서 살기 시작한 어느 날, ⑥는「 ⑦짜고 있는 동안은 방을 들여다 보지 않으면⑧ 좋겠다」라고⑨ 약속을 하고, 멋진 직물을 여우박①에 만들어 보인다.
 
⑥가 짠 옷감은, 「학의 천마리직⑩」이라고⑨ 불려 아는 사람의 운않고⑪를 개입시켜⑫ 고가로 팔려 여우박①에도 돈이 들어 온다. 그 소문을 우연히 들은 ⑬가 운않고⑪와 함께 여우박①을 부추겨 개게몇매나⑮ 옷감을 짜게 한다.
 
(3)
분석판단
 
① ‘한자+かな'의 복합어이자 고유명사의 오역
② 동화문장을 감안하여 후편집을 요하는 표현
③ 일본어 특유의 ~を의 표현
④ 직접화법의 인용문에서 발생하는 후편집을 요하는 표현
⑤ 한국어의 ‘~이(가)’의 일본어 ‘~’의 대응처리를 요하는 표현
⑥ 등장인물 ‘つう’의 空譯 현상
⑦ 목적어 不在 문장의 대응처리를 요하는 표현
⑧ ‘~ないでほしい’의 대응처리를 요하는 표현
⑨ 인용조사 ‘~と’의 대응처리를 요하는 표현
⑩ 원문 텍스트에 작용하는 의미를 판단하여 결정해야 하는 어휘
⑪ 등장인물 ‘運ず’의 오역 현상
⑫ ‘介する’의 후편집을 요하는 표현(‘一字漢語 + する’ 어휘의 오역다발)
⑬ 등장인물 ‘惣ど’의 오역 현상
⑭ 등장인물 ‘つう’의 奇譯 현상
⑮ ‘何枚も’의 후편집을 요하는 표현
 
(4)
후편집 완성문
 
‘요효’는 어느 날 함정에 빠져 괴로워하고 있던 한 마리의 학을 도와주었다.
 
몇일이 지나서 여자 한 사람이 요효의 집을 찾아와서 「부인으로 맞이해 달라」고 한다. 부부로 살기 시작한 어느 날, ‘쓰우’는 「 (옷감을) 짜고 있는 동안에는 방을 들여다 보지 말아달라」고 약속을 하고, 멋진 옷감을 요효에게 만들어 보인다.
 
쓰우가 짠 옷감은 「학의 센바즈루」라고 불리었으며 아는 사람인 ‘운즈’를 사이에 두고 고가로 팔려 요효에게도 돈이 들어온다. 그 소문을 우연히 들은 ‘소도’가 운즈와 함께 요효를 부추겨 쓰우에게 옷감을 몇 장 더 짜게 한다.
 

 

 

 

<제3주제 : 토론문>

 

기계 번역 기술 동향과 일한 자동 번역

 

 

솔트룩스 이경일 대표

 

 

 

 

 

 

1. 도입

 

인간은 근본적으로 개인, 가족, 지역, 민족과 국가의 단위를 넘어 언어가 서로 다른 사람들을 하나의 공통체로 묶고 상호 의사 소통과 정보 교환을 하고자 하는 욕구를 가지고 있는 듯 하다. 인류의 역사 속에서 통역관과 번역사는 가장 오래된 직업 중의 하나이며, 세계화되어 가고 있는 현대에 이르러서는 다국어로의 의사소통이 절실히 요구되고 있다. 인류가 상호 효과적으로 의사소통 하고자 하는 시도는 정보통신 기술이 발전과 함께 지난 100년간 놀라운 성과를 보여왔다. 수 천년 간 종이에 의존해 왔던 인류는 전화의 발명으로 멀리 떨어져 있는 사람들이 자신의 목소리로 대화를 할 수 있게 되었으며, 무선 통신의 발전으로 자유로운 이동성까지 확보하게 되었다. 결정적으로 컴퓨터와 네트워크 기술의 발전은 인터넷 이라는 새로운 패러다임의 의사소통과 정보공유의 세계를 만들어 내었으며, 이제 바야흐로 세계는 이를 통해 하나의 망으로 연결되어, 지구 여기 저기에 흩어져 있는 다수의 사람들과 동시에 e-mail을 주고 받거나 실시간 채팅을 하거나, 목소리뿐만 아니라 다자간 영상 회의까지 가능하게 되었다.

 

컴퓨터의 발명과 그 발전의 역사만큼이나 기계를 통해 언어의 장벽을 해소하고자 하는 오래된 노력이 있었고, 현재도 그 핵심 기술은 꾸준히 발전되고 있다. 1950년대 조지타운 대학과 IBM의 공동 프로젝트로 시작된 기계번역 기술 개발의 르네상스는 1966년 미 정부의 자동번역 기술에 대한 부정적 리포트의 영향으로 상당기간 퇴색 되었다가, 1980년대에 이르러 강력한 컴퓨터의 출현과 급속화되는 세계화에 따른 요구로 다시 그 길이 열리게 되었다. 21세기에 이르러 인터넷 활성화와 더욱 가속화되는 세계화는 폭발적인 다국어 콘텐츠를 생산해 내고 있으며, 그 번역의 수요는 사람의 수동 번역 생산성을 넘어선지 오래되었다. 이제 인터넷 콘텐츠 자동 번역, 고급 문서번역 지원 도구 등 매우 다양한 부문에서 자동번역 기술은 중대한 핵심 요소기술로 인식되어 가고 있다.

 

국내에서의 자동번역 기술에 대한 최초의 시도는 1979년 인하대의 한일 양방향 기계번역기 개발에서 찾아볼 수 있다. 1983년 SERI가 파콤과의 일한 번역 시스템 공동 개발을 추진하였으나, 본격적인 연구 개발은 1980년대 중반부터 서울대와 KAIST를 중심으로 시작되었다고 볼 수 있다. 서울대는 IBM과의 협력을 통해 영한 번역 시스템 개발의 상용화에 성공을 하였으며, KAIST의 경우 NEC 시스템 연동을 시작으로, SERI와의 꾸준한 공동연구로 상용화 가능한 수준의 자체 기계 번역 시스템을 개발해 내었다. 1990년 중반부터는 국내 벤처기업들의 상용제품이 출시되기 시작하였으며, 현재도 솔트룩스, 클릭큐, 엘엔아이 등의 기업체에서 대규모 자동번역엔진 공급과 이에 기반한 인터넷 서비스를 수행하고 있다.

 

최근 자동번역 기술 발전의 중요한 진전을 ETRI에서 수행된 특허부문 한영 자동 번역기개발에서 찾아볼 수 있다. 한국어와 영어의 상이한 구문 구조로 인해 고객이 만족할 만한 품질의 자동번역기를 개발하는 것이 요원할 것으로 여겨지고 있었으며, 특히 영한 번역에 비해 한영 자동번역은 한국어 분석의 어려움으로 상용화 수준의 번역 품질 달성에 기술적 한계를 가지고 있었다. 그러나, 특허 부문에 특화되어 개발된 ETRI의 한영 번역시스템은 이러한 기술적 한계를 넘어 상용화 수준의 번역 품질 달성이 가능함을 보였고, 자동번역 기술의 효용성과 발전성을 보여주는 성공 사례로 인식되고 있다.

 

지난 수년간 휴대폰과 PDA를 중심으로 모바일 컴퓨팅 환경이 급속도로 발전함에 따라 모바일 환경에서의 자동번역과 통역기의 개발과 상용 제품 출시가 활발히 이루어 지고 있다. 본 고에서는 자동 번역 기술을 모바일 환경에 적용하기 위한 기술적 방법론과 최근의 국내외 구현 사례를 소개하고자 한다. 2장에서는 자동번역 기술의 다양한 접근 방법과 이들을 모바일 환경에의 적용 타당성을 검토해 보고, 3장에서는 국내외 실제 모바일 환경에서의 다국어 자동 번역 및 통역기 구현 사례를 소개하고자 한다.

 

 

 

 

 

2. 기계 번역(자동 번역)의 유형

 

 

자동 번역은 하나의 언어로 기술된 문서를 다른 언어의 문서로 자동으로 번역하기 위한 제반의 기술을 의미하며, 일반적으로 전체 번역 과정이 사람의 관여 없이 자동으로 진행 가능한 기계번역 기술과 번역사의 번역 업무 향상을 목적으로 하는 컴퓨터 지원 반자동 번역 기술로 구분해 볼 수 있다. 본 장에서는 전자사전 및 번역메모리와 대비되는 개념의, 컴퓨터에 의해 번역과정 전체가 수행되는 순수 기계번역 기술을 중심으로 그 유형을 분류, 특장점을 검토해 본다.

 

 

2.1 형태소 치환 방식의 기계번역

 

구문 구조와 상관없이 단순히 각 형태소를 대역어로 치환하는 방식으로 자동 번역을 수행한다. 이러한 초창기 방식의 기계번역은 구문구조가 매우 유사한 어족들 간의 번역에서 의미 전달을 위해 사용가능하며, 이 경우도 문장의 길이가 길어지거나 복잡해지면, 번역 품질이 급격히 떨어지는 문제를 가지고 있다. 반면에 형태소 치환 방식의 단순 기계번역기의 장점은 개발이 매우 쉽고, 매우 적은 메모리와 CPU를 사용한다는 것이고, 최근에는 이에 기반한 모바일 자동 번역 제품도 출시되고 있다. 여행자의 간단한 의사 소통을 위해서는 2~3단어 수준의 번역이 큰 도움이 될 수 있는데, 이 경우 형태소 치환 방식의 기계번역 기술이 적용될 수 있다. 또한, 음성 인식 및 합성 기술이 결합된 휴대형 자동 통역 시스템 개발에서도 실제 복잡한 기계번역 기술 보다는 형태소 치환 수준의 자동번역기 적용이 효과적일 수 있다.

 

형태소 치환 방식의 기계번역기를 2~3단어 수준의 문장 번역에 적용하고자 할 때 고려되어야 하는 가장 큰 문제가 바로 동형 이의어에 대한 의미 모호성 해소이다. 단순 형태소 치환의 가장 큰 취약점이 바로 다양한 뜻을 가지고 있는 단어의 역어를 선택하는 것인데, 최근에 모바일 단말기에 형태소 치환 방식의 기계번역 기술을 적용하기 위해 연어 정보 활용, 격틀과 하위범주 정보를 활용하는 등의 확장 기술이 적용되고 있다.

 

 

2.2 직접 방식의 기계번역

 

직접 방식의 기계번역은 원문에 대해 형태소 분석, 품사 태깅을 수행한 후, 대역어 선택뿐 아니라 각 형태소를 목적 언어의 문법 구성에 맞게 재 배열, 생략, 삽입, 통합, 분리하는 방식으로 목적 문장을 생성한다. 잘 알려진 것처럼, 직접 방식의 기계번역은 한국어 일본어와 같은 유사 어족에 있어 상당히 높은 번역 품질과 번역 속도를 보이고 있으나, 한국어와 영어 및 중국어와 같이 그 구문구조가 상이한 언어간의 번역에 적용은 부적절하다.

 

적절한 수준의 번역 품질을 가진 직접 방식의 기계번역기는 통상 10만 단어 이상의 교차어 사전과, 최소한 16Mbytes 이상의 동작 메모리를 필요로 한다. 이는 최근의 모바일 단말기 발전에 따라 충분히 수용 가능한 수준이 되었고, 기 개발되었던 직접 방식의 기계번역 엔진들이 다운사이징 되어 다양한 단말기에 실장 되는 것이 가능하게 되었다. 직접 방식의 기계번역 엔진들은 유사 언어군에 대해서 대부분 90% 이상의 번역 품질을 제공함으로, 상용화에 성공하였다고 볼 수 있다.

 

 

2.3 변환 방식의 기계번역

 

규칙기반(rule based) 기계번역으로도 불리는 변환 방식 기계번역(transfer based MT) 기술은 1950년대 이후 지속적으로 연구, 발전되어 온 방법으로 현대 상용 기계번역 시스템의 대부분이 이 방식의 기계번역 알고리즘을 채용하고 있다. 변환 방식의 기계번역 기술은 번역 대상 원문에 대해 형태소 분석, 품사 태깅과 함께 구문 분석을 수행하고, 분석된 원문의 구문 구조를 변환 규칙(transfer rules)에 기반해 목표 언어의 구문 구조로 변환 후 목표 언어로 구성된 문장을 생성하는 방식으로 자동 번역을 수행한다.

 

상용 수준의 번역 성능을 가진 변환 방식 기계번역 시스템의 개발을 위해서는 방대한 언어 자원과 이를 분석한 다양한 언어 지식 DB를 확보하고 있어야 하며, 특히 매우 높은 수준의 구문 분석 기술의 개발과 함께 구문 변환 기술까지 확보해야 하는 어려움이 있다. 통상, 변환 방식의 기계번역 시스템은 그 기술의 복잡성 때문에 높은 수준의 시스템 사양이 요구된다. 현재 이질적 구문 구조를 가진 언어들간의 자동 번역에서 변환 방식은 가장 높은 번역 성능을 보이고 있다.

 

 

2.4 중간언어 방식 기계번역

 

변환 방식의 기계번역 시스템은 특정한 두 언어에 최적화되어 개발되기 때문에 기 개발된 기계번역 시스템을 다른 언어 번역을 위해 확장하는 것이 매우 어렵다. 쉽게 말해, 한/영/일/중의 4개 국어 다국어 번역을 위해서는 12개의 별도의 기계번역 시스템을 개발해야 하며, 이는 매우 막대한 자원과 노력을 필요로 한다. 이러한 변환 방식의 기계번역 기술의 문제를 해결하기 위해 중간언어(interlingua) 방식의 기계번역이 연구되어 왔다. 중간언어 방식의 기계번역 기술은 하나의 언어를 중립되어 있는 공통의 언어로 재 표현 하고, 이 공통 언어를 중심으로 임의의 목표 언어로 자동 번역하는 방식을 채택하고 있다. 중간언어 방식의 기계번역에서도 각 언어와 중간언어 간의 번역에는 변환 방식이 사용되고 있으며, 위의 4개 국어 다국어 번역 시스템 구성을 위해서는 8개의 변환 방식 기계번역 시스템을 구성하면 된다. 만일 15개 국어 다국어 번역 시스템을 개발해야 한다면, 순수 변환 방식의 경우 210개의 번역 엔진이 필요한 반면, 중간 언어 방식을 채용하면, 30개의 번역 엔진만 개발하면 된다.

 

중간언어 방식의 기계번역기 개발에서 가장 어려운 점은 다수의 언어가 가지고 있는 언어 현상을 충분히 표현해내는 신뢰할만한 중간언어를 설계 구현하기가 매우 어렵다는 것이다. 현재까지 많은 연구가 진행되고 있고 몇몇 시험 시스템이 구현되기도 했지만, 아직까지 상용 시스템이 개발되지 못한 실정이다.

 

 

2.5 예제기반 기계번역

 

1984년 교토 대학의 나가노에 의해 제안된 예제기반 기계번역(example based MT)은 수많은 원문, 번역문 쌍을 예제로 하여 번역 지식을 추출해 내고, 이에 기반해 자동 번역을 수행하는 방법이 적용된다. 예제기반 기계번역에는 예제 학습과 예제 검색 및 그 활용을 위해 상당히 복잡한 통계적 방법들이 적용될 수 있으며, 아직까지는 수 많은 연구에도 불구하고 일부 상용 시스템이 개발되었을 뿐이다.

 

 

2.6 통계기반 기계번역

 

1990년대 초 IBM에 의해 제안된 현재 개념의 통계기반 기계번역(statistical MT) 기술은 지난 10년간 많은 발전을 이루어 왔다[5]. 통계기반 기계번역은 대량의 말뭉치로부터 학습된 통계정보를 활용하는 것으로, Shannon의 잡음채널에 기반을 두고 있다. 최근의 통계기반 기계번역 기술은 n-gram의 HMM을 사용하고 있으며, 오류 측정, 효과적인 학습, 문맥의존 lexicon 모델 구현, 효과적인 문 생성 방법 부문에서 많은 발전을 이루어 냈다. 지난 수년간의 통계기반 기계번역 방식의 발전으로, 기존 변환 방식의 기계번역에 비해 더 높은 번역 품질의 달성이 가능할 것이라는 기대가 높아진 상태이며, 최근에는 전 세계적으로 이 부문에 대한 많은 연구와 투자가 진행되고 있다.

 

 

2.7 템플릿 및 통제언어 기반 자동 번역

 

기계번역 기술의 가장 큰 도전 과제는 원문의 다양성을 어떻게 극복할 수 있을 것인가에 있다. 동일한 토픽에 대해 문장이 작성되더라도 각 저작자 마다 사용하는 용어가 천차만별이며, 문장 구성과 스타일이 다를 수 밖에 없기 때문에, 기계가 이를 분석하여 번역을 하는데 많은 한계를 가지게 된다. 이러한 문제를 근원적으로 해결하기 위해 문장을 작성할 때 표준화된 형식으로 저작하도록 하는 연구가 진행 중에 있다. 문장 편집 및 입력 소프트웨어를 통해 원문이 작성될 때, 사용자 용어를 표준 용어로 반자동 변환할 수 있도록 도우며, 표현 형식과 구문 구조도 기계가 이해할 수 있는 수준으로 재조정 되도록 하는 기술이 적용된다. 이러한 기술은 크게 템플릿 방식과 통제언어를 사용하는 방식으로 구별해 볼 수 있다. 템플릿 방식은 문장의 표현 형식에 대한 템플릿이 존재하여 템플릿을 자동으로 선택, 확장, 완성해 나가는 방식으로 원문을 저작하는 형태인데, 모바일 단말기 상에서의 효과적인 자동 번역 기능을 구현하기 위해 채택되고 있다. 통제언어를 사용하는 방식은 저작자가 사용할 수 있는 단어와 문장의 형식을 일종의 style guide로 정의해 놓고, 이를 철저히 지키도록 하는 것이다. 문서 편집기는 사용자 작성 문장이 지정된 style guide와 사전에 명시된 단어를 사용했는지를 모니터링 하여 사용자에게 feedback을 주어 원문의 품질을 높이도록 할 수 있다. 특히, 원문의 품질을 평가하고, 사용자에게 대치 단어 및 문장 형태를 제시하는 등의 일련의 자동화 기능에 기계번역의 각 요소 기술이 사용될 수 있다.

 

 

2.8 번역 메모리 시스템과 하이브리드 번역 방식

 

번역 메모리(translation memory)는 사람에 의해서 번역된 원문-번역문 쌍을 다음 번역에서 재활용하기 위한 목적으로 사용된다. 번역 메모리는 기계번역 기술에 적용되기 보다는 사람이 번역하는데 있어서 그 효율성을 증대시키는데 적극 활용되고 있으며, 특히 매뉴얼의 번역 등에서 번역 메모리 기술이 큰 효용성을 보이고 있다. 번역 메모리에는 글자열 간의 유사도를 계산하는 소위 fuzzy matching이라는 알고리즘이 사용되는데, 새로 번역하고자 하는 문장이 번역 메모리에 저장된 번역 문장 쌍과 정확히 일치하거나 매우 유사한 경우에 한해 그 재활용에 의미가 있다. 최근에는 번역 메모리의 효과적인 활용을 위해 기계번역 기술을 적용하려는 시도가 있으며, 서버 클라이언트 방식으로 모바일 환경에 적용하고자 하는 연구도 진행 중에 있다.

 

최근에는 서로 다른 기계번역 접근 방식을 상호 결합해 약점을 보완하고 강점을 더욱 강화시키고자 하는 연구가 진행 중이다. 하이브리드 번역 방식으로 표현되는 두 가지 이상의 번역방식의 결합은 주로 변환 방식과 통계 기반 번역 방식을 결합하거나 예제기반과 통계 기반 번역 방식을 결합하는 형태로 연구되고 있으며, 아직 큰 성과를 내고 있지는 못하지만, 이러한 방법으로 향후 높은 성능의 상용제품 출시가 가능할 것으로 예상되고 있다.

 

 

 

 

 

3. 일한 기계 번역 시스템

 

 

한일 혹은 일한 기계번역은 가장 먼저 개발이 시도 되었으며, 현재 다양한 분야에 상용화가 가장 많이 진행된 시스템이라 평가해 볼 수 있다. 지난 30년 동안 일한/한일 자동 번역은 전술한 여러 기계 번역 기술 유형에 있어서 모두 직접 방식의 기계 번역 형태로 개발되었으며, 이는 일본어와 한국어의 구문적 유사성에 기인한다고 할 수 있다.

 

실제 상용화된 일한 기계번역 시스템은 약 96% 이상의 번역 품질을 보이고 있으며, 한일 기계번역 시스템은 92% 전후의 번역 품질을 보이고 있다. 양쪽 모두, 문서의 내용을 이해하는 데는 큰 무리가 없을 정도의 품질을 제공하고 있다. 특히, 뉴스 기사와 특허와 같은 특정 도메인에서 비교적 잘 작성된 문서에 대해서는 일한 번역의 경우 98% 이상, 한일 번역도 95% 이상의 번역 품질을 보이고 있어, 상용에는 큰 무리가 없는 상태이다.

 

일한 번역 시스템이 한일 번역시스템보다 높은 품질을 보이는 이유는, 일본어가 한자를 많이 사용하여, 의미모호성이 덜 발생하며, 비롯 띄어쓰기를 하지 않는다고 하더라도, 한자(간지)와 히라가나 카타카나를 각 용도에 맞게 사용함으로, 비교적 형태소 분석 품질이 상당히 높기 때문이다. 반면에 한국어의 경우, 표음문자로 그 의미 모호성이 상대적으로 높으며, 띄어쓰기 부정확성은 형태소 분석에 많은 오류를 발생시키고 있다.

 

실제 일한/한일 기계번역은 충분한 품질의 형태소 분석과, 의미 모호성이 해소된 역어 선정만 가능하다면 그 구문적 모호성이 비교적 적기 때문에, 충분 번역 품질을 제공할 수 있다. 이러한 관점에서, 상대적으로 형태소 분석이 어렵고 오분석률이 높은 한국어 기반의 한일 번역시스템의 품질이 낮을 수 밖에 없다고 할 수 있다.

 

이러한 번역 품질 문제는 블로그 및 게시판과 같이 오류가 많은 문서들에서 급격한 품질 하락을 경험하게 된다. 특히, 일본어의 경우 한자어, 히라가나, 카타카나를 부정확하게 혼재함으로 일한 번역 품질을 크게 저하시키게 되며, 한국어의 경우 가장 큰 오류는 역시 철자 오류와 띄어쓰기 오류라고 할 수 있겠다. 이런 관점에서, 최근의 한일/일한 기계번역 기술은 잘 작성된 문서 뿐 아니라, 오류 문서에 대한 오류 단어 및 띄어쓰기 자동 보정이 가능하도록 발전되고 있으며, 특히 웹에서 사용되는 신조어에 대한 빠른 대응이 요구되고 있다.

 

아무리 한국어와 일본어의 유사성이 높다고 하더라도, 조금 더 깊게 들어가면 직접 번역방식으로는 미묘한 구문의 차이와 상용어구에 대한 한계를 보이게 된다. 특히, 일본어와 한국어 양쪽에 모두 존재하는 다양한 상용어구와 조금 복잡한 용언 활용에 대해서는 단순한 규칙과 사전 기반한 번역 방식의 한계가 명확해 지는 것이다.

 

이를 해소하기 위해서는 부분 구문 분석과 부분 변환 방식의 채용이 필요하며, 보다 복잡하고 정교한 사전 체계가 필요하다. 특히, 사전에 있어서도 단어에 대한 접속 정보가 단순한 앞 뒤의 한두 단어 수준이 아닌, 분석된 구문 구조에 대한 원거리 접속 정보도 보다 정교하게 구축되어야 하며, 이러한 과정은 대단한 노력과 전문적 언어 지식을 필요로 하고 있다.

 

일한/한일 자동 번역은 지난 5년간 큰 발전과 성장을 보이고 있지 않으나, 특허 정보와 간단한 문서 기계 번역에 있어 분명히 충분한 편익을 제공하고 있다. 앞으로 보다 높은 번역 품질 달성을 위해서는 산학의 관심이 다시 필요한 시기라 하겠다.

 

 

 

 

 

Ⅲ. 결론

 

이상에서 살펴본 바와 같이 수용자적 입장에서 ‘기계번역에 의한 일본어→한국어의 번역용례’에서 발생하는 여러 가지의 오역과 그것이 발생하는 데에 따른 분석판단을 해보았으며, 기계번역결과문의 ‘후편집’ 과정을 거치면서 최종번역문을 완성시켜보았다. 일본어를 한국어로 번역하는 경우는 비교적 정확도가 높고, 효용성이 매우 높았지만, 그러나 여전히 오역의 불안함에서 벗어날 수는 없는 것이 현재 개발되어 사용되는 기계번역의 현실이다. 이러한 번역 프로세스를 거치면서 번역수행을 해오는 동안 최소한 수용자가 일정한 수준의 번역 대상어에 대한 실력이 갖추어지지 않으면 최종 ‘후편집(교정)’ 과정수행을 하지 못하는 상황에 이르러 기계번역은 거의 불가능하다는 점을 인식하게 되었다.

 

결론적으로 웹 기계번역의 효율성을 높이기 위해서는 장차 다기적인 번역 정확도에 대한 검증방식과 후편집을 위한 매뉴얼 등을 작성하는 것이 필요하며, 쉬운 문장일지라도 예측하기 어려운 奇譯現狀에 의한 번역결과문을 안전하게 후편집할 수 있는 학문적인 본격검토와 실무적인 노하우가 절실하게 요망된다. 기계번역은 ‘적극 수용자(전문번역가 수준의 번역언어 해독 및 번역가능자)’가 오역에 대한 최대한의 경계망을 펼치면서 번역결과문의 후편집을 거쳐서 수정작업의 형태로 번역작업을 완수해 나아가는 한, 인간번역의 한계라고 할 수 있는 ‘번역 속도’와 ‘번역어 채택의 일관성’ 등을 유지해 주는 보조수단으로서 충분히 유효한 기능과 역할을 다할 것으로 전망된다.

 

참고문헌

 

[단행본]

George Mounin (이승권 옮김), 『번역의 이론적 문제점』, 고려대출판부, 2002.

Douglas Robinson (정혜욱 옮김), 『번역과 제국』, 동문선, 2002.

Maurice Pergnier(김현권, 노윤재 공역), 『번역의 사회언어학적 기반』, 고려대출판부, 2001.

小林康夫 외 (오상현 역), 『知の技法』, 경당, 2007.

牧野武則, 『機械翻訳』, オーム社, 1989.

 

[인터넷 싸이트]

Wikipedia

TBS (テレビ東京) Homepage

朝日新聞 Homepage

 

 

 

 

+ Recent posts