아래 글은 최호섭이라는 분이 "블로터닷넷"이라는 사이트에 쓴 글입니다. 글 중간에 이미지는 삭제하였고 나머지는 원본 그대로 올려 봅니다. 원본 주소는 http://www.bloter.net/archives/144863
최근 소셜 네트워크 서비스에는 ‘구글 번역기 활용 방법’이라는 이미지가 인기다. 구글 번역기 사용이 뭐 어려운 게 있나 싶지만 문장을 더 정확하고 깔끔하게 번역하는 ‘비법’이 소개되며 큰 인기를 누리고 있다. 내용인 즉슨 한국어를 영어로 번역할 때 직접 한국어에서 영어로 바꾸는 대신 한국어를 일본어로, 다시 이 일본어를 영어로 번역하라는 얘기다. 중간에 일본어를 거치는 방법인데, 그 정확도는 놀랍다. 이미 구글 번역기를 즐겨 쓰는 이들 사이에서는 알만한 사람들은 아는 ‘비법’이기도 하다.
예시된 문장은 ‘여러분들이 몰랐던 구글 번역기’인데 이를 곧바로 영어로 번역하면 ‘you did not know google translator’다. ‘당신은 구글 번역기를 몰랐다’는 엉뚱한 의미가 전달된다. 하지만 일본어를 한번 거쳐 다시 번역하면 ‘google translation that you did not know’로 거의 의미가 변하지 않는다. 이는 영어를 한국어로 바꿀 때도 다르지 않다. 왜 일본어를 끼워서 번역하면 내용이 더 자연스러울까. 구글의 언어 번역 데이터베이스에 일본어-영어 사이의 데이터가 압도적으로 많기 때문이다. 이 내용을 공개한 이도 ‘전세계에서 일본 동인지를 번역하다보니 데이터베이스가 쌓였다’고 말한다. 꼭 동인지 뿐 아니라 일본인들은 구글 번역을 꽤 잘 쓰고 있다. 일본어 번역도 처음부터 좋았던 것은 아니고, 구글 번역기를 많이 이용하면서 만족스럽지 못한 검색 결과를 고쳐 나갔다. 구글 번역은 번역 내용을 평가하고 직접 더 매끄러운 문장으로 제안하는 기능이 들어가 있는데 일본인들이 이 정보를 아주 열심히 채운 모양이다. 마치 위키페디아처럼 이용자들끼리 정보를 쌓으면서 양과 질이 좋아지는 효과와 비슷하다.
일본어와 영어 사이의 엔진이 한글-영어 사이의 번역 엔진보다 더 좋은 것은 아닐까. 그럴 가능성은 별로 없다. 한국어와 일본어는 라틴어 기반의 언어들과 어순이 전혀 다르다. 영어 뿐 아니라 독일어, 프랑스어, 스페인어 등이 주어 다음에 바로 동사가 나오고 이어서 목적어나 형용사, 부사 등 문장을 꾸미는 요소들이 나오는 것과 달리 우리말과 일본어는 주어가 나오고 중간에 목적어, 부사 등이 나오고 맨 뒤에 서술어로 마무리된다. 직접적인 기계번역이 어려운 이유다. 한국인과 일본인이 영어를 배우는데 어려움을 겪는 것이 바로 이 어순 때문이다. 중국어는 영어와 비슷한 어순을 쓰기 때문에 상대적으로 중국인이 영어를 더 쉽게 습득한다. 한국어와 일본어는 거의 비슷한 어순이다. 단어만 바꿔주는 정도의 기계 번역을 해도 의사소통하는 데 거의 무리가 없다. 영어 배우기를 포기하는 사람만 나오는 게 아니라 사실상 국내의 영어 번역기 시장도 거의 사라지다시피 했다. 1990년대 후반 PC와 CD롬, 인터넷이 도입될 무렵만 해도 영한 번역기 시장은 꽤 컸다. 영한 번역의 핵심은 단어가 아니라 문장단위로 번역하는 데이터베이스의 양이다. CD 1장을 통으로 채워도 번역기가 내는 결과물은 썩 신통치 않다. 이 시장에 뛰어든 대표적인 기업이 IBM이다. IBM은 각 언어의 규칙을 이해하는 자연어 처리 기술을 핵심으로 삼았다. 이른바 텍스트 마이닝 시스템이다. 컴퓨터가 문장을 직접 이해하게 되면 가장 자연스럽게 문장을 번역할 수 있을 것이라는 가정이다. 하지만 아무리 좋은 엔진을 개발해도 컴퓨터가 길고 복잡한 문장을 제대로 이해하는 것은 쉽지 않았다. 게다가 어순이나 표현방법이 엄청나게 변화하는 것이 우리네 언어다.
구글은 아예 이를 이용자들에게 맡겨버렸다. 사람만큼 좋은 번역기는 없다는 전략이다. 2007년 처음 시작한 구글 번역은 이용자들이 직접 번역 내용을 평가하고 수정하도록 하면서 데이터베이스를 쌓았다. 이를 적극적으로 이용한 일본어의 번역 결과물은 그간 엔진에 의존한 번역 프로그램보다 데이터 기반의 번역 프로그램이 더 낫다는 결론을 증명한 셈이다. 굳이 어려운 이야기를 꺼내자면 대량의 데이터를 축적해 다른 상황에 데이터로 대처하는 ‘빅데이터’의 좋은 사례이기도 하다. 빅데이터 전문가들 사이에서 IBM과 구글의 번역기 정책은 데이터와 엔진 사이에서 원하는 결과를 더 쉽고 정확히 얻을 수 있는 사례로 단골 등장하는 메뉴이기도 하다. 그럼 구글 번역기에 우리말과 일본어 사이의 데이터는 많을까. 그건 잘 알 수 없지만, 한국어과 일본어는 구조나 단어 등이 아주 흡사하다. 단어만 바꿔도 거의 정확하게 번역된다. 일본어 번역기의 경우 굳이 구글 방식이 아니더라도 바벨 같은 프로그램만이나 여러 포털 사이트들이 제공하는 서비스로도 충분히 잘 번역된다. 이럴 때는 좋은 번역 엔진으로도 충분하니, 꼭 빅데이터만이 정답이라고 선을 그을 필요는 없을 것 같다. |