인공지능 스스로 번역 '척척', NMT 기술이란?

서진욱 기자 2016. 12. 17. 07:07
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

문장 단위 번역하는 NMT, 1000차원 벡터 활용.. 기존 번역 성능의 2배, 향후 더 개선

[머니투데이 서진욱 기자] [문장 단위 번역하는 NMT, 1000차원 벡터 활용… 기존 번역 성능의 2배, 향후 더 개선]

네이버가 업계 최초로 인공신경망 번역(NMT·Neural Machine Translation) 기술을 한국어-중국어 번역으로 확대했다. 글로벌기업들과의 최첨단 기술 실용화 경쟁에서 한국기업이 한발 앞서나갔다는 점에서 의미가 크다. 구글과 바이두, 네이버 등이 경쟁적으로 개발 중인 NMT는 어떤 기술이길래 번역 능력을 단기간에 빠르게 끌어올릴 수 있었을까.

◇문장 단위 번역하는 NMT… 1000차원 벡터 활용= 기계번역 분야에서 NMT 등장 이전에 통계 기반 번역(SMT·Statistical Machine Translation) 기술이 주로 활용됐다. 대부분 번역 프로그램이 SMT 기반으로 개발됐다. SMT는 문장을 단어 또는 몇 개의 단어가 모인 구 단위로 쪼갠 뒤 통계적 모델에 기반해 번역하는 방식이다. 방대한 학습 데이터를 바탕으로 통계적 번역 규칙을 모델링하는 게 핵심이다.

이와 달리 NMT는 인공지능(AI)이 문장을 통째로 번역한다. 문장 단위 번역이 가능한 이유는 인공신경망이 문장 정보를 가상공간의 특정 지점을 의미하는 벡터(좌표값)로 변환하기 때문이다. 가령 '사람'이란 단어를 '[a, b, c, …, x, z]' 형태로 인식하는 것이다. 벡터에는 단어, 구절, 어순 등의 정보가 전부 들어있기 때문에 문맥을 이해한 문장 단위 번역이 가능하다. 인공신경망은 비슷한 의미를 담은 문장들을 서로 가까운 공간에 배치한다.

네이버의 번역 앱 '파파고'에 적용된 N2MT(Naver NMT) 기술은 1000차원 벡터를 활용한다. 네이버는 입력용 한글 문장과 출력용 영어 문장으로 이뤄진 학습 데이터를 활용해 인공신경망을 학습시켰다. 다만 개발자들은 인공신경망이 변환한 1000차원상 벡터의 좌표값 하나하나가 어떤 의미를 담고 있는지 알 수 없다. 인간이 이해할 수 없는 영역이 존재하는 건 NMT 기술의 장점이자 단점이다.

◇기존 번역 기술보다 2배 뛰어난 NMT= 인공신경망은 딥러닝 기술을 활용해 스스로 학습하면서 번역 능력을 빠르게 향상시켰다. 현재 네이버 자체 테스트 결과 NMT 성능은 SMT의 2배 정도다. 최근에 등장한 NMT가 10년 이상 진화해 온 SMT를 훌쩍 뛰어넘은 것이다. AI 기술 특성상 두 기술의 격차는 시간이 지날수록 훨씬 더 벌어질 수밖에 없다.

실제 활용 사례에서 NMT와 SMT 기술의 격차는 명확하게 드러난다. 가령 '네가 첫눈을 직접 눈으로 봤으면 그런 얘기 못 했을 거야'라는 한글 문장을 중국어로 번역했을 때 구글과 바이두 번역기는 '첫눈'을 누락하거나 '부정'(못 하다) 의미를 번역하지 못했다. 네이버의 파파고는 정확하게 중국어 번역에 성공했다.

NMT 분야에서 네이버의 경쟁자는 구글과 바이두다. 구글은 서구권 언어 번역에서, 바이두는 중국 등 아시아권 언어 번역에서 경쟁력을 갖췄다. 네이버는 이들 기업보다 앞서 한국어-중국어 번역에 NMT를 적용하면서 수준 높은 기술력을 선보였다. 앞서 네이버는 지난해 열린 '2015 아시아 번역 품질 평가 대회'에서 한국어-일본어 1위, 영어-일본어 3위를 차지하는 성과를 올렸다. 해당 대회 1위는 국내 최초다.

원어민의 언어구사능력을 100점으로 본다면 전문 통번역사 90점, NMT 60~70점, SMT 30~40점 정도로 추정한다. NMT는 SMT에 비해 2배 정도 성능이 좋지만 향후 더욱 개선될 여지가 충분하다.

◇최첨단 기술 기반 다지는 NMT 경쟁… 네이버, 실용화 확대=NMT 경쟁력의 핵심은 AI 기술력과 빅데이터 확보에 있다. 최첨단 기술의 기반을 다지는 경쟁이다. 특히 인공신경망 성능 고도화에 활용하는 학습 데이터 확보가 중요하다.
네이버는 라이브 스트리밍 서비스 '브이', 웹툰, 쇼핑 등 전문 번역 데이터를 NMT 학습에 활용한다. 이를 통해 일상생활 표현, 신조어, 구어체 등에서 경쟁력을 확보해 나가고 있다.

네이버는 내년 중 스페인어, 프랑스어, 인도네시아어, 태국어, 중국어(번체), 베트남어 등 6개 언어를 파파고에 추가할 계획이다. 현재 지원 언어는 한국어, 영어, 중국어(간체), 일본어다. 조만간 베타 꼬리표를 떼고 200자 이상의 문장 번역에도 NMT 기술을 적용한다. 아울러 NMT 기술을 네이버 서비스 전반으로 확장, 실용화에도 박차를 가한다.

파파고가 적용된 네이버의 웹브라우저 '웨일' 대표 이미지.

서진욱 기자 sjw@mt.co.kr

<저작권자 ⓒ '돈이 보이는 리얼타임 뉴스' 머니투데이, 무단전재 및 재배포 금지>

Copyright © 머니투데이 & mt.co.kr, 무단 전재 및 재배포 금지

이 기사에 대해 어떻게 생각하시나요?