구글이 웃는 이유.."인공신경망 번역 덕에 한국어 사용자 75% 증가"

마운틴뷰=김범수 기자 2017. 5. 21. 10:28
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

"구글 번역에 인공신경망 기술을 적용한 후 한국 사용자가 최근 6개월 사이 75% 이상 증가했습니다."

그는 "현재 한국어 번역 품질은 중국어(6점 만점에 4.7점가량)보다 확실히 높아진 것으로 파악하고 있다"며 "정확한 조사를 하지 않았지만, 구글 인공신경망을 적용한 이후 대략 0.6~1.5점 정도 늘어난 것으로 추산하고 있다"고 덧붙였다.

구글은 제로샷 번역을 적용한 후 한 문장 번역 속도가 10초에서 0.2초 수준으로 줄었다고 덧붙였다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

“구글 번역에 인공신경망 기술을 적용한 후 한국 사용자가 최근 6개월 사이 75% 이상 증가했습니다.”

마이클 슈스터 구글 리서치 사이언티스트가 구글 번역 품질에 관해 설명 중이다. /마운틴뷰=김범수 기자

마이클 슈스터 구글 연구 과학자(research scientist)는 16일(현지시각) 미국 캘리포니아주 마운틴뷰 구글 본사에서 열린 아시아 지역 미디어 간담회에서 이렇게 말했다.

그는 “현재 한국어 번역 품질은 중국어(6점 만점에 4.7점가량)보다 확실히 높아진 것으로 파악하고 있다”며 “정확한 조사를 하지 않았지만, 구글 인공신경망을 적용한 이후 대략 0.6~1.5점 정도 늘어난 것으로 추산하고 있다”고 덧붙였다.

구글은 한 언어를 다른 언어를 번역하는 언어 모델마다 2~3주씩 집중 훈련을 시킨다. 한영 번역과 영한 번역은 각각 하나의 모델로 총 2개의 모델이다. 구글은 현재 103개의 언어를 다루기 때문에 글이 훈련시키는 언어 모델의 수는 총 103개의 제곱, 1만609개에 달한다.

모델별로 사용되는 데이터의 숫자는 1억개 이상이다. 모델별로 2~3주간 총 1억개가 넘는 데이터를 가져와서 1만609개의 모델을 훈련시키는 셈이다.

그는 “이 때의 데이터는 인터넷상에 공개된 자료를 가져다 쓴다"면서 “최근 구글의 한영 번역, 영한 번역 이용자 수가 늘면서 한국어 구글 번역 수준도 높아진 것"이라고 말했다.

구글은 데이터 없이도 번역할 수 있는 기술인 ‘제로샷(Zero-shot) 번역’으로 품질을 높인다. 가령, 구글번역이 영어와 한국어, 영어와 일본어 언어쌍을 각각 번역할 수 있는 지식을 갖추고 있을 경우, 한국어와 일본어 언어쌍에 대해서도 별도 머신러닝을 통한 학습과정을 거치지 않아도 번역이 가능해진다는 설명이다.

여러개 언어를 트레이닝하면서 정확도가 높아지는 것은 물론, 직접 번역 학습을 하지 않은 언어도 중간 언어를 매개로 번역할 수 있게 된 것이다. 구글에 따르면, 같은 의미를 지니는 여러 국가의 언어는 알고리즘 상에서 비슷한 위치에 자리를 잡게 된다. 구글은 제로샷 번역을 적용한 후 한 문장 번역 속도가 10초에서 0.2초 수준으로 줄었다고 덧붙였다.

마이클 슈스터는 구글 번역이 실제 동시통역사처럼 번역하게 되는 데까지는 시간이 걸릴 것으로 봤다. 그는 “당장 숫자와 날짜 번역상의 오류, 짧고 희귀한 문장 번역 오류, 이름과 브랜드 인식 오류를 개선해야 한다"면서 “기계는 여전히 사람이 말하는 것의 뉘앙스나 농담, 비꼬는 말 등을 이해하지는 못하고 예술적인 의미를 완전히 파악하진 못하고 있다”고 덧붙였다.

- Copyrights ⓒ 조선비즈 & ChosunBiz.com, 무단 전재 및 재배포 금지 -

Copyright © 조선비즈. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?