한국말 척척 알아듣는..수입산 AI 국내 상륙

오찬종 2017. 10. 10. 04:04
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

IBM 왓슨, 한국어 버전 공개
블로그 통해 한국말 대화 익혀 왓슨이 기획해 빼빼로 만들고 로봇 상담원도 머지않아
구글 어시스턴트도 한국어 '열공'
띄어쓰기등 맥락 꼼꼼히 이해 "오케이 구글" 부르면 영화예약도
DJ처럼 음악재생도 곧 가능할듯
IBM과 SK주식회사 C&C가 왓슨 한국어 기술을 탑재한 한국과학기술원(KIST) 개발 로봇을 선보이고 있다. [사진제공 = SK주식회사 C&C]
외산 음성인식 인공지능(AI)의 한국 상륙이 본격화하고 있다. 음성인식 서비스인 만큼 한국어 습득은 기본이다. 일단 한국어를 할 줄 알아야 한국 사람들을 대상으로 뭐든 할 수 있기 때문이다. 한국어를 구사하게 되면 한국 사람들과 대화하면서 보다 다양한 데이터를 축적하고 이를 분석해 더 정교하고 자연스러운 서비스를 선보일 수 있게 된다. IBM '왓슨'이 한국어 버전을 정식 공개한 데 이어 구글 AI '구글 어시스턴트'도 한국어 학습을 마치고 국내 시연을 했다. 이들 외산 AI는 산업 현장부터 개인 비서까지 국내 시장을 두루 공략할 예정이다.

구글 어시스턴트는 내 손안의 개인 비서다. 목소리를 통해 일정 관리, 전화, 문자, 정보 찾는 기능부터 항공권·영화 예약, 주변 음식점이나 지역 정보 찾을 때 사용할 수 있다. "오케이 구글"이라는 명령어나 홈 버튼을 길게 누르면 소환된다. 현재는 LG전자 최신 스마트폰 'V30'에서만 이용 가능하다. 구글 측은 머지않아 안드로이드 최신 버전 이용자 전체가 이용할 수 있도록 확대할 것이라고 설명했다. 삼성전자 빅스비, 애플 시리가 경쟁자인 셈이다. 시연 현장에서 구글은 뛰어난 맥락 파악 능력을 차별화된 강점으로 어필했다. 가령 포항 스틸러스 경기 스케줄을 질문한 다음 "그 다음은?"이라고 물어도 당황하지 않는다. 앞선 진행된 대화 맥락에서 사용자 질문 의도를 알아차리고 다음 경기 스케줄을 알려준다.

IBM 왓슨은 산업 현장에서 주로 사용될 예정이다. 최근 롯데제과가 왓슨 도움을 받아 선보인 '빼빼로 카카오닙스'와 '빼빼로 깔라만시 상큼요거트' 등이 대표적 사례다. 왓슨이 8만여 개의 식품 관련 인터넷 사이트에 게재된 데이터 약 1000만건을 분석해 현재 소비자들이 좋아하거나 인기를 끌 가능성이 높은 소재와 맛을 도출해 개발한 제품이다. 김연주 한국IBM 전무는 "국내 대기업부터 스타트업까지 누구나 왓슨이라는 똑똑한 사원을 채용할 수 있다"고 소개했다. 이를 위해 왓슨은 최근 한국어 기능(API) 8종을 공개했다. 8종 기능 중 대표적인 것은 '대화' 기능이다. 자연어를 이해하고, 사용자와의 실제 대화처럼 처리·응답한다. 기업들은 이 기능에 회사 서비스 정보를 입혀 AI 상담원을 만들 수 있다.

IBM 왓슨은 각 API별로 따로 따로 한국어를 공부하는 방식으로 진행됐다. 김 전무는 API마다 필요한 한국어 텍스트 종류가 다르기 때문이라고 설명했다. 한국어를 공부하는 순서는 크게 3단계로 이뤄졌다. 첫 번째는 필요한 데이터를 수집하는 과정이다. 실생활 대화 데이터가 필요한데, 영어를 공부할 때는 소셜네트워크서비스(SNS)인 트위터 게시글들을 활용했다. 한국어 학습 때는 트위터를 활용할 수 없었다. 국내는 트위터 이용자 수 자체가 많지 않을뿐더러 은어나 비속어가 대부분이라 자료의 질이 떨어졌기 때문이었다. 대신 국내 이용자들이 많은 다른 SNS 전체 공개 게시글이나 블로그 등 데이터를 활용했다. 김 전무는 가장 어려웠던 데이터 수집 분야로 개인 성향 분석 API를 꼽았다. 자기소개서 등 텍스트를 입력하면 50여 개 중 자신에게 맞는 성향을 분석해주는 기능이다. 그는 "각 성향에 부합하는 텍스트 데이터를 모아야 하는데 한국인들의 성향은 몇 가지로 한정돼 있었다"면서 "한국어 텍스트 중 흔하지 않은 성향의 데이터를 모으는 데 애를 먹었다"고 말했다. 가장 많은 한국어 사용자들의 성향은 '사교적인'이었다. 가장 희귀했던 성향은 '호기심 많은'이었다.

이렇게 모아진 데이터를 미국 IBM 연구소로 옮겼다. 한국IBM과 현지 개발자들이 기계학습을 통해 한국어 패치를 진행했다. 어느 정도 학습이 완료되고 한국IBM과 국내 사업파트너인 SK주식회사 C&C 직원들이 테스트에 참여했다. 100명 넘는 양사 직원들이 한국어를 더욱 자연스럽게 구사할 수 있도록 마무리 학습을 도왔다.

구글코리아가 `구글 어시스턴트` 한국어 버전을 시연하고 있다. [사진제공 = 구글코리아]
구글 어시스턴트 역시 기계학습 방식으로 한국어를 학습했다. 구글 소속 한국인 전산언어학자들이 그 일을 맡았다. 한국어는 구글 AI의 아홉 번째 언어다. 최현정 구글 연구원은 "한국어 학습은 앞서 진행됐던 다른 언어보다 훨씬 더 어려웠다"고 말했다. 가장 작은 의미 단위로 쪼개서 입력을 해줘야 하는데 한국어는 영미권 언어와 달리 띄어쓰기 단위와 의미 단위가 일치하지 않기 때문이다. 이를 위해 한국어 학습 때는 데이터를 입력하는 데 별도 후처리 과정이 필요했다고 최 연구원은 설명했다. 예를 들어 '대한민국은'이라는 띄어쓰기 단위에 조사인 '은'은 제외시킨 뒤 입력하는 식이다. 최 연구원은 "한국어는 띄어쓰기 규정이 어려워 인터넷상에서 어법에 맞지 않는 글이 대부분이라는 점도 데이터 취합에 어려움이 된 요인 중 하나였다"고 설명했다.

구글 어시스턴트는 한국어를 완전히 마스터하고 난 다음 국내 다양한 서비스들과 연결해 한국적인 서비스로 자리를 잡겠다는 전략이다. 그 일환으로 구글은 한국 음악 서비스 3사인 멜론, 벅스뮤직, 지니와 구글 어시스턴트를 모두 연동시켰다. 이용자가 "아이유 노래를 틀어줘"라고 말하면 바로 최신곡 '가을아침'이 재생된다. 정규혁 구글 기술 프로그램 매니저는 "3사 모두와 협의를 마친 뒤 개발했다"면서 "앞으로 이용자들 수요에 맞춰 국내 서비스들과 연동을 강화해나갈 것"이라고 말했다. 카카오톡과의 연동도 머지않은 것으로 보인다.

[오찬종 기자]

[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?