[한국어와 인공지능]⑧ 직원 100여명이 줄서서 가르친 SKT '누구'..2017년 API 대폭 개방

김범수 기자 2016. 12. 5. 16:03
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

SK텔레콤이 내놓은 한국어 인공지능(AI) 스피커 ‘누구'가 지난 9월 1일 출시 이후 1만대 이상 팔리며 의외의 돌풍을 일으키고 있다. SKT가 초도 물량으로 준비해놓은 수량은 2000대에 불과했다. 물량을 준비해놓으면 바로 팔리는 누구의 완판 행진을 보면서 SKT 내부에서도 적잖게 놀라는 분위기다. 누구의 성능과 콘텐츠는 수년간 사업경력을 갖춘 아마존의 AI 스피커 ‘에코’와 비교하면 아직 많이 부족한 편이기 때문이다. 초보적인 수준의 한국어 AI에 대한 소비자의 높은 관심을 고려하면, 향후 AI 사업의 가능성은 무궁무진하다고 할 수 있다.

SKT가 개발한 인공지능 스피커 누구. /전준범 기자

누구를 몇 개월 사용해 본 사람은 안다. 최근 누구의 음성 인식률이 꽤 높아졌다. 또 음악 재생에만 최적화된 누구가 최근엔 치킨과 피자 배달 주문도 해내고 짤막한 뉴스도 들려준다. SKT는 앞으로 제삼자와의 협업을 통해 누구의 활용 범위를 더 넓혀 나갈 계획이다.

조선비즈는 최근 이태훈 SKT 디바이스 제품기획2팀 팀장과 이두희 누구나 주식회사(누구 서비스를 위해 팀 차원에서 만든 가상의 회사명칭) CEO를 각각 만나 한국어 AI 스피커 누구의 기술과 향후 계획 등에 대해 자세히 들어봤다.

◆ 자연어 처리, 음성인식 등 SKT 자체기술 개발

SKT에는 휴먼머신인터페이스(HMI) 테크랩이 있다. 음성 언어 인식과 합성, 자연어 처리 등의 기술은 HMI테랩이 맡고 있다. AI 연구와 관련해서는 AI테크랩이 별도로 있다. 언어 처리 이후의 데이터 처리 과정은 AI테크랩에서 맡는다.

누구는 기본적으로 도메인(영역)별로 훈련(최적화)해 역량을 확대해나가고 있다. 현재 누구는 음악, 스마트홈, 음식배달, 날씨, 일정관리, 알람, 무드등, 뉴스브리핑, 팟캐스트 등 9개 도메인에 관한 음성 명령은 곧잘 인식해낸다. 특히, 음악과 관련한 명령은 90% 후반대의 높은 음성 인식률을 자랑한다. 누구가 음악과 관련된 학습을 시작한 게 1년이 넘었기 때문이다.

이태훈 팀장은 “지난해 소파에 누워 음악 서비스 멜론을 들려달라고 명령을 해보는 게 어떠냐며 실무선에서 작게 시작했던 프로젝트가 ‘누구’의 시작”이라며 “지난해 9월에 여러 조직이 모여서 실무반을 만들게 됐다”고 말했다.

그렇게 실무반이 만들어지고 3개월 정도까지 작동이 되는지 프로토타입(시제품)을 테스트했다. 점차 상용화가 가능하겠다는 의견이 나왔고 사내 정식 조직까지 출범했다.

이태훈 팀장은 “가장 부담이었던 것은 시간이었다”면서 “3년 이상 업력을 가진 아마존의 에코에 대항해 1년 안에 결과물을 내야 하는 것이 부담이었다”고 말했다.

이태훈 컨버전스사업본부 디바이스제품기획2팀장이 누구의 언어처리 알고리즘에 대해 설명중이다. /김범수 기자

SKT는 올초 누구의 프로토타입을 만들었다. 하지만, 다른 전자회사에서 출시한 홈 허브와 너무 유사한 모양이어서 누구의 디자인을 바꿨다. 또 아마존의 에코처럼 사무적인 AI가 아닌 친구같은 AI를 만드는데 또 시간이 걸렸다. 그렇게 올해 9월 ‘누구’가 등장했다.

◆ “회의실에 직원 100명 줄 세워 발화 DB 담았다”

한국말을 알아듣는 스피커 누구의 기본 원리는 뭘까. 아리아, 레베카, 크리스탈, 팅커벨이라는 4가지 이름을 가진 AI 비서를 깨우면 음성 명령을 바탕으로 답변을 내놓거나 기능을 작동시킨다. 멜론을 기반으로 음악을 재생하는데 “아리아, 김동률의 취중진담 틀어줘”라고 하면 해당 음악을 정확히 틀어준다. 음악 재생이라는 기능에 국한시켜 음성명령을 알아듣고 실행하도록 만든 덕분이다.

SKT는 도메인 별로 누구에게 한국어를 학습시킨다. 도메인별로 음성 인식률과 자연어 처리 기능을 향상시키는 것이다. 가령, ‘플레이’나 ‘틀어줘’ 같은 단어가 ‘음악재생’이란 범위에 국한될 수 있도록 멜론 서비스와 연결하는 것이다. 도메인별로 서비스하는 전략은 누구가 개발에 돌입한 지 1년 만에 상용화된 비결이기도 하다.

현재 ‘누구’는 계속 도메인에 국한시켜 사용할지, 자연어 인식 처리를 좀더 광범위하게 적용할지 조율중인 상황이다. 아마존 에코의 경우, 도메인을 정하지 않고 사람이 말하는 자연어 전체를 처리하고 있다.

누구의 음성인식 엔진 자체는 SKT이 자체적으로 개발했다. SKT는 자체 제작하거나 외부에서 구입하는 방식으로 50시간 분량의 발화 데이터베이스(DB)를 확보했다. 발화 DB는 사람들이 말하는 내용과 목소리를 DB화 하는 것으로 음성을 합성을 하는 데 쓰인다. 주로 텍스트를 음성으로 바꾸는, 텍스트투스피치(TTS) 업체들이 발화DB를 갖고 있다.

이태훈 팀장은 “부족한 발화 DB를 확보하기 위해 서울 을지로 본사 19층 대회의실에서 화상회의실 마이크를 통해 직원들을 줄 세워 대본을 읽게 만들었다”면서 “직원 100여명이 참여하도록 했는데 주로 30~40대 서울 남자가 많았기 때문에 지방 출신의 직원과 여직원도 따로 불러 발화 데이터를 생산했다”고 말했다.

의외로 기계가 말하도록 학습시키는 데 필요한 발화 DB량은 40~50시간 분량이면 충분하다는 게 이 팀장의 설명이다. 40~50시간 분량을 초단위로 끊어 다채롭게 쓰기 때문이다.

SKT의 누구나 주식회사 출범 당시 기념사진. 정중앙에 이두희 CEO가 ‘누구’를 들고 기념사진을 찍고있다. /SKT 제공

누구의 학습데이터는 발화DB 외에도 수천~1만시간 정도의 음성데이터, 수십만 문장의 텍스트 데이터가 쓰인다. 주로 음성인식을 인식하는 데 필요한 DB들이다. 이 팀장은 “음성인식은 딥러닝 알고리즘(DNN)을, 언어이해는 통계기반 알고리즘을 적용했다”고 덧붙였다.

누구는 특정 도메인별 음성명령을 처리하기 때문에 알파고 같은 복잡한 탐색이 필요 없다. 서버 1대로도 수십명의 음성 명령을 처리할 수 있다. 대신 자연어 처리가 완벽하지 않기 때문에 사전에 저장된 상용구가 있다. 농담을 받아주는 기능이다. 가령 “아리아, 너 몇 살이야?”라고 물어보면 “나이는 숫자에 불과합니다”라고 대답한다.

◆ 내년 1분기 API 개방해 가전제품과 연동

SKT는 누구를 출시한 후 누구 프로젝트 팀을 가상의 회사인 ‘누구나 주식회사’로 부르기로 했다. 천재 해커로 알려진 이두희씨가 가상의 CEO를 맡아 누구 진화 프로젝트를 지휘한다. 누구나 주식회사는 실제 주식회사는 아니고 누구를 진화시키기위한 프로젝트 팀이다. 이두희씨도 SKT 직원이 아니라 이 프로젝트를 위해 일정기간 계약을 맺고 일하고 있다.

이 대표는 “처음에 음성인식률이 낮아 소비자들로부터 많은 불만을 들었다”면서 “누구가 출시되고 사용자로부터 확보한 데이터를 추가하고 고객의견(VOC)을 기반으로 로직과 알고리즘을 향상시킨 결과 불만 수위가 크게 낮아졌다"고 말했다.

그는 “내년 1분기에 누구의 응용프로그램인터페이스(API)를 개방할 것”이라며 “API를 개방해 외부 개발자들이 스마트홈 등 사물인터넷에 연동시킬 수 있도록 할 계획으로, 이렇게 되면 TV 등 가전제품 전반 연동이 가능해진다”고 말했다.

가령, 가습기 등 가전 제품 동작을 누구로 콘트롤하거나 요리 레시피를 알려주는 방식 등이다. SKT가 최근 지분을 인수한 SK커뮤니케이션즈의 포털 서비스 ‘네이트’의 콘텐츠도 활용할 수도 있다.

이 대표는 “개개인의 감성을 분석하는 기술을 누구에 적용한다면, 누구가 더욱 개인화한 서비스를 제공할 수 있을 것"이라면서 “예를 들어 노래를 틀어달라고 했을 때, 개인의 감정을 분석해 신나는 음악이나 우울한 음악을 골라서 틀어줄 수 있을 것”이라고 덧붙였다.

- Copyrights ⓒ 조선비즈 & ChosunBiz.com, 무단 전재 및 재배포 금지 -

Copyright © 조선비즈. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?