인공지능의 시대가 오니 음성이 주인공으로 뜨네

고평석 2017. 1. 18. 06:06
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[디지털&휴먼-68]
-글에서 음성으로 기기 제어 방법이 바뀔 확률이 높다.
- 아마존 에코의 성공은 음성인터페이스로 나아가는 중임을 보여준다.
- 음성인식을 통해 목소리 주인공의 성격, 의도 등도 파악이 가능하다.
- 음성인터페이스에도 상상을 초월하는 진화가 있을 것으로 보인다.

해시태그
 인터넷에서는 글의 힘이 여전하다. 긴 글이냐 짧은 글이냐의 차이만 있을 뿐, 여전히 사람들은 글을 왕성하게 소비한다. 이미지를 중요시하는 서비스들이 뜨기도 했지만, 여전히 해시태그(#)를 이용해 이미지에 대해 짧은 글(단어)로 자신의 생각을 덧붙이는 것을 보면 글의 파워가 느껴진다.

 그런데 몇 년 사이 흐름을 짚어 보면 글에서 그 다음 수단으로 넘어갈 수 있다는 생각이 든다. 바로 음성이다. 컴퓨터에서 스마트폰으로 환경이 바뀌어도 건재했던 글을 밀어내고, 과연 음성이 그 자리를 대신할 수 있을까? 과거의 사례에 비추어 보면 답이 간단히 나온다.

 처음 아이폰이 등장했을 때 (주로) 얼리어댑터들이 열광했다. 너무 편하다는 이유였다. 기존에 사용하던 컴퓨터는 켜고 부팅하는 데 시간이 많이 걸리고, 들고 이동하는데 불편했다. 아이폰은 전혀 그런 걸림돌이 없었다. 주머니에서 꺼내서 잠금 해제하고 앱을 누르기만 하면 되었다. 따로 켜고 기다리는 시간이 필요 없다. 해외에서 아이폰을 구입해 온 후에 "이메일을 작성하는 과정을 컴퓨터와 아이폰을 놓고 비교해 보면 금방 그 차이점을 알 수 있다"고 필자에게 힘주어 말했던 한 벤처캐피털리스트의 말이 옳았다.

 그런데 음성은 현재 우리가 사용하고 있는 스마트폰의 편리함을 한순간에 불편함으로 만들어 버린다. 음성을 인식하여 작동하는 기기는 주머니에서 꺼낼 필요도, 잠금 해제를 할 이유도, 앱을 클릭하는 동작도 없다. 말만 하면 작동이 된다. 기술이나 서비스의 발전이 빠르고 편리하게 만들어가는 쪽으로 향했다면, 말이 글보다 우월한 것은 말할 필요도 없다. 이런 예측은 가트너 보고서에도 나온다. 이들은 2018년까지 우리들의 기술과의 상호 작용(의사소통) 30%가 스마트 기기를 통한 대화를 통해서 이루어질 것으로 전망했다. 또한 각 기업 기술 및 서비스 책임자들은 아직까지는 상당히 제한적인 음성 인터페이스를 발전시키는데 투자를 아끼지 말아야 한다고 주장했다.

아마존 에코/출처=아마존(amazon.com)
 실제로 이런 변화를 우리는 아마존의 에코를 통해 확인할 수 있다. 2014년 11월 출시된 개인 비서 역할을 하는 에코는 음성으로 구동된다. 여기에는 인공지능 알렉사(Alexa)가 탑재되었다. 처음에는 성공을 쉽게 예측할 수 없었다. 이미 2011년 선보였던 애플의 시리(Siri)에 사람들이 실망을 한 상태였다. 대대적인 광고 탓에 굉장히 똑똑하고 만능일 것 같은 시리였지만 실제로는 기대에 미치지 못했다. 하지만 에코는 영리하게 사람들에게 다가왔다. 날씨, 음악, 뉴스 등 간단한 정보를 음성 명령에 의해 제공해 주는 수준이었다. 기대 수준이 높지 않았고, 서비스는 만족스러웠다. 에코는 자신이 명령 받은 내용을 끊임없이 클라우드로 보내서, 그렇게 모인 빅데이터를 통해 스스로를 발전시켜 나간다. 개방된 생태계를 지향하여 출시 후 1년 반 만에 각 개발사들이 만든 5000개 정도의 스킬(스마트폰의 앱과 같음)을 가지게 되었다. 다양한 서비스의 등장으로 사람들이 점점 더 편리함을 느끼고 있다. 작년 우리나라에도 자녀들에게 크리스마스 선물로 에코를 사주는 사람들이 종종 눈에 띄는 것을 보면 확산의 범위와 속도가 남다르다. 집 안에서의 용도도 다양해지고 있다. 날씨, 교통 정보 등 단순한 정보 제공에서 이제는 주방에서 요리를 도와주는 보조 주방장 역할이 가능해졌다. 자신이 냉장고에 가지고 있는 재료가 무엇인지 에코 안의 '올레시피즈(All Recipes)'에게 이야기해 주면 어떤 음식을 만들 수 있는지 추천해 준다. 그리고 그 요리 시간이 얼마인지 물어보면 얼마나 걸릴지 답을 해 준다. 또한 그 시간이 너무 길어서 안 될 거 같다고 하면 같은 재료를 갖고 더 짧은 시간 내에 할 수 있는 요리를 제시한다. 주방에서 물과 기름기를 묻히면서 요리책을 뒤적이거나 스마트폰을 클릭할 필요가 없어졌다. 이 모든 것이 음성인터페이스라 가능하다. 상당히 간편하고 강력한 수단이다.
사진=게티이미지뱅크
 더 나아가 최근에는 음성인식 기술도 발전을 거듭해 대중화 단계 직전까지 와있다. 단순히 음성으로 기기를 제어하는 것뿐 아니라 인간의 음성을 파악해 그 사람의 기분이나 의도를 파악할 수 있게 되어 간다. 이스라엘의 벤처기업 비욘드 버벌(BEYOND VERBAL)이 무디스(Moodies)라는 앱으로 그런 서비스를 제공한다. 오바마나 트럼프 같은 유명 정치인들의 연설을 분석해서 어떤 목적을 가지고 이야기를 한 것인지, 또한 이런 목소리를 가진 사람은 대체로 어떤 성격을 갖고 있는지 등을 밝히기도 했다. 정교화 단계를 충분히 거치면 음성인터페이스에 중요한 한 축을 담당할 수 있는 서비스가 될 것으로 보인다. 그렇게 되면 비교적 감정을 숨기기 쉬운 글에 비해 음성으로 인해 더 솔직한 커뮤니케이션이 이루어질 수도 있다.(물론 말한 당사자는 부인할 수 있다. 하지만 음성인식 결과값은 정확하게 화자의 상태를 알려주게 된다)

 음성으로 사람의 기분, 상태를 파악하는 것은 꽤나 오래 된 역사를 갖고 있다. 한의학 이상곤 박사에 따르면 선조 때 이황, 이이, 기대승 등 유학의 거장들이 선조의 경연강사로 나섰다고 한다. 이들 성리학자는 국민의 삶 등 실질적 문제보다 도덕적 이슈에 집중하는 경향이 있었다. 특히 성욕 절제 등이 의학적으로 중요한 과제였다. 선조 6년 1월 3일 목소리가 끊어지고 이어지면서 책 읽는 소리가 이상하다는 이야기에 대해 조심스럽게 논의가 시작된다. 이후 여러 차례에 걸쳐 왕의 목소리에 대해 근심스러운 논의가 이어진다. 그런데 이때 성격이 거침없이 직설적이었던 이이가 선조에게 포문을 연다. "오랜만에 임금의 목소리를 들으니 영 이상합니다. 여자를 가까이 하지 말라는 말씀을 받아들이시지 않기 때문인 듯싶습니다." 선조의 목소리를 듣고 임금의 성생활까지 언급한 것이다. 선조는 기분이 언짢아져서 "사람마다 목소리가 다른 법이다"라고 답을 한다. (책 <낮은 한의학>, 이상곤 저) 임금의 목소리를 듣고 신하들이 임금의 생활을 파악할 정도로 음성의 쓸모는 비교적 다양했다. 이러한 음성의 용도는 예나 지금이나 다를 바 없다. 지금도 진실된 의사소통은 글보다는 목소리로 이루어진다고 믿곤 한다.

 현재도 은행이나 카드사, 전화회사 등에 전화를 하면 안내 방송을 음성 또는 버튼 서비스 중 하나로 이용하라고 권한다. 전화기를 통해 음성으로 원하는 바를 이야기하는 게 어색했지만 곧 익숙해졌다. 이제 시작이다. 앞으로 음성인터페이스가 각광을 받게 되면 우리 생활의 많은 부분이 바뀌게 된다. 물론 다른 사람이 듣게 되는 문제는 있다. 내가 말하는 내용이 다른 이에게 들리지 않고 혼잣말처럼 할 수 있도록 도와주는 별도의 수단이 등장할지 모르겠다. 또한 마치 그래픽 유저인터페이스가 진화를 거듭했듯이 편리하게 말을 주고 받을 수 있는 순서가 정리될 것이다. 음성인터페이스의 강자가 새로운 시대를 열어갈 확률이 높아지고 있다.

고평석 인문디지털 커넥터
[고평석 인문디지털 커넥터]

[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지