'오감 AI' 만들겠다는 네이버..실제 기술 수준은?

글로벌 인공지능(AI) 시장에 출사표를 던진 네이버(NAVER(035420))의 히든카드는 ‘오감(五感)’이었다. 시각과 청각·촉각·후각·미각 등 사람이 느끼는 다섯가지 감각을 자체 AI ‘클로바(Clova)’에 넣어 아마존·구글의 대항마로 내세우겠다는 것이다.

클로바 브레인과 클로바 인터페이스의 구조. 클로바 인터페이스가 감각을 받아들여 클로바 브레인으로 전달하면, 정보 처리와 과제 수행 등이 이뤄진다. /네이버 제공

네이버가 자신 있게 선언한 오감 AI의 현주소는 어디쯤일까. IT 업계에서는 네이버가 약 10여년 간 음성 인식 기술을 발전시켜왔고 ‘스노우’ 등 안면 인식 카메라 앱을 통해 방대한 시각적 데이터를 축적한 만큼, 적어도 청각과 시각에 있어서는 상당한 수준의 기술을 보유하고 있다고 평가한다.

◆ 송창현이 고안하고 신중호가 이끌고...눈·귀 가진 차세대 AI

네이버 클로바의 정체는 지난 1일(현지 시간) 스페인 바르셀로나에서 열린 모바일월드콩그레스(MWC)에서 공개됐다. 클로바는 아미카가 한층 업그레이드된 버전으로, 음성인식 및 시각(비주얼) 인식 AI 엔진, 대화형 엔진 등 다양한 기술을 한데 모은 통합 AI 플랫폼이다.

네이버 내부 사정에 정통한 업계 관계자에 따르면, 오감 AI라는 콘셉트는 송창현 최고기술책임자(CTO)가 이끄는 네이버랩스에서 먼저 고안해낸 것이다. 송 CTO는 네이버랩스에서 이 오감AI 기술 개발을 총괄하길 원했으나, 네이버측에서 이를 전사적으로 발전시키는 게 낫다고 판단해 신중호 라인플러스 대표가 이끄는 ‘J TF’에 일임했다는 것이다. 현재는 네이버랩스 소속 연구원 중 절반 가량이 J TF에 소속돼 오감 AI 개발을 계속하고 있다.

클로바는 인간의 오감에 해당하는 ‘클로바 인터페이스’와 두뇌의 역할을 하는 ‘클로바 브레인’ 등으로 구성됐다. 이 중 클로바 인터페이스에는 음성을 인식하는 ‘클로바 보이스’, 이미지와 얼굴을 인식하는 ‘클로바 비전’등이 포함됐다. 귀와 눈의 역할을 하는 청각, 시각을 갖추고 있다는 얘기다.

클로바 인터페이스가 청각과 시각 등 감각을 받아들여 클로바 브레인으로 전달하면, ‘뇌’는 자연어 처리 기술, 대화 기술, 인공신경망 기계번역과 검색·추천 기술 등을 활용해 과제를 수행하거나 가장 적합한 결과를 제시한다.

클로바가 가진 청각·시각 기술은 음성인식 스피커 ‘웨이브(올 여름 출시 예정)’와 스마트 디스플레이 ‘페이스(빠르면 올 겨울 출시 예정)’로 각각 발현된다. 웨이브는 아마존 ‘에코’나 SK텔레콤 ‘누구’와 유사한 제품으로, 음성 명령을 받아들여 과제를 수행하는 형태를 띨 전망이다. 페이스의 경우 어떤 제품인지 공개되지 않았으나, 안면(顔面) 등 이미지 인식 기능과 디스플레이를 갖춘 차세대 AI 기기일 가능성이 크다고 업계 관계자들은 추측한다.

◆ 칼디 기반으로 한 음성인식 엔진...한국어는 구글보다 정확

네이버의 음성 인식 기술이 본격적으로 발전하기 시작한 때는 지난 2010년 7월이다. 회사(당시 사명 NHN)는 이상호 기술연구팀장(현 SK플래닛 CTO), 김준석 연구원(현 네이버랩스 파파고 리더) 등 4명에게 음성 인식 기술 개선을 지시했다. 이들은 같은 해 12월 네이버 모바일 앱을 통한 음성 검색 서비스를 내놓았다.

이후 약 7년 간, 네이버는 음성 인식 기술을 꾸준히 발전시켜왔다. 현재 네이버의 음성 인식 엔진은 미 존스홉킨스대학에서 내놓은 오픈소스 ‘칼디(Kaldi)’를 기반으로 만들어졌다. 지난 2011년 처음 공개된 칼디는 현재 세계적으로 가장 많이 쓰이는 음성 인식 오픈소스로 꼽힌다.

인터넷 업계의 한 관계자는 “네이버가 오랜 기간 동안 음성 인식 기술을 개발해온 데다 포털을 통해 자연어 분석 노하우까지 축적해온 만큼, 국내에서는 구글 등 글로벌 대기업보다 더 나은 ‘청력’을 보유하고 있을지 모른다”고 말했다.

지난 2일 베타 서비스를 시작한 음성 비서 ‘네이버i’와 거대 포털 구글의 음성 검색 기능을 비교해보며 테스트해본 결과, 실제로 네이버의 음성 인식 정확도가 더 높은 것으로 나타났다.

두 검색 엔진에 “이 근처에서 제일 맛있는 우동집이 어디야?”라는 질문을 던졌다. 같은 질문을 3번 반복해 들려준 결과, 네이버는 3번 모두 정확히 인식한 반면 구글은 1번 ‘우동’을 ‘운동’으로 잘못 이해하는 오류를 범했다.

네이버의 음성 비서 ‘네이버i’에 긴 문장을 들려줬다. 문장이 너무 길어 무슨 뜻인지 이해하지는 못했지만, 음성 인식은 토씨 하나 틀리지 않고 정확하게 해냈다. /노자운 기자

좀 더 긴 문장을 들려줘봤다. ‘선택 진료란 의료법 제46조에 의거 전문의 자격 인정을 받은 후 10년이 경과한 의사이거나 혹은 전문의 자격 인정을 받은 후 5년이 경과하고 대학 병원, 대학 부속 치과 병원의 조교수 이상인 의사 등 진료 경험이 풍부한 의사를 선택하여 진료를 받는 제도입니다’라는 문장을 두 검색 엔진에 들려줬다. ‘의’ 발음이 많기 때문에 인식 성공률이 높지 않을 것이라고 판단했지만, 네이버는 이 문장 역시 100% 정확하게 인식해냈다. 구글은 우려했던 대로 두군데서 ‘이’와 ‘의’를 혼동해 인식했다.

다만 네이버의 청각 AI가 향후 딥러닝 기술을 통해 사람과의 자연스러운 대화를 가능케 할지 여부는 아직 미지수다. 음성 인식 스피커의 핵심은 고도의 청력 뿐 아니라 자연스러운 대화 능력이다. 네이버i는 대화형 엔진을 표방하고 있으나, 아직까지 대화는 거의 불가능한 음성 검색 수준에 머물고 있다.

◆ 스노우의 안면 인식 카메라로 시각 데이터 학습

네이버는 시각적 데이터도 대량으로 축적하고 있다. 안면 인식 카메라 앱을 통해 사람의 얼굴 이미지 데이터를 꾸준히 학습하고 있다.

현재 네이버에서 서비스하는 안면 인식 카메라 앱은 ‘스노우’와 ‘B612’, ‘룩스’ 등 3개다. 스노우의 경우 지난 2015년 9월 출시돼 현재까지 1억3000만명의 사용자를 모았다. 3억명의 사용자를 모은 B612를 통해서는 하루 평균 1억5000만장의 사진이 찍히고 있다. 매달 45억장의 사진 데이터를 학습하고 있는 셈이다. 지난해 10월 출시된 후발주자 룩스는 700만명의 사용자를 모으며 빠른 성장세를 이어가고 있다.

네이버 내·외부에서는 클로바 시각 AI의 궁극적인 목표가 ‘사람의 미세한 표정만 보고도 기분이 어떤지 파악할 수 있는 수준’까지 가는 것이라고 본다. 만약 클로바가 이 수준에 도달한다면, AI 로봇이 사람에게 “표정이 왜 그렇게 어둡냐”며 걱정해주는 일도 가능해질 것이다.

시각 AI 개발 경쟁은 글로벌 기업들 사이에서도 치열하다. 페이스북은 현재 AI 기반 이미지 인식 기술 ‘루모스(Lumos)’를 통해 이미지는 물론 동영상 내에 무슨 내용이 들었는지 파악하고 있다. 지난해 4월에는 루모스 플랫폼을 기반으로 시각 장애인들에게 이미지의 내용을 음성으로 설명해주는 서비스도 선보였다. 구글 역시 지난해 이미지를 인식해 텍스트로 설명을 달아주는 기술을 선보였다. 이 기술은 구글이 자체 개발한 머신러닝 툴 ‘텐서플로’를 통해 점점 고도화하고 있다.

페이스북과 구글의 시각 AI는 모두 방대한 양의 이미지 데이터 학습을 토대로 발전했다는 공통점을 지닌다. 페이스북은 사용자들이 올린 사진 데이터를 학습해 특정인의 얼굴에 이름을 자동으로 태그해주는 서비스를 제공해왔다. 구글은 이용자들이 이미지와 동영상을 무제한 업로드할 수 있도록 사진 클라우드를 무료로 제공하고 있다.

네이버는 궁극적으로 클로바를 시각과 청각 외에도 촉각·후각·미각 등 오감을 모두 갖춘 ‘만능 AI’로 키워나가겠다는 방침이다.

네이버 관계자는 “오감 AI는 클로바의 방향성이자 장기적인 최종 목표”라며 “촉각과 후각, 미각은 기술의 발달 상황을 보며 천천히 도입해나갈 예정”이라고 말했다.

조선비즈에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT/과학

'오감 AI' 만들겠다는 네이버..실제 기술 수준은?