[연중 기획 혁신창업의 길] AI 핵심은 데이터..수집·가공 능력이 성패 갈라

최은경 입력 2022. 6. 3. 00:32 수정 2022. 6. 3. 06:12
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.


R&D 패러독스 극복하자 (24) 신호욱 셀렉트스타 대표


좋은 요리를 하려면 신선한 재료가 필요하듯 높은 수준의 인공지능(AI) 기술을 개발하려면 양질의 데이터 확보가 필수적이다. AI 분야의 세계적 석학으로 꼽히는 앤드류 응 미국 스탠퍼드대 교수 역시 ‘모델에서 데이터 중심으로의 AI로(From Model-centric to Data-centric AI)’라는 화두를 던지며 데이터의 중요성을 꾸준히 강조해왔다.

문제는 AI 기술을 개발할 때 데이터 수집·식별·정제 등 단순 반복 작업에 약 80%(업계 추정)의 시간과 비용을 써야 한다는 점이다. 이를 해결하기 위한 AI 데이터 수집·가공 시장은 점점 커지고 있다.

「 AI 학습데이터 가공 플랫폼 개발
사외 21만명이 사진·영상 등 분석

이세돌 이긴 알파고 보면서 착안
창업 4년 만에 200개 고객사 확보

KAIST 학부·졸업생 넷이 창업
2년 전엔 미국 현지법인도 차려

모바일·PC로 프로젝트에 참여

신호욱 셀렉트스타 공동대표가 지난달 31일 서울 강남구 테헤란로에 있는 사무실에서 인공지능(AI) 데이터 수집·가공 플랫폼에 대해 설명하고 있다. 우상조 기자

셀렉트스타는 이런 고민으로 창업에 나선 회사다. AI 학습데이터 수집·가공 플랫폼인 ‘캐시미션’을 개발해 운영하면서 창업 4년 만에 연 50억원대 매출을 올리고 있다. 일반 대중이 참여할 수 있는 크라우드소싱 방식이다. 셀렉트스타가 기업의 데이터 생산 프로젝트를 의뢰받아 캐시미션에 올리면 모바일이나 PC로 접속한 작업자들이 프로젝트를 선택해 참여할 수 있다.

작업자들은 사진·영상·텍스트 등을 수집하거나 레이블링(수작업 표시), 분류하는 작업을 수행한다. AI는 사람이 수작업한 데이터를 보고 따라 하면서 지능을 얻는다. 가령 자율주행용 AI 카메라 개발 시 먼저 자동차가 도로를 주행하는 사진이나 영상을 모은다. 그런 다음 자동차가 자리한 곳에 수작업으로 경계 상자(bounding box)를 그려준 뒤 자동차라고 태그를 입력해주면 AI가 위치와 종류 등을 학습해 자율주행 카메라로 기능을 수행할 수 있게 된다. 이 과정에서 수작업한 데이터를 ‘학습데이터’, 수작업을 ‘레이블링’이라고 한다.

캐시미션에서는 친근하게 업무를 수행할 수 있게 작업자를 ‘요원’, 프로젝트를 ‘미션’이라고 부른다. 요원은 테스트를 거쳐 미션을 수행하며 결과물이 검수를 통과하면 현금으로 보상받는다. 셀렉트스타에 따르면 한 달 10만~30만원을 보상받는 작업자가 가장 많으며 최고 한 달에 300만원 정도 버는 작업자도 있다.

지난달 31일 서울 강남구 테헤란로 본사에서 만난 신호욱(27) 셀렉트스타 공동대표는 “AI를 어떻게 만들까 고민하던 시대에서 데이터를 어떻게 가공해야 할지 고민하는 시대로 바뀌고 있다”며 “2016년 구글의 AI 알파고와 이세돌 선수의 바둑 대결 이후 AI에 대한 관심이 높아졌고, 행동에 따라 보상해주는 앱이 유행해 이 둘을 결합했다”고 창업 배경을 소개했다.

“데이터 품질 관리가 최고 경쟁력”

AI 학습데이터 수집·가공 사업이 기존에 없던 새로운 것은 아니다. 류석영 한국과학기술원(KAIST) 전산학부장은 “이 사업에서는 무엇보다 품질 관리가 중요한데 셀렉트스타는 자체 개발한 시스템을 통해 데이터 품질을 높이고, 작업 효율성을 키웠다는 점에서 남다르다”고 평가했다.

그래픽=김은교 kim.eungyo@joongang.co.kr

대표적으로 작업자와 검수자의 신뢰도를 추론하는 수학적 알고리즘을 들 수 있다. 보통 기존의 데이터 검수는 숙련된 작업자 중 최소 3명의 선별된 검수자가 다수결로 통과 여부를 결정한다. 신 대표는 “이때 제대로 보지도 않고 통과·탈락을 누르는 사람들이 있는데, 셀렉트스타는 자체 개발한 알고리즘으로 작업자·검수자마다 신뢰도를 부여한다”며 “이를 기반으로 가중치를 두고 신뢰도가 높은 작업자가 검수한 작업은 교차 검수를 하지 않아 검수 비용을 낮출 수 있다”고 설명했다.

딥러닝을 활용한 ‘유사 데이터 수집 필터링’ 기술로 데이터의 유사성을 판별해 중복 데이터도 걸러준다. 또한 보통 물체 경계면을 따는 데 시간이 오래 걸리는데 셀렉트스타는 ‘AI 반자동 레이블링’ 기능을 통해 물체가 포함되게 상자를 그린 뒤 클릭하는 것만으로 경계선에 맞게 레이블링 되도록 했다. 신 대표는 “현재는 약간의 세부적 수작업이 필요하지만 작업량을 늘려 정확도를 높이고, 속도를 점점 빠르게 하는 것이 목표”라고 말했다.

이 밖에도 학습 데이터의 품질을 높이기 위한 다양한 시스템을 고안했다. 데이터 작업의 일관성을 위해 전문 가이드라인팀이 다양한 변수에서 발생하는 문제를 분석해 작업 원칙을 정하고, 구체적인 맞춤 가이드라인을 작업자에게 제시한다. 작업자의 수행 능력을 일정하게 유지하기 위해서는 작업 전 고난도 테스트를 할 뿐 아니라 작업 자격을 갖춘 작업자라도 수시로 정확도를 점검하고, 정확도가 일정 이하로 떨어지면 작업 자격을 빼앗는다. 정확도에 따라 한 번에 참여할 수 있는 미션 수를 제한하기도 한다.

올인원 데이터 플랫폼 구축 목표

이런 기술 경쟁력을 발판 삼아 셀렉트스타는 AI 데이터 수집·가공 업계의 선두주자로 자리 잡았다. 삼성전자·삼성SDS·네이버·SK텔레콤·LG CNS·롯데정보통신 등 약 200개 기업을 고객사를 두고 있다. 지난해 계약으로 발생한 매출은 58억6000만원, 미션을 수행하는 작업자는 21만 명에 이른다. 누적 투자액이 44억원으로 쌓이는 동안 구성원도 90여 명으로 늘었다. 2020년에는 미국 현지법인을 설립해 해외에서도 성과를 내고 있다.

셀렉트스타는 학습 데이터를 제공하는 현재 비즈니스 모델을 넘어 데이터 기획-수집-가공-학습-서비스 론칭의 과정을 반복하는 AI 개발 전 주기에서 학습 데이터와 관련한 모든 문제를 해결할 수 있는 ‘올인원 데이터 플랫폼’ 구축을 목표로 한다. 신 대표는 “문제 해결과 검수, 관리, 작업자 교육 등에 초점을 맞춘 것이 차별점”이라고 말했다.

AI 기술은 하루가 다르게 발전하고 있다. “창업 초기만 하더라도 자동차 번호판에 경계 상자를 치는 정도의 난도가 높지 않은 프로젝트가 많았습니다. 이제는 해가 갈수록 작업 기준이 정교해지고 전문성이 있어야 하는 일이 많아요. 시장의 니즈를 파악했으니 안정적으로 운영해야겠다 싶으면, 시장은 더 새로운 기술과 방법을 내놓으라고 하는 거지요.”

종잣돈 1000만원으로 5평에서 시작

투자 전문가는 오히려 이런 외부 상황이 셀렉트스타의 강점을 돋보이게 할 것으로 기대했다. 이 회사에 투자한 카카오벤처스의 김기준 부사장은 “AI 데이터 시장은 훨씬 더 세분화하고 고도화할 것”이라며 “이런 환경 속에서 셀렉트스타가 고품질·효율화를 위한 자체 툴을 지속해서 개발하는 것은 큰 의미가 있다”고 말했다. 이어 “구성원들이 학부 시절부터 딥러닝을 수족처럼 다루던 ‘딥러닝 네이티브’인 것 역시 경쟁력”이라며 “점점 데이터 품질을 높이고, 지속해서 고품질의 데이터를 공급할 수 있는 구조를 마련하는 것이 중요해지는 만큼 선제적으로 AI 기업들의 고민을 파악하고, 반발 앞서 나간다는 점이 돋보인다”고 덧붙였다.

이 회사는 신 대표(전산학과·정보경영 석사)와 김세엽 공동대표(27, 전기및전자공학과), 전하승 개발 리더(28, 전산학과), 전문휘 프로덕트 오너(26, 산업디자인학과) 등 4명의 KAIST 학부생과 졸업생이 모여 2018년 11월 창업했다. 이들은 지난해 포브스 아시아가 선정하는 ‘30세 이하 리더’에 꼽히기도 했다.

신 대표는 KAIST 화학과를 나와 같은 전공으로 대학원에 입학을 기다리다 ‘안정적이고 무난한 삶이지만 정말 내가 가고 싶은 길이 맞나’를 고민하면서 창업의 길로 들어섰다. “가르쳐주는 대로 배우고, 시험 봐서 학점을 얻는 수동적 삶을 벗어나고 싶었습니다. 전산학과 복수 전공을 결정한 뒤 의사·약사·변호사·변리사·행정공무원 등 여러 다른 길을 생각해봤던 것도 사실입니다. 하지만 근본적 고민을 해결하지 못하던 때 (공동창업자인) 김세엽 대표로부터 창업 제안을 받았습니다.”

동아리·학생회 캠프 등에서 알음알음 동기·선후배를 모아 초기 자본금 1000만원으로 KAIST 창업원의 16㎡(약 5평) 남짓한 공간에서 회사를 시작했다. 직원 수가 많아져 대전 유성고속터미널 옆 10배 규모의 사무실을 거쳐 인재 영입을 위해 2020년 테헤란로에 자리 잡았다.

회사 철학은 신뢰·충돌·헌신

현재 임직원의 평균 연령은 30대 초반이다. 회사에서 방을 따로 가진 임직원은 없다. 회사의 중요한 철학 중 하나는 ‘신·충·헌(신뢰·충돌·헌신)’으로 감정의 충돌이 아닌 의견의 충돌은 불가피하며, 충돌로 만들어낸 합의를 실행하기 위해 헌신하자는 뜻이다. ‘코어 타임’ 제도도 운용하고 있다. 오후 1~5시까지만 사무실에 출근해 함께 일하고, 나머지는 자유롭게 일한다. 어디서든 출근하면서 업무 프로그램 메신저에 ‘ㄱㄱ’, 퇴근하면서 ‘ㅃㅃ’라고 치면 자동으로 근무시간이 집계된다.

학생 창업자이기도 한 신 대표는 대학생 창업 활성화를 위해 무엇보다 자본시장에 대한 이해도가 중요하다고 강조했다. 기술을 기반으로 한 창업이라 해도 기본적으로 기업을 운영하기 위해 기업가정신과 자본시장에 대한 이해가 필요하다는 설명이다. 신 대표는 이런 어려움을 극복하기 위해 KAIST 출신 창업자 선배 30명을 만나 답을 얻을 때까지 질문했다고 한다.

“우리나라 학생은 전공자가 아닌 이상 교육 과정에서 자본시장에 대한 지식을 얻기 어려워요. 초·중·고 정규 교육 과정이나 대학 필수교양 과목에 이를 포함하면 공학도의 창업을 장려하는 분위기가 자연스럽게 형성되고, 창업 성공률도 획기적으로 높아질 겁니다.”

최은경 기자 choi.eunkyung@joongang.co.kr

Copyright © 중앙일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?