정치

트럼프 당선 예측한 빅데이터..文 30~40%, 洪·安 21%, 劉 12%

신현규,강계만 입력 2017.05.05. 17:46 수정 2017.05.06. 00:12
글자 크기 조절 레이어
감성지능, 87만 데이터 분석, 대선후보별 연관 검색어는 文-낙서장, 安-지지율
文 30%, 洪 21%, 安 16%, 劉 18%로 급등..깜짝 3위
劉, TV토론날 27%까지 치솟아

◆ 대선 D-3 / 매경 대선후보 빅데이터 분석 ◆

대선을 닷새 앞둔 지난 4일까지 인터넷 빅데이터로 분석한 대선 후보에 대한 관심도는 문재인 더불어민주당 후보가 30% 수준으로 선두인 것으로 나타났다.

홍준표(자유한국당)·안철수(국민의당) 후보의 인터넷 화제성은 20% 내외에서 정체됐다. 유승민 바른정당 후보는 최근 소속 의원들의 탈당과 TV 합동토론회 긍정 평가 등의 이슈로 인해 급격하게 주목도를 높이고 있다.

5일 매일경제 레이더P 의뢰로 빅데이터 분석업체인 굿데이터코퍼레이션이 대선 후보들의 인터넷상 관심도를 보여주는 화제성 점유율(레이더P 대선 빅데이터)을 일간으로 분석한 결과 문 후보는 지난 1일 26.65%에서 2일(21.9%) 주춤했다가 3일(40.35%)과 4일(30.43%)에 다시 선두로 치고 올라왔다. 홍 후보는 지난 1일 각종 파격적인 발언을 통해 화제성 점유율에서 27.45%로 문 후보를 근소하게 앞섰으나 이후 하락세를 보이면서 4일에는 21.34%에 그쳤다. 4월 중순만 해도 20%를 훌쩍 넘던 안 후보의 점유율은 점차 하락해 5월 들어서는 14~20%에서 맴돌았다.

유 후보는 지난달 대부분 한 자릿수 점유율에 머물렀지만 최근 들어서는 10% 이상을 꾸준히 유지하고 있다. 1일에는 12.56%였다가 마지막 TV 합동토론회가 있었던 2일에는 27.04%까지 치솟아 일일 기준 소셜네트워크서비스(SNS)에서 가장 주목받았다. 이어 3일에는 11.24%였고 4일에는 다시 올라 18.54%로 3위를 차지했다. 일별로 변동이 있지만 전반적으로 상승세를 탄 모습이다.

심상정 정의당 후보도 비슷하다. TV 토론 당일과 직후에는 점유율이 커졌다가 곧 빠지는 모습이었지만 지난 1일 이후 10%대를 꾸준히 유지하고 있다. '레이더P 대선 빅데이터'는 포털사이트, 트위터, 페이스북, 유튜브, 뉴스·댓글 등에서 각 대선후보 이름이 제목에 언급된 기사·게시물·댓글 수와 동영상 조회 수 등을 통해 화제성 점유율을 추출해낸 것으로, 인터넷상 각 후보들에 대한 관심도를 보여주는 수치다. 뉴스·댓글은 네이버 온라인 기사와 그에 달린 댓글 수, 포털은 네이버·다음 블로그와 카페에 올라온 글과 댓글 합계, 페이스북은 후보 페이지의 '좋아요' 수와 동영상 조회 수, 트위터는 전체 트윗과 리트윗 합계, 유튜브는 동영상 조회 수로 측정했다.

미국 도널드 트럼프 대통령 당선을 예측했던 빅데이터 분석업체인 비피유홀딩스가 감성지능(EI)을 이용해 트위터, 페이스북, 블로그, 유튜브 등 87만여 개 빅데이터를 살펴본 결과, 5월 들어 문 후보의 게시물 비중이 30~40%를 오가며 가장 많았다. 홍·안 후보의 게시물은 각각 20% 내외에 그쳤고 유 후보의 관심도는 최근 상승 추세다.

4일 기준 게시물 비중을 살펴보면 문재인(35.4%), 안철수(21.86%), 홍준표(21.04%), 유승민(12.48%), 심상정(9.17%) 후보 순이다. 오상균 비피유홀딩스 대표는 "문 후보 게시물은 30% 초중반 점유율로 지속적인 상승 추세이고, 홍 후보 게시물량은 주춤해졌으나 20%대를 유지하고 있다"며 "5월 3일 이후 유 후보 관련 게시물이 늘어나고 있다"고 설명했다.

비피유홀딩스가 4월 11일~5월 4일 후보별 연관검색어를 분석해보니 문 후보는 낙서장, 안철수, 동영상, 저작자, 저작물 등의 단어가 함께 따라왔다. 낙서장의 경우 문 후보의 안보관을 주로 공격하는 내용이 많은 네이버블로그의 메뉴 이름이다. 문 후보의 유튜브 동영상이 인기를 끌다보니 연관검색어로 동영상이 연결됐고, 저작자의 경우에는 문 후보 유세송이 인터넷상에서 관심도가 높았기 때문이다. 아울러 박근혜, 동성애, 필패입니다라는 단어도 문 후보 이름과 같이 많이 등장했다.

안 후보의 연관검색어로는 지지율, 심상정, 홍준표, 유승민, 대선후보 등으로 많이 등장했다. 문 후보와 양강구도를 펼치다가 최근 지지율이 하락한 것이 SNS에도 영향을 미친 것으로 보인다. 특히 안 후보의 배우자인 김미경 서울대 의대 교수도 많이 거론됐는데, "남편은 불순물이 들어가지 않은 사람"이라는 김 교수의 발언이 지지자로부터 호응을 받은 덕분이다.

홍 후보 연관검색어에는 안철수, 자유한국당, 유승민, 심상정, 대선후보 등이 우선적으로 나왔다. 중도보수층을 놓고 경합하는 후보들과 함께 인터넷에서 많이 거론된 것이다. 아울러 경남지사, 단일화, 트럼프 등의 단어도 홍 후보를 많이 따라다녔다.

유 후보와 심 후보는 경쟁 후보 이름뿐만 아니라 토론회라는 단어가 연결되어 주로 검색됐다.

빅데이터 분석은 최근 여론조사 대안으로 각광받고 있다. 특히 지난 3일부터 여론조사 공표가 금지된 상황에서 빅데이터는 유권자 표심을 가늠할 수 있는 유일한 창구다. 그러나 선거관리위원회는 "빅데이터 수집과 분석 결과는 공직선거법에서 규정한 여론조사에 해당하지 아니한다"며 "후보자의 관심도 등을 간접적으로 알 수 있는 정도에 그치는 포털사이트의 검색 빈도, SNS의 게시물 수 등을 수집 분석한 것"이라고 밝혔다.

[신현규 기자 / 강계만 기자]