[일요서울ㅣ홍준철 기자] 바야흐로 ‘빅데이터’(Big Data) 시대가 도래했다. 우리 사회에 폭넓게 퍼져 있는 막대한 인적 정보를 분석해 상관관계를 정확히 보여줌으로써 기업에게는 마케팅 수단이 되고 정치권에는 표심 잡는 수단으로 부상하고 있다. 빅데이터가 여의도에서 주목받게 된 것은 2016년에 벌어진 미 대선 예측과 영국 EU탈퇴 관련 구글 트렌드가 정확한 예측을 하면서부터다. 올해 5월9일 치러진 우리나라 대선에서도 빅데이터를 활용한 예측에서 문재인, 홍준표, 안철수 순으로 예측이 들어맞으면서 기존 여론조사를 넘어섰다는 평가를 받았다. 문재인 대통령 역시 지난 대선에서 ‘빅데이터’를 통해 선거 유세 당시 지역별·연령별·성별 키워드를 분석, 연설문에 적합 단어를 포함시키면서 당선에 적쟎은 도움을 받은 것으로 알려졌다. 정치권에서 부는 ‘빅데이터’ 열풍속으로 들어가 보자.
 
<정대웅 기자> photo@ilyoseoul.co.kr
  - 2017 대선 文 대통령 지역별 유세 빅데이터 활용…지방선거도
- 포털 검색 키워드·웹서핑 모두 기록… 靑·기업, 감시 수단으로

 
“대선 결과가 궁금하면 빅데이터를 들여다봐라! 이런 식의 결과를 내놓을 거면 차라리 여론조사 회사들 문 닫아라!”
 
2016년 11월 8일 트럼프 대통령이 당선된 직후 오랜 기간 사용되던 선거 여론조사가 미국 대선에서 완벽하게 틀리자 CNN이 생방송으로 전했던 말이다. 실제로 기존 여론조사는 허점이 많았다. 일단 표본수가 1000명 남짓으로 적고 응답률도 10% 남짓으로 낮은 게 현실이다. 이런 여론조사의 문제점은 미국 대선에서 극명하게 나타났다.
 
선거 당일까지, ABC, CNN, 뉴욕타임즈, 워싱턴포스트 등 저명한 언론사들은 모두 힐러리 클린턴의 당선을 예측했지만 모두 망신만 당했다. 하지만 선거 결과를 미리 짐작해 볼 수 있는 한 곳이 있었다. 바로 구글트렌드였다. 인터넷 사용자들이 입력한 검색어의 빈도를 비교해 주는 빅데이터 사이트로 구글 트렌드는 트럼프라는 검색어가 클린턴이라는 검색어를 꾸준하게 앞서고 있음을 보여줬다.
 
‘대통령 트럼프’, ‘트럼프 투표’ 등 대통령과 연관된 긍정적 검색어도 트럼프는 클린턴을 앞섰고 결국 미국대통령에 당선되는 이변이 연출됐다. 물론 이런 데이터는 사후적이고 엄밀한 인과관계를 보여주지는 못하는 단점이 있다는 지적을 받고 있다. 하지만 이 또한 정확한 분석은 아니라는 평가다.
 
지난 미 대선에서 트럼프 캠프와 클린턴 캠프 모두 데이터를 분석하고 선거운동 전략을 수립했다. 하지만 ‘승리’를 자신한 클린턴 후보보다 트럼프 대통령이 더 적극적으로 SNS와 온라인을 통한 빅데이터를 활용해 승리했다는 분석이 나오고 있다.
 
클린턴·문재인 ‘빅데이터’
당선에 큰 공헌
 

트럼프 대통령은 선거를 6개월 남겨두고 미국내 최고 데이터 과학자로 불리는 오츠코보스키를 영입했다. 빅데이터 컨설팅 회사인 캠프리지 애널리티카의 대표로 정치캠페인은 물론 기업과 국방 관련 사업에도 참여한 베테랑이었다.
 
그는 세가지 정보 인프라 구축을 목표로 했다. 하나는 역대 선거 결과 등 정치 데이터, 둘째 유권자 성향 데이터, 인구통계학적 데이터, 지리적 데이터 등 ‘공개데이터’ 마지막으로 여론조사, 시장조사 데이터를 빅데이터화했다. 이를 분석해 유권자 표심을 공략해 결국 트럼프 대통령이 당선되는 데 크게 기여했다.
 
지난 5월에 치러진 우리나라 대선에서는 문재인 캠프가 단연 ‘빅데이터’활용에 적극적이었다. 문 대통령은 3월 중순 윤영찬 네이버 부사장을 경선 캠프에 참여시키면서 ‘빅데이터’를 주요한 선거 수단으로 활용했다.

현재 청와대 국민소통수석을 맡고 있는 윤 수석은 당시 SNS본부장을 맡아 대국민 소통전략 분야를 담당했다. 동아일보 기자 출신인 윤 수석은 언론과 포털 경험을 바탕으로 뉴미디어, SNS 분야에서 두각을 나타냈다.
 
문 대통령의 ‘빅데이터’를 활용한 선거전략은 여론조사 결과를 공개할 수 없는 소위 ‘블랙아웃’기간에 빛을 발했다. 당시 문 캠프에서는 유권자들이 검색하는 키워드 중심으로 통계를 잡아내 실제 유권자들이 관심을 가지고 있는 현안에 집중했다. 그 결과 빅데이터 분석 예측에서는 문 대통령의 당선이 유력한 것으로 나타났다.
 
4월7일부터 5월5일까지 한 달간 구글 트렌드 변화를 보면 알 수 있다. 구글트렌드는 검색빈도가 가장 높은 지점을 100으로 정한 뒤 나머지 빈도를 상대적으로 수치화해 보여준다. 이 기간 동안 문 후보는 31에서 100억을 수직 상승했다.
 
같은 기간 자유한국당 홍준표 후보는 12에서 84로 상승했고 바른정당 유승민 후보는 5에서 51, 정의당 심상정 후보는 4에서 30, 국민의당 안철수 후보는 77에서 47로 하락했다. 투표를 앞둔 5월9일 오전 5시 기준 검색량 순위는 문재인-홍준표-안철수-유승민-심상정 순으로 이번 대선 결과를 정확히 맞혔다.
 
올해초 ‘빅데이터’ 서비스를 도입해 임시서비스를 제공중이던 네이버 ‘데이터렙 트렌드’에서도 비슷한 결과가 나타났다. 네이버에서는 특정 검색어가 검색된 횟수를 주간 합산해 조회기간 내 최대 검색량을 100으로 하고 상대적 지표로 표기하는 방식이다.
 
4월10일 안철수 52, 문재인 76, 홍준표 30이었던 검색량은 4월17일 문재인 100, 안철수 81, 홍준표 78로 문 후보가 1위에 올라선다. 그 다음 주인 4월24일에는 문재인 76, 홍준표 68, 안철수 65로 홍 후보마저 안 후보를 제친 결과가 나왔고 대선 결과에서도 마찬가지였다. 안 전 대표는 대선 국면 초반 검색량이 높았다가 선거운동이 본격화된 4월17일 이후 줄어드는 대신 문 대통령의 검색량이 압도적으로 늘어났다.
 
안 전 대표는 4월 중순까지는 그나마 2위를 유지했지만 5월이 되면서 홍 대표에게 밀려 3위로 떨어졌다. 트위터에서도 문 대통령이 대세였다. 올해 초부터 5월 10일까지 트위터의 대선 트윗량은 총 5810만 건에 달했고 문재인을 언급한 트윗이 880만 건으로 후보 중 가장 많았다.
 
결국 구글과 국내 주요 포털 사이트의 빅데이터 예측이 대선 결과를 정확하게 맞힌 셈이다. 이에 문 캠프는 ‘빅데이터’를 선거유세에 십분 활용했다. 윤 수석을 비롯해 SNS 홍보와 여론전에 능한 조한기 현 청와대 의전비서관을 뉴미디어지원단장으로 영입해 선거운동을 벌였다.
 
조 비서관은 18대 대선에서 뉴미디어·SNS 지원단장을 맡았던 인물로 SNS를 통한 홍보와 여론 조성의 핵심적인 역할을 담당했다. 이뿐만 아니라 ‘달빛기사단’, ‘문각기동대’ 등 문 대통령 자발적 지지자들이 포털 검색어뿐만 아니라 파워 트위터 라인을 형성해 사실상 SNS와 온라인에서는 ‘어대문’(어차피 대통령은 문재인)이라는 말이 유행처럼 번지게 만들기도 했다.
 
2017년 대선 결과 순서까지
맞힌 ‘빅데이터’

 
문재인 캠프에서 근무했던 한 인사는 “문 후보가 지역별 선거유세를 하면서 연설문을 작성할 때 빅데이터가 큰 역할을 했다”며 “지역별로 쪼개서 성별·연령별 관심이 높은 키워드를 분석해 연설문에 집어넣었다”고 회고했다. 또한 문 대통령이 언급한 키워드는 포털과 트위터라인에서 검색어 상위를 차지하곤 했다.
 
이에 따라 문 대통령이 1월1일부터 3월 말까지 가장 많이 한 말은 ‘탄핵’(34회), ‘적폐’(32회), ‘정권교체’(27회) 단어를 반복적으로 발언한 것으로 드러났다. 언론진흥재단이 뉴스 빅데이터시스템 ‘빅카인즈’를 사용해 주요 대선 후보들의 발언에서 빈도가 높은 단어를 분석한 결과였다.
 
반면 안철수 전 대표는 ‘정치인’(41회), ‘책임’(37회), ‘개헌’(28회), ‘안보’(21회), ‘일자리’(19회) 단어를 반복적으로 많이 사용했다. 또한 자유한국당 홍준표 대표는 ‘사람’(100회), ‘좌파’(99회), ‘탄핵’(84회) 순으로 주로 사용했다.
 
문 대통령의 ‘빅데이터’를 활용한 선거유세는 현 김부겸 행정안전부장관이 지난 20대 총선에서 대구 수성갑에 출마하면서 도입한 ‘빅데이터 분석기법’이 한몫했다는 시각도 있다. 대구에서 당선된 김 장관은 ‘빅데이터’가 선거유세에서 큰 효과를 보자 지난 대선에서 대구시당을 중심으로 대구 민심을 잡는 데 재차 활용했다.
 
민주당 싱크탱크인 민주연구원과 지방자치데이터연구소(부소장 최정묵)는 ‘대선 마이크로 전략지도 보고서’를 작성했다. 각종 선거 및 여론조사 결과에서 드러난 소극적 지지자 데이터를 기반으로 전국 모든 읍면동을 A~D등급으로 나눴다. A등급일수록 민주당 쪽으로 마음을 돌릴 가능성이 높은 지역으로 분류했다.
 
보고서를 보면 대구는 139개 행정동 가운데 달서구와 수성구에 친민주당 성향의 소극적 지지자가 가장 많은데, 그중 ‘달서구 연립주택 거주 40~44세 남성’이 민주당의 집중 공략 대상으로 꼽고 선거 유세를 벌였다.

소극적 지지자를 성별, 연령, 선거인수, 주택유형, 주거면적 등으로 분석해 연령대가 낮은 중산층, 즉 40세 이하 아파트 거주자들은 이미 상당수가 민주당을 지지했으나 집중 공략 대상은 아직 마음을 정하지 못했기 때문이었다.
 
결과적으로 문 대통령은 전국 대다수 지역에서 홍 대표와 안 전 대표에게 앞섰지만 대구.경북.경남에서 홍 대표에게 뒤졌다. 특히 대구는 홍 대표가 47.2%, 문 대통령이 20.7%, 안 전 대표가 17.4%로 2위를 차지했다.
 
아직 빅데이터를 활용한 선거운동이 초기 단계인 점과 보수 색이 짙은 지역이라는 점에서 최신 기법이 큰 효과를 보지는 못했지만 ‘중도 보수’를 표방한 안 전 대표에게 ‘진보’를 표방한 문 대통령이 다소 앞섰다는 점에 대구시당은 의미를 뒀다.
 
이처럼 빅데이터는 기업 마케팅뿐만 아니라 선거에서도 과학적 마케팅 기법으로 주목을 받으면서 향후 지방선거에서도 민주당은 적극 활용하겠다는 복안이다.
 
정부와 기업은 정치 영역보다 훨씬 빠르게 도입했다. 다수 대기업의 핵심부서는 이미 직원이 이용하는 PC에 관련 앱을 깔아놓고 컴퓨터가 켜져 있는 동안 직원이 웹서핑을 하면서 검색한 단어, 웹페이지, 머문 시간을 기록, 수천 페이지에 달하는 자료를 보관하고 있는 것으로 알려졌다.
 
만약 주식 관련 단어나 야동을 장시간 볼 경우 경고, 면직 등 징계를 내리는 수단으로 활용하고 있다. 청와대·국정원 등 고위 국가직 공무원 역시 PC뿐만 아니라 정부에서 준 휴대폰을 통해 통화내역, 검색단어, 사이트 등이 고스란히 기록되는 것은 공공연한 사실이다.
 
“미래를 알고 싶다면,
빅데이터를 보라”

 
우리 일상생활에도 빅데이터를 활용한 예는 얼마든지 있다. 대표적인 것이 2013년 개통한 서울시 심야버스 노선도다. 그 과정을 보면 우선 심야시간대의 서울시민 통화량 등을 이용해 서울시 각 지역의 유동인구 밀집도를 수집하고 이를 분석한다.
 
그리고 결과에 따른 최적의 노선을 도출한다. 이렇게 도출된 노선을 기준으로 다시 한번 유동인구 빅데이터를 이용해 배차 간격을 조절한다. 이러한 과정을 거처 탄생한 심야버스는 하루 평균 1000명 이상으 승객이 이용하고 있다.
 
이처럼 선거뿐만 아니라 우리 일상생활에 빅데이터의 활용도는 점점도 높아질 것이라는 게 전문가들의 입장이다. 전문가들은 “미래를 알고 싶다고? 그렇다면 빅데이터를 보라!”고 자신있게 말하고 있다.
저작권자 © 일요서울i 무단전재 및 재배포 금지