보고, 듣고, 읽고/보고, 듣고, 읽고 등

빅데이터 승리의 과학

최윤호 2014. 3. 18. 23:12
반응형

빅데이터 승리의 과학. 빅데이터는 당신이 무엇을 선택할지 알고 있다

 

저자 : 고한석

출판사 : 이지스퍼블리싱

출판일 : 2013.04.25

 

2012년 미국 대선에서 오바마는 재선에 성공한다. 2008년같은 신선함과 인기는 없었지만, 4년 전의 경험과 1년 6개월이라는 상대적으로 매우 긴 준비기간을 무기로 마침내 승리한다.

그리고 그 경험과 기간은 오바마 캠프로 하여금 "선거운동의 모든 것을 숫자로 측정할 것"이라는 총책임자 짐 메시나의 선언을 충실하게 뒷받침한다.

 

책은 2장 유권자 데이터베이스 구축 과정, 3장 IT 인프라 개발과 운영, 4장 빅데이터 분석과 마이크로 타기팅, 5장 행동과학과 실험주의, 6장 빅데이터로 무장한 현장 자원봉사자들로 구성되면 서장에 가까운 1장과 롬니와의 비교인 7장, 마무리 8장으로 구성되어 있다.

 

사견으로 이 책에 적절한 제목은, "빅데이터 마이크로 타겟팅"이라 생각한다.

 

... 오마바 캠프의 최고기술책임자(CTO : Chief Technology Officer)인 하퍼 리드가 겸손하게 말하였듯이 테크놀로지는 '화력 증강자'(force multiplier)일 뿐이다. 승리하기 위한 전략과 이를 구체적으로 표현한 핵심성과지표(KPI : Key Performance Index)가 명확할 때만이 빅데이터는 의미를 가진다. 전략과 목표가 없는 빅데이터는 '빅 쓰레기더미'(Big Garbage)일 뿐이다. '무엇'을 '왜' 하는지 확실할 때 '어떻게' 할지도 알 수 있다.

 

... 1990년대 후반에야 공화당 전국위위회는 '보터볼트'(Voter Vault, '유권자 창고'라는 뜻)라는 이름의 전국 유권자 데이터베이스를 구축하게 되었고, 2002년부터 각종 선거에 활용하기 시작했다. 2004년 무렵에 이 데이터베이스에는 약 1억 6,800만 명의 유권자 정보가 입력되어 있었다.

 

... 2001년에 민주당 ... 2002년에 그는 각 주위원회에 유권자 등록 파일을 빌려주면 그 파일에 기부자 정보나 전화번호 같은 새 정보를 추가로 입력해서 돌려주겠다고 제안을 했다. ... 2004년에 데이터마트는 보트빌더(VoteBuilder)라는 이름으로 확대 개편되었다. 보트빌더에는 선관위에 등록된 약 1억 6천 6백만 명의 유권자 정보가 저장되었으며, 각 유권자마다 200개에서 400개의 정보가 담겨 있었다.

 

... NGP-VAN. 이후 이 회사는 민주당의 각종 선거에서 유권자 데이터베이스와 함께 선거운동 소프트웨어 서비스를 제공하는 가장 큰 업체로 성장하였다.

... 액시엄(Acxiom). 1969년에 설립된 이 업체는 민주당 전국위원회가 컴퓨터를 이용해 후원금 기부자 명단을 효율적으로 관리하는 것을 돕기 위해 만들어졌다. ... 그런데 개인정보가 쌓이자 정치권보다는 비지느시 업계에서 그 가치를 먼저 발견하고 고객이 되었다. ... 미국 성인의 대다수인 2억 명을 포함하여 전 세계 5억 명의 소비자에 대한 정보를 저장하고 있다. 저장된 개인 한 명당 정보가 약 1,500종에 이를 만큼 그 양도 방대하다.

... 인포USA. 전국에 흩어져 있는 바이어 업체들의 명단과 주소를 정리하는 것에서 시작해서 약 2억 3,500만 명의 소비자에 대한 정보와 2,400만 개의 업체에 대한 정보를 축적하고 있다.

 

... 오바마 캠프의 고급 엔지니어 클린트 에커(Clint Echer)는 "지난번 선거에서 가장 큰 문제점 중 하나는 수많은 사람들이 현장에서 자원봉사하면서 이곳 저곳에서 조악한 프로그램을 만들어 사용하다 보니 똑같은 일을 몇 번씩이나 반복해야 했던 점"이라고 했다.

 

... '평균 초당 4GB의 용량을 처리, 1초당 1만 개의 작업요청을 수행, 2천대의 서버, 3개의 데이터센터, 180 테라바이트의 저장용량과 85억번의 작업 요청. 선거를 위해 583일 동안 설계하고 구현하고, 해체했다. - 오바마 테크놀로지팀의 운영(DevOps) 그룹 리더였던 스콧 반덴플라스(Scott VanDenPlas) 트윗

 

... 테크놀로지팀이 개발한 애플리케이션들은 새 판을 벌여 처음부터 일일이 개발하기보다는 AWS에서 제공하는 각종 기능적 서비스들을 적극적으로 이용한 것들이었다. 즉 단순 큐 서비스, 비구조화된 데이터를 다루는 다이나모DB(DynamoDB), 단순 이메일 서비스(SES: Simple Email Service),  관계형 데이터베이스 서비스(RDB: Relation Database Service), 가상 사설 클라우드(VPC: Virtual Private Cloud), 단순 알림 서비스(SNS: Simple Notification Service), 콘텐츠 전송용 웹서비스인 클라우드 프론트(CloudFront) 등과 같이 AWS가 제공하는 거의 모든 서비스들을 적극 활용하였던 것이다.

테크놀로지팀은 뭔가 매우 새로운 것을 창조하는 것에 집중하기보다는 잘 작동하는 것으로 확인된 것들을 취하고 그것들을 한데 묶어내는 데 초점을 맞추었다고 리드는 말했다.

 

... 대통령 선거는 그 날짜를 미룰 수도 없고, 그 한번으로 4년간 국가의 운명이 결정되는 '절대과제'(mission critical)였다. 모든 애플리케이션과 기능들은 11월 6일인 투표일을 한 달여 앞둔 10월 1일로 마감기한을 정해 개발되었고, 이날까지 완료할 수 없다고 판단되는 기능들은 과감히 포기하였다.

10월로 접어들어서는 더 이상 기능을 추가하지 않고 개발이 완료된 시스템을 안정화시키고 공고기 하는 데 집중하였다. 투표일이 다가오면서 트래픽은 기하급수적인 팽창을 거듭하며 매일매일 기록을 경신했다.

 

... 1974년에 민주당을 지원하는 단체인 '효율적인 의회를 위한 국가 위원회'(NCEC)는 최소한의 투표통계를 얻을 수 있는 소지역 단위로 그곳에 사는 유권자들의 성향을 규정하는 작업을 했다. ... 첫째는 '문지둥 선호지수'였다. ... 둘째는 '변동성 지수'였다. ... 셋째는 '투표참여 점수'이다. ... 중도층 유권자들을 자기편으로 만들기 위해 변동성 지수와 투표참여 점수가 높은 투표소 관할구역을 대상으로 선거운동을 진행하였다.

 

... 선거캠프는 먼저 액시엄 등의 소비자 데이터베이스 업체로부터 소비자들의 라이프 스타일 정보를 최대한 확보하였다. ... 선거캠프에서 가지고 있는 유권자 DB의 우편번호, 성별, 연령과 대조하면 그 범위가 매우 좁혀지고 여기에 몇 가지 특징만 더 파악이 되면 거의 개인별 확인이 가능해진다.

 

... 버락오바마닷컴을 방문햇을 때 쿠키 앱을 허용하도록 유도하였다. ... 가입자의 PC에 저장된 쿠키 앱에서 전송되는 웹사이트 방문과 관련된 온라인 활동 정보도 통합하여 유권자 데이터베이스에 기록하였다.

 

... 군집분석. ... 로빈은 라이프 스타일이 비슷한 사람들을 묶어냈다. 그리하여 전국의 36,000여 개의 우편번호 구역을 가상의 공동체인 40개의 '집단'으로 재분류하였다.

 

... 연관성 분석. 지지도, 신뢰도, 향상도 세 기준이 존재한다. ... 케이블TV 채널, 맥주 브랜드 등을 통해 선호하는 당과 투표 가능성 여부를 분석할 수 있다.

 

... 회귀분석. 오바마 지지 가능성 = 8 x 인종(백인 1, 흑인 2) + 4 x 성별(남성 1, 여성 2) + 0.4 x (40 - 연령) + 5 x 거주지역(농촌 1, 대도시 교외 2, 대도시 도심 3) + ...

 

... 군집분석을 통해서 라이프 스타일별로 묶어낸 그룹들을 상대로 일일이 회귀분석을 진행하여 그 그룹의 구성원들에게 영향을 미칠 만한 이슈들을 찾아내었다. ... 그리고 이러한 분석이 실제로 정확한지 검증하기 위해 전화로 면접조사를 하였다. ... 회귀식 모델에 근거하면 이렇게 할 경우 응답자들의 오바마 지지 정도가 평균적으로 0.25점이 증가해야 한다고 가정하자. 그런데 만약 실제 전화면접조사 결과 0.17점만이 증가한 것으로 확인되면 데이터 분석팀은 그 결과를 반영하여 회귀공식을 정교하게 수정하였다.

 

... 첫번째 점수는 오바마 지지 예상 점수(supporting score), 두번째 점수는 투표 예상 점수(turnout score), 세번째 점수는 설득 가능성 점수(persuasibility score)이다. ... 오바마 지지 예상 점수와 투표 예상 점수가 높은 유권자는 강한 오바마 지지자이르모 특별한 선거 활동을 하지 않는다. 점수가 너무 낮은 유권자는 강한 상대장 지지자이거나 투표에 참여하지 않을 가능성이 높은 유권자로 역시나 선거 활동을 하지 않는다. 이 사람들을 따로 추려낸 다음 설득가능성 점수가 높은 순서대로 재배열하고 다시 그들을 지역별로 분류하면 각 지역에서 선거운동의 주대상으로 삼아야 할 유권자 대상, 즉 마이크로 타기팅 목록이 나온다.

 

... 2008년 선거가 끝나고, 오바마 캠프의 '선거운동 평가 태스크포스팀'은 2012년 선거에서는 절대로 그러한 상황이 다시 발생해서는 안 된다고 생각했다. ... 그들은 보고서를 통해서 기업의 고객관리시스템(CRM)과 비슷한 '유권자 관계 관리 시스템'(CRM: Constituent Relationship Management system)을 개발할 것을 권고하였다. 이 시스템은 선거캠프의 모든 요원들이 각 개인들을 단순히 유권자, 혹은 자원봉사자, 혹은 후원금 기부자, 혹은 웹사이트 이용자 중 하나로 제각기 이해하는 것이 아니라 한 명의 고유한 사람 그 자체로 대면할 수 있게 통합해 주어야 했다.

 

... 17세기 영국 경험주의 철학자 프랜시스 베이컨은 "확신을 가지고 시작하면 위혹으로 끝나지만, 의혹을 가지고 시작하면 확신으로 끝난다"고 말하면서 실험에 기초한 귀납법적 연구를 강조하였다.

 

... 캠프의 최고분석책임자인 댄 와그너는 후원금 모금부서에서 홍부부서에 이르기까지 선거운동본부의 다른 부서들을 순회하면서 "데이터를 통해서 그들의 문제를 해결하는 것"을 도와주었다. 그는 팀원들 사이에서 '동굴'로 통했던 창문 없는 분석팀 사무실에서, 54명으로 늘어난 분석팀이 캠프 내 다른 부서들을 고객으로 삼는 '조직 내 컨설턴트'(in-house consultancy)가 되는 것을 상상하였다.

 

... 여론조사 및 광고 지출을 담당했떤 테리 윌쉬는 "이번 선거운동에서 매체 광고 계약의 혁명은 브로드캐스트(Broadcast) 매체를 마치 내로우캐스트(Narrowcast) 매체처럼 보이게 만들었다는 점"이라고 말했다. 오바마 캠프는 광범위한(Broad) 무작위 대중이 아닌 타깃의 범위를 좁힌(narrow) 광고를 함으로써 캠프의 비용을 대폭 절약하면서 광고의 효과까지 거두는 두 마리 토끼를 잡을 수 있었던 것이다.

 

... 데이터 분석팀은 특정한 이슈가 발생하면 이러한 텍스트 마이닝을 이용해 그에 대한 실시간 언급들을 분석하고 보고함으로써 언론뉴스의 보도 주기보다 한발 앞서서 대응전략을 세울 수 있도록 캠프의 핵심인물들에게 통찰력을 제공하였다.

 

... A/B 테스트. 홈페이지 첫 화면 이미지와 동영상, 버튼 텍스트. 이메일 제목과 내용. 후원금 홈페이지 구성과 작동방식, 문자 메시지 발송의 적절한 시간대 등을 무작위로 비교실험

 

... "우리는 기본적으로 우리들의 직감이 아무런 가치도 없다는 것을 깨달았다"고 선거 후 평가모임에서 말했다. 또한 개별 아이템이 좋은 반응을 얻었다고 해서 그것들을 한데 모아놓았을 때도 좋은 효과를 얻는다는 보장은 없다는 걸 알게 되었다면서, 오히려 반대의 경우가 더 많았다고 평가하였다. 그리고 각기 다른 곳에서 가져온 부분들을 조합했을 때 괴물이 탄생한다는 의미에서 이러한 현상을 "프랑켄슈타인 효과"라고 표현하면서 이를 예방하기 위해서는 "모든 것을 테스트해야 한다"고 강조했다.

 

... "첫번째 실험에서는 어쩌면 아무것도 알지 못할 수 있다. 그러나 20번째 무작위 실험에 이르게 되면 '이 그룹이 더 많이 반응한다'고 말할 수 있게 된다. 이때부터는 그냥 머릿속으로 추측하는 것보다 더 나은 결과를 얻게 된다."

 

... 조직 내 소셜 네트워크 서비스: 내셔널필드. 이메일과 스프레드시트를 대체하고, 사용이 쉬우며, 실시간이고, 소셜이 핵심 기능이 되는 플랫폼을 만들어 현장에서 활동하는 자원봉사자들이 사용하게 만들었다. ... 자원봉사자들은 몇 명의 유권자를 만났고 몇 통의 전화홍보를 했으며 후원금을 얼마나 모았는지에 대한 보고를 더 이상 이메일이나 종이 등으로 제출할 필요가 없었다.

 

... 모바일 선거운동 사무소: 대시보드. 자원봉사자들은 대시보드를 통해서 오바마 캠프의 데이터베이스에 자신들이 접촉한 유권자에 대한 정보를 현장에서 바로 입력할 수 있었으며, 새로 입력한 최신 정보가 포함된 분석 결과를 역시 대시보드를 통해서 실시간으로 접할 수 있었다. 대시보드가 있었기 때문에 현장에서 데이터 입력 -> 클라우드 컴퓨팅 센터로 데이터 저장 -> 데이터 분석팀에서 분석모델 구축 -> 데이터 분석 결과를 현장에서 활용 -> 현장에서 활용한 결과를 다시 데이터로 입력 -> 더 정교해진 데이터 분석 모델이라는 '데이터 선순환 사이클'을 전국적 범위에서 만들어낼 수 있었다.

 

... 누워서도 가능한 전화홍보: 가상 콜센터. 지역과 주제를 선택하면 해당 지역에서 그 주제에 관심을 보일 만한 사람들을 뽑아 전화를 걸 수 있게 해 주고, 통화 연결시 기본 대화와 주제별 대본(스크립트)이 스마트폰 화면에 자동으로 뜬다. ... 통화 종료 후 결과를 저장한다.

 

... 투표참여 독려를 위한 스마트폰 앱, 고든. 유권자가 투표하러 오면 고든 앱을 통해 해당 유권자의 투표 참여 확인 메시지를 중앙 데이터베이스로 전송한다. 이렇게 목록에서 제거되면 더 이상 그 집의 문을 두드릴 필요 없이 아직 투표에 참여하지 않은 오바마 지지자의 집만 골라서 방문하거나 전화로 투표를 독려할 수 있도록 하였다.

 

... 선거운동 자원봉사자를 위한 여행 플래너 사이트. '합승 제공', '합승 요청', '방 구함', '방 있음' 기능을 제공. 만약 혼자서 갔더라면 외지에서 적응하기 힘들었겠지만, 이렇게 함께하는 과정에서 자원봉사자들끼리 서로 친해져서 더욱 활기찬 활동을 할 수 있었다.

 

... 마이크로 타기팅의 6단계 프로세스. 전략 수립 -> 시스템 구축 -> 데이터 수집 -> 타깃 설정 -> 테스트 -> 반복과 공유

 

... 빅데이터에 기반한 마이크로 타기팅은 개별 유권자들의 관심사에 대해서 정당이 어떠한 입장을 가지고 있는지 알려주어 정당과의 일체감을 높여주고 투표 및 정치행위에 나서도록 동기부여를 해주므로 민주주의 발전에 도움이 된다는 것이 찬성하는 측 입장이다. 하지만 반대하는 측의 입장도 만만치 않다. 무엇보다 개인정보 노출로 인한 사생활 침해 우려의 목소리가 높다. 지금도 상당수의 소비자들은 기업들이 자신의 개인정보를 분석하여 맞춤판촉을 하는 것에 사생활을 침해당했다고 느끼고 기분 나빠한다. 민주주의에서 정치로부터 자유로울 수 있는 권리는 정치에 참여하는 권리만큼이나 중요하며, '빅데이터'가 '빅브라더'로 가는 시발점이 되어서는 안 된다는 것이다. ... 이러한 논쟁은 이제 시작에 불과하다. 이 주제를 둘러싼 논쟁은 21세기 내내 치열하게 이루어질 것이다.

 

 

 

 

반응형