데이터 과학의 대중화 – Citizen Data Scientist

데이터 사이언스, 데이터 과학자, 그리고 Citizen Data Scientist

요즘 데이터 사이언스 동네에서 돌아다니는 키워드 중 하나가 바로 “Citizen” Data Scientist다. 쉽게 이야기하면, 특별히 학위와 경력을 쌓지 않아도 누구나 데이터 사이언스를 할 수 있도록 하자는 움직임이다. 워낙에 데이터 사이언스가 Buzzword가 되어있다보니 이런 표현이 나온 것 같은데, 이 표현의 정확성을 좀 더 살리면 “Citizen” Big Data Analyst로 바꾸고 싶다. 그리고 우리가 특별히 노력하지 않아도 벌써 트렌드가 움직이는 중이다.

당장 구글 트렌드를 보라.  브렉시트와 트럼프 대통령의 당선 결과를 거의 유일하게 맞춘 것으로 알려진 오픈 데이터 소스라는 타이틀을 달고 지난 몇 년사이 트래픽이 폭증했다. 한국서 누군가가 화제의 중심에 서 있는지 아닌지를 확인하는 방법이 네이버같은 포털에서 순간 검색 키워드 상위 랭킹에 오르는 것이었는데, 구글은 아예 유저가 몇 달치 검색 트래픽을 모두 볼 수 있도록 서비스를 열어줬다. 덕분에 지난 5월의 장미대선 기간 내내 구글 트렌드에서 어느 정당 후보 이름이 더 많이 언급되었더라는 말이 언론에 등장하기 시작했고, 또 어떤 유저들은 연관 검색어가 부정적인 용어니까 단순히 검색 노출이 많았다는 걸로 한 후보의 지지율이 급상승했다고 주장하기는 어렵다는 주장까지 펴더라.

빅데이터 분석은, 그 숫자만 보고 판단을 내리는 수준이라면 고도의 통계학, 머신러닝 지식 없이 누구나 충분히 할 수 있는 작업이다. 지난 대선 기간 동안 구글 트렌드는 일반 대중이 그정도 능력은 충분히 있다는 사실을 여실히 보여줬다.

그렇다고 이제 Citizen Data Scientist가 많이 늘어났다고 주장할 수 있을까?

한국에서 정말로 (빅)데이터 분석이 대중화되기 위해서 넘어야하는 난관은 크게 세 가지로 꼽을 수 있다.

 

1. 빅데이터를 더 쉽게 구할 수 있어야 한다.

학창시절부터 아주 가깝게 알고 지내는 어느 정당의 마케팅 팀 매니저와 최근에 빅데이터를 주제로 이야기를 나눈 적이 있다. 일하다보면 무슨 데이터를 어떻게 찾아와서 어떻게 분석한다는 회사들이 참 많이 찾아온단다. 그런데 자기가 정작 원하는 데이터는 네이버 검색 기록 전체를 매 초 단위로 보는건데, 그런 데이터가 없이 나오는 모든 분석은 별로 필요가 없단다.

들으면서 머릿속에 딱 떠오른 장면은, 중앙은행장이 이자율 정책에 대해서 언급할 때 100분의 1초 단위로 시장 이자율 그래프가 큰 폭으로 움직이는 모습이었다. 

(약 4분쯤부터 spread가 폭증하는걸 눈으로 볼 수 있다. 그 날 돈 잃은 사람 많았을 것이다 ㅋㅋ )

금융시장에는 그런 데이터를 구할 수 있는 경우가 많다. 거래가 활발한 상품들 (on-the-run treasury bonds, index fund 등등)은 정부 정책이 살짝만 바뀌어도 시장에 영향을 줄 수 있기 때문에 굉장히 민감하게 가격이 움직이고, 그걸 보고 정책 결정에 대한 시장의 반응을 이해할 수 있는 여지가 많다.

정치인 입장에서 자신이 언급하는 단어 하나하나가 유권자들의 지지율에 영향을 미치는 장면을 볼 수 있다면 얼마나 좋을까?

위의 Youtube 링크는 NetFlix의 미국 정치 드라마 House of Cards에서 대통령의 Data Scientist가 Sentiment Analysis를 하는 부분이다. 후보 토론회에서 특정 단어를 더 언급하면 언급할 수록 지지율이 내려가거나 올라가는 분석을 해서, 후보 토론회가 끝나고 여론 조사 결과가 나오기도 전에 벌써 토론회가 얼마나 성공적이었는지 여부를 분석하는 자료를 제공한다. (키야~ 나도 저런 거 할 수 있는 데이터 있으면 좋겠다.)

한국에서는 몇 개의 정치 성향 강한 온라인 커뮤니티를 잡고, 실시간으로 어떤 식의 댓글이 많이 올라오는지를 보고 유사한 분석을 할 수 있을 것 같다. (한번 해 볼까?)

아마 모 정당의 마케팅 팀 매니저가 원하는 수준의 데이터는 다음 대선쯤엔 한국에서도 구할 수 있을지 모르겠다.

 

2. 빅데이터 분석 툴에 접근이 쉬워야 한다

저 위에 잠깐 언급한 것처럼, 아직까지 빅데이터 분석이라는게 간단한 그래프 몇 개로 트렌드를 보는 수준에 국한되어 있다. 전문적인 통계학 교육을 받은 사람들이면, 또 빅데이터를 어떻게 활용할 수 있는지에 대해서 교육을 받은 사람들이면 좀 더 고급 분석을 내놓을 수 있을 것이다. 지난 글에 필자가 소개했던 시계열 데이터 분석이나 Sankey 그래프는 수 많은 예시 중 일부에 불과하다. 정치인이 Sentiment Analysis를 하기 위해서는 단순히 특정 단어에 유권자들이 어떻게 반응하더라는 1대 1  함수가 아니라, 어떤 조합과 어떤 억양일 때, 특정 단어가 영향을 끼칠 수 있다는 1대 n의 함수를 찾아야한다. 이런 빅데이터 분석을 Network를 보여주는 그래프로 나타낼 수도 있다.빅데이터 시각화(Visualization)에 대한 관심이 높아지면서 유료 툴을 쓰는 회사들도 늘어났고, 구글이 아예 오픈 소스로 데이터 시각화하는 툴을 내 놓기도 했다.

필자도 조만간 저 오픈 소스와 기본적인 통계+머신러닝 모델을 이용한 데이터 분석 도구를 일반에 공개할까 생각 중이다. 아마 필자와 유사한 생각을 하고 있는 데이터 사이언티스트들의 숫자가 늘어나면 늘어날수록 빅데이터 분석 툴의 대중화가 빠르게 이루어질 수 있을 것이다.

 

3. 발언자가 아니라, 빅데이터 그 자체가 권위를 가져야 한다.

필자가 런던에 유학가서 겪었던 사건 중에 아직도 생생하게 기억나는 사건이 하나 있다. 거시 경제학 수업 시간에 노동 시장의 Matching 모델을 설명하시던 교수님이 그 날 수업이 끝나기 10분전에 노벨경제학상 수상자로 결정되었다는 뉴스가 떴고, 학생들이 웅성웅성거리며 수업이 좀 붕뜬 상태로 진행되고 있었다. 그 역사의 한 장면 같은 순간에 교수님이 미국 노동 시장에서 Blue Color Labor를 강화하겠다는 정책은 제대로 돌아가지 않을 것이다는 언급을 했는데, 미국인 학생 하나가 “Even if it is highly skilled labor force?”라고 되물으니 교수님이 잠깐 생각을 하시더니 자신이 틀렸다는 사실을 인정하셨다. 오늘 수업이 끝나면 모델을 좀 수정해야겠다고 그러시는데, 5분 후에 자기가 그 모델로 노벨상 받을 사람이 모델을 수정해야겠다고 그러니 얼마나 겸손한가는 생각에 학생들 모두가 고개를 숙였던 기억이 난다.

한국에서 빅데이터 분석이 대중화되기를 바라는 마음의 이면에는, 위의 일화 같은 “탈권위”가 좀 진행되었으면 하는 바램이 있다. 노벨상 수상자가 자신의 모델을 바탕으로 어떤 정책의 유효성에 대해서 언급하는 순간에, 노벨상을 받았건 말건 동의할 수 없는 분석에는 이의를 제기하는 모습, 그리고 권위자가 자신의 실수를 빠르게 인정하고 물러서는 모습을 보여줄 수 있는 경우를 한국에서 얼마나 볼 수 있을까?

일전에 필자가 데이터 분석에 관한 이야기를 하면서 중심극한정리 (Central Limit Theorem)를 잘못 적용한 예시를 든 적이 있었다. 지적을 받자마자 실수를 수정해줘서 고맙다고 그랬는데, 나중에 가깝게 지내는 친구는 “그럴 땐, 그렇게 쉽게 인정하지말고, 어떻게 말을 주워담을 수 있을지 고민해야 된다.”고 충고를 하더라. 그 친구 참 좋아하고 존경하는데, 그 충고만은 받아들이고 싶지 않았다. 

빅데이터 시대가 오고, 그 빅데이터를 누구나 쉽게 분석할 수 있는 시대가 오면, 단순히 “의견”만 있고 “데이터”가 없는 많은 “전문가”들이 얼굴이 벌겋게 되는 일이 많이 생길 것이다. “우기기”를 시전하다가 나중에 팩트 폭격에 “탈탈 털리는” 일도 많이 생길 것이다. 언젠가 필자에게 “Citizen” Big Data Analyst의 시대가 온 것 같냐고 물으면, 전문가들이 “탈탈 털리는” 일이 많아지는 날이 바로 그 날이라고 대답하고 싶다.

 

X