깨워라! 한국의 빅데이터

빅데이터, 데이터 사이언스, 데이터 사이언티스트

런던 시내 한 가운데에 있는 대학에서 공부하는 대학원생이 아침에 연구실에 “출근”할 때 갖고 나타나는 것은?

어젯밤에 본 교과서? Problem Set? 논문? 땡!땡!땡! 우리가 아침에 갖고 왔던 것은 2리터짜리 물병도시락이었다.

런던 물가가 비싸니까, 가난한 대학원생들이 돈을 아끼려고 도시락을 챙기는건 이해가 될 수도 있겠는데, 물은 왜 갖고 왔을까? 2리터면 2키로나 되는데, 그 무거운 걸 왜 갖고 오지? 그냥 학교 앞에서 사먹으면 안 되나?

런던 시내 한 가운데의 물 2리터 가격이 (당시에) 0.53파운드 정도였는데, 시 외곽으로 나가면 0.42파운드 정도였다. 그 0.11 파운드 아낄려고 그랬냐고 하실까봐 낯부끄러워서 이런 예시를 안 들려고 했는데, 이게 런던에 갔을 때 필자가 처음 썼던 레포트의 주제고, 빅데이터가 무엇인지에 대한 좋은 예시인 것같아 부끄러움을 무릅쓰고 옛날 이야기로 시작해본다.

경제학에서 Searching cost (서치 비용, 조사 비용)이라고 불리는 비용인데, 시내에는 관광객이 많으니까 0.11파운드 아낄려고 고생할 시간적인 여유가 없어서 대부분은 “물 값 비싸네~”라고 불평만하고 물을 사먹게 된다. 런던에서 장기간 거주하고 있는 사람들은, 특히 필자처럼 0.11파운드에 수요 탄력성이 크게 움직이는 경우라면, 그 작은 차이를 경험적으로 파악하고 좀 귀찮더라도 더 싼 가격의 물을 사먹으려고 노력한다.

만약에 런던 시내에 있는 모든 상점의 물 값을 다 알 수 있는 빅데이터 베이스에 쉽게 접근할 수 있었다면 어떻게 됐을까? 요즘 지도 앱들을 네비게이션으로 쓰다보면 지나가는 주유소의 기름값을 다 알려주고 인터넷 검색 한번에 최저가 전자제품을 다 찾아주던데, 이런 정보가 있으면 소비자들이 Searching cost를 훨씬 덜 지불하고도 (사실상 0이다. 앱만 깔아서 검색하면 되니까) 낮은 가격의 상품을 찾을 수 있다.

초창기 빅데이터 상품이 뜰 수 있었던 이유다.

 

미국에서 빅데이터가 뜬 이유 vs 한국에서는 못 뜬 이유

저런 단순한 가격 비교를 하는게 빅데이터 분석이냐고? 그렇지는 않다.

하나 더 예시를 들어보자. 미국에 Target이라는 대형 마트 체인이 있다. Target의 데이터 분석팀은 10대 여자아이가 매번 향기있는 로션을 쓰다가, 어느날 갑자기 향기없는 로션을 사는 걸 보고, 임신 3개월쯤 원래 취향이 바뀐다는 데이터와 접목시켜서 그 여자아이가 임신했다는 사실을 알아챘다. 이 사건을 보고 생각들은 다 제각각이겠지만, Target의 세일즈 팀은 그 10대 여자애한테 임신 테스터기 광고, 그리고 임신한 여성이 좋아할만한 당류 상품을 지속적으로 보여주기 시작했다. (이런거보면 자본주의는 참 무섭다.)

한국에서는 왜 저런식의 개인화된 마케팅을 못 했을까? 빅데이터 갖고 있다면서? 필자의 짧은 식견을 미뤄볼 때, 아마 저런 데이터는 없었을 것이다.

  내부 데이터 고객 데이터 고객 특성
미국 잘 정리되어 있음 입수하기 어려움 별의 별놈 다 있음
한국 그게 뭐임? 주민등록번호 원큐 해결 그놈이 그놈임

한국 기업들은 개인정보를 이용하는데 참 둔감하다. 아마 개인 정보 자체만 놓고보면 정보의 양은 어마어마하게 많을 것이다. 주민등록번호 하나만 받으면, 생일, 나이, 성별, 출생지를 한방에 알 수가 있으니까. 그리고 이 번호가 잘못 생성되었으면 가짜이니까 가입을 안 시켜주고, 결국은 1인 1 ID가 자동으로 해결된다. 보통 마케팅 회사들이 연령과 성별로 사람을 나눠서 마케팅을 하는 걸 생각해보라. (네X버가 최근에 신문기사 하단에 어느 연령대와 성별대가 그 기사를 많이 읽었는지 보여주는 이유도 다 같은 이유다.)

 

(연합뉴스 발췌)

실제로 더 많은 종류의 데이터를 쓰면 Target처럼 훨씬 더 Targeting 된 광고를 해서 매출액을 더 끌어올릴 수 있을텐데, 왜 안 할까? 정말로 다른 데이터를 더 안 갖고 있어서?

 

한국 유저들의 현실

머신러닝으로 유저가 관심있어 할만한 상품을 골라서 보여준다는 리타게팅 광고 회사를 다니면서 배운 한 가지가 있다. 한국 유저들 대부분은 매우 “동질적(Homogenous)”이다. 노X페이스 점퍼가 유행했던 걸 생각해보라. 우리나라 사람들은 여러 사람이 하고 있으면 휩쓸려서 따라가는 경우가 흔하다. 박사 재학시절 여름철에 한국에 놀러온 연구실 친구랑 필자의 모교에 가던 길에, 스쿨 버스 타겠다고 주~욱 늘어선 학생들의 행렬을 보고 그 친구가 그러더라. “They all look identical.”

이 사람들에게 굳이 최적화된 상품을 보여줘야겠다고 열심히 노력해야 할 인센티브만 놓고 볼 때, 한국같은 동질적인 사회보다 미국 같은 이질적인 사회에서 그 인센티브가 훨씬 더 높다.

한국의 어느 온라인 쇼핑몰 관계자가 그러더라. 그냥 비싸니까 안 사고, 싸니까 사는 유저들한테는 리타게팅 광고를 써야할 이유가 없다. 그 말 맞다. 우리나라에는 기능 100가지를 놓고 커스터마이징(customizing)을 매우 꼼꼼하게하는 유저들이 거의 없으니까.

 

한국 기업들의 현실

빅데이터가 한참 뜨기 시작하자 우리나라 대기업들이 고가의 장비를 사들이기 시작했다. 복잡한 데이터 관리 플랫폼을 구축하자, 이제 데이터 분석한다는 팀을 하나 만들고 뭔가 해서 제출해봐라고 압박을 넣어봤다. 여태까지 데이터로 못 찾았지만, 이제 데이터 관리 플랫폼에 몇 십억을 들였으니 뭔가 나올 것이 아니냐는 큰 기대를 갖고 프로젝트를 시작하는데…

결과가 안 좋으면 실적 압박이 들어오고, 결국 데이터 사이언스라는거, 빅데이터라는거 다 허상이다는 편견만 남게되는 것이다.

필자가 운이 좋아서 우리나라 대형 IT회사의 관계자 분들을 만날 기회가 많이 있었는데, 모두들 빅데이터라는 단어 자체에 매우 회의적이었다.

  • 데이터는 결국 주관적인 해석이 들어간다,
  • 분석해서 도입할 내용이 없더라,
  • 빅데이터 분석이랑 그냥 데이터 분석이 다른 게 도대체 뭐냐

는 반응을 참 많이들 보여주셨는데, 필자가 할 수 있는 대답은 한 가지다. “용량만 많은 데이터는 빅데이터 아닌데요?”

 

한국 시장이 나아가야 할 길

빅데이터 분석으로 기업들이 재미를 못 보고 있는 가장 큰 이유는 무엇일까?

  • 분석 능력이 부족해서?
  • 데이터가 엉망이어서?

둘 다 맞을 수도 있고, 아닐 수도 있다. 그러나 필자가 하나 확실하게 아는 것은 “빅데이터 분석”이 무슨 요술봉은 아니라는 사실이다. 데이터 사이언스는 새로운 걸 찾아내는게 아니라, 있는데 못 보고 있던 것을 찾아내는 작업이다. 우선 데이터 사이언티스트에 대한 기대치를 좀 낮춰야 된다. (머신러닝, 딥러닝, 알파고 같은 단어들만 듣고 기계가 인간을 정복하는 미래가 당장 내일 올 것처럼 이야기하시는 분들, 그런 “강”인공지능의 시대는 아직 멀었다. 그리고 데이터 사이언티스트는 신 아니고 인간이다)

기대치를 좀 낮춘 다음에는 당연히 우리의 “내공”을 끌어올려야 한다. 그런데 그 내공을 끌어올리는게 분석 능력을 높이는게 아니라, 무슨 데이터가 필요한지 이해하는 부분에서 시작해야한다.

 

무슨 데이터가 필요할까

구매 데이터 수백만건을 갖고 데이터를 분석해달라고 할 때, 특정 열(Column)이 하나씩 더 추가될 때마다 할 수 있는 작업은 기하급수적으로 늘어난다. 예를 들어 성별, 연령, 거주지 데이터와 함께 구매 상점, 구매 시간, 구매 가격만 있는 데이터를 보다가, 구매 상품 내용이 추가되면 그전에는 한번 장보러 갈 때 구입 금액만 알 수 있다가 무슨 상품을 사는지 구체적으로 이해할 수 있게 된다.

추가로 상품 구매 주기를 파악할 수 있도록 장기간 데이터를 쌓고, 재구매인지 여부를 체크하고나면 특정 상품에 대해서 충성고객인지 아닌지 파악하기 쉽다. 여기에 상품 별로 할인받은 내역이 들어가 있으면 어떻게 될까? 할인에 얼마나 민감한 고객인지, 어떤 상품에 더 민감한지에 대해서 파악하고 그에 맞춰서 쿠폰을 뿌릴지 말지를 결정할 수 있다.

한 발자국 더 나가서, 만약에 그 고객이 광고에 노출되고 구매했는지, 그냥 매장에 방문했다가 구매했는지를 파악하고 나면, 광고의 성과도 파악할 수 있고, 특정 광고와 쿠폰 조합의 효율을 따져 어떤 광고와 쿠폰을 엮어야되는지도 파악할 수 있다.

모두 데이터만 있으면 가능한 일이다. 우리나라 기업들이 안 갖고 있거나, 갖고 있어도 어떻게 정리해야되는지 몰라서 어딘가에서 잠자고 있는 그 데이터가. 깨어나라 데이터.

X