무슨 데이터가 빅데이터인지 모르는 데이터 전문가들

빅데이터 이용에 관련해서 좋은 기사가 났다고 아침에 메일이 하나 왔다.

머니투데이의 “인공지능, 좋은 데이터가 먼저다” 라는 기사다.

한 줄 요약하면, 이 기사 쓰신 아주머니는 빅데이터가 뭔지에 대해서 제대로 감을 못 잡고 있는채로 빅데이터가 중요하다는 글을 썼다. 최소한 제목 자체는 맞는 말이니까 더 이상 까는 건 자제하도록 하자.

 

빅데이터 = 개인의 행동 데이터

필자가 여기 블로그에서도 강조하고, 수업에서도 강조하고, 또 외부 미팅을 나가서도 계속해서 강조하는데, 빅데이터는 열심히 Crawling해서 긁어온 데이터나 데이터 베이스에 관리가 불가능할 정도로 많이 쌓아둔 데이터가 아니다. 빅데이터는 개인의 행동을 추적할 수 있는 데이터다. “기업들이 그동안 축척한 데이터로 신규 서비스를…. ” 이라는 문장에서 이미 이 기사쓰신 분은 낙제점이다. “축척”한 데이터를 쓰는게 아니라, 유저들이 어떤 행동을 해서 어떤 결정을 내리는지를 볼 수 있도록 “추적”한 데이터를 이용해야 한다. “축척”이 아니라 “추적”.

우리나라 정부나 기업이 지금 갖고 있는 데이터로 제 아무리 데이터 기반 상품을 만든다고 해도, 저렇게 철학적으로 근본적인 변화가 없는 이상, 위의 머니투데이 기사 쓰신 분의 수준에서 사고방식이 머물러 있는 이상, 우리나라에서 데이터 기반 산업이 성장할 수 있는 여지는 전무하다. 예전에 다른 글에서 썼듯이, 서울시내에 있는 주유소들에서 매일매일 1리터 기름값을 받은 정보로 “기름값 가장 싼 집”을 찾아주는 서비스는 빅데이터 초창기 서비스에 불과하다. 아직까지 저런 마인드로 지난 3개월동안 어느 상품이 많이 팔렸다는 둥, 유전자를 분석해서 개인별로 적합한 치료법을 제공해 준다는 둥, 단순하게 정리해서 나열하는 식으로 데이터를 “분석”해서는 예전보다 나아진 점이 하나도 없다.

페이페이 리라는 여자분이 구글에서 이미지 분류하는 인공지능 팀장으로 승진했다고, 마치 대단한 업무를 하고 있는 것처럼 써 놨는데, 이 아주머니가 하는 일은 contents-based filtering에서 하는 작업과 다를바가 하나도 없다. 머신러닝이 광범위하게 도입되고 유저의 “행동” 데이터를 모으게 되면 collaborative filtering을 이용해서 접근 철학도 다르고 결과물의 퀄리티도 업그레이드 할 수 있는데, 정말 단순히 주먹구구식 분류하는 “Low-tier” 업무에 팀장을 맡았다고 대단하다는 식으로 치켜세우는 글을 보고 있으니 안타까움을 금할 수가 없다.

(참고: contents-based는 해당 상품의 모든 정보를 미리 입력해놓고, 유저의 반응에 따라 유사 상품을 보여주는 방식이고, collaborative filtering은 해당 상품에 대한 정보가 전혀 없는 상태에서 단순하게 유저들의 반응만을 바탕으로 그 상품의 특성을 유추해내고 유사 상품을 묶는 방식이다. 쉽게 말하면, 옷 매장에서 바코드 찍어서 그 옷이 뭔지를 아는 방식은 contents-based, 사람들이 같이 보는 옷들이 유사한 스타일이라고 가정하는 것이 collaborative고, 당연하겠지만 “행동 데이터”에 기반한 접근법은 collaborative다. 앞의 방식은 빅데이터라고 해봐야 용량만 큰 데이터가 되고, 뒤의 방식은 유저들의 행동이 다 담긴 진짜 빅데이터를 기반으로 한 서비스다.)

 

혁신의 전파

요즘 빅데이터, 머신러닝, 데이터 사이언스 등으로 표현되는 “4차 산업”이라는 단어의 인식 수준을 보면서 혁신이라는 것이 어떻게 퍼져나가는지에 대해서 귀납적인 논리를 세울 수 있게 되었다. 먼저 아주 소수의 사람들이 일부 산업의 영역에 “혁신”을 적용하고, 그 옆에 있는 사람들 중 깨어있는 일부가 “혁신”의 가치를 읽는다. 그리고 그 깨어있는 사람들이 목소리를 높이면 주변에서 소위 말하는 “전문가”라는 타이틀을 달고 다니는 사람들이 자기도 그 흐름에 편승하겠답시고 이것저것 갖다 붙인 다음에 “혁신”이 마치 인류사의 큰 전환점인 것처럼 살을 붙인다. 그리고 대중은 호도된다.

요즘 빅데이터 “혁명”이라고 불리는 이야기들을 보면 딱 이런 상황인 것 같다. 처음에는 컴공과에서 이미지 인식하는 사람들 일부가 쓰던 CNN, 통계학계에서 이단아들이 공부하던 대다수의 머신러닝 테크닉들이 알파고를 비롯한 몇몇 “혁신” 덕분에 세상의 빛을 보게 되었고, 머신러닝이 뭔지 좀 아는 사람들이 알파고를 보면서 Neural Network 기발하게 잘 짰다, 짧은 시간에 Learning 시킬 수 있도록 병렬 계산 시스템 잘 만들었다, Uncertainty 집어넣어서 모델 성능 향상 시키는 아이디어가 Neural Network에서도 큰 성공을 거두는군… 같은 생각을 하면서 인공지능 기술이 한 단계 더 업그레이드 되겠다고 생각했다. (솔찍말 필자는 그런 분들의 해석을 재해석하는 수준에 불과한 인간이라서 그 이상은 잘 모르겠다.) 알파고보다 한 7년전 쯤에 CNN에서 Logit을 Rectifier로 바꾸면서 이미지 인식률이 올라갔을 때 인공지능을 바라보는 눈이 “절망”에서 “희망”으로 바뀌었다면, 요즘은 “기대” 정도로 보는 게 맞는 것 같은데,  밖에서는 마치 “경외”감을 갖고 쳐다보는 것 같다. 최근에는 갑자기 여기에 “4차 산업”이라는 단어를 붙이더니 마치 내일이면 IQ 200대인 인공지능 로봇이 등장하는 것처럼 떠들어대는 사람이 생기기 시작했고, 신문사에서는 그런걸 받아써서 판매 부수 + 노출 지면 숫자 올리기에 바쁘다.

인공지능(?)이라고 불리는 단어에 들어가는 머신러닝은 다 떠나서 패턴 인식하는 알고리즘에 불과하다. 페이스북에서 챗봇을 만들었더니 인간이 인식할 수 없는 단어들로 챗봇들끼리 대화가 일어나서 실험을 중단시켰다는 기사를 보면, 머신러닝을 좀 아는 사람들은 모델 잘못 만들었나보다, 언어 처리할 때 동사랑 형용사에 어근이랑 어미 구분 제대로 안 한거 아닌가라는 생각을 먼저 한다. 머신러닝이 제대로 돌아간다면 인간이 쓰는 단어의 조합을 완벽하게 복제해내야 하는데, 챗봇이 배우는 단어가 인간이 쓴 단어들로 구성된 데이터 베이스에 저장된 단어들에 불과한데, 어떻게 새로운 단어를 만들어 낼 수가 있나? 그러나 언론은 마치 챗봇이 IQ 200대이고 창조적인 능력이 있어서 우리가 모르는 언어를 만들어냈다고 설레발을 치는 기사를 내더라.

기자라는 사람들이 특정 사안에 대한 전문가가 아니라, 전문가들이 제시하는 정보를 정리해서 활자로 바꾸는 작업을 하는 사람들이라는 것도 알고, 그래서 기자가 전문가가 될 수 없다는 사실도 안다. 그러나 수백만 독자에게 노출되고 사회적인 방향성에 영향을 줄지도 모르는 위치에 있는 사람들이 누가 쓴 글을 받아쓰거나 “뇌피셜”에 의존해서 기사를 내는 건, 전문가 타이틀을 달기에 민망한 필자 입장에서도 어이가 털리는 일이다. 하물며 진짜 전문가들 눈에는 어떻게 비칠까?

4차 산업으로 검색하니 윗 사진 같은 스샷이 검색되더라…. 안타깝다. 4차 산업이 뭔지도 제대로 모르는 사람들이 4차 산업이 뭔지도 제대로 모르는 사람들에게서 설문조사를 하다니…

필자의 데이터 사이언스 수업 첫 시간은 언제나 “머신러닝은 요술봉이 아니다. 별 거 없다. 그냥 패턴 인식 알고리즘일 뿐이다. 짝퉁 통계학이다.”는 표현으로 시작한다. 필자는 기자가 아니니까.

 

인공지능, 좋은 데이터가 먼저다

서두에 잠깐 언급했듯이, 저 기사의 내용은 엉망이어도 최소한 제목은 맞는 말이다. 인공지능이 정말 뛰어난 성능을 발휘하기 위해서는 좋은 데이터가 필수적이다. 저 기사의 문제점은 좋은 데이터가 뭔지를 잘 모르기 때문에 엉뚱한 예제를 들었다는 것이지, 메세지 자체가 잘못되지는 않았다.

기업들에서 자기네가 인공지능 상품을 만들고 싶은데 어떻게 해야고 물어볼 때 필자가 제일 먼저 묻는 질문은 “초단위로 개인별 행동 데이터 있으십니까?”이다.

그리고 필자가 만났던 회사들이 그런 종류의 인력을 수급할 수 없는 회사라서 그런지는 몰라도 아직까지 저 질문에 “Yes”를 들은적이 한번도 없다. 굳이 따지자면 “데이터 팀에 물어보겠습니다”는 대답만 들었는데, 그 “데이터 팀”이라는 곳은 “데이터 사이언티스트”가 있는 곳일까, “데이터 엔지니어”가 있는 곳일까, 아니면 “데이터 애널리스트”가 있는 곳일까?

한국처럼 관료제적인 억압이 강한 사회에서 필자의 질문으로 대변되는 “컨셉의 전환”이 일어날려면 둘 중 하나 밖에 없을 것 같다. 윗사람이 엄청나게 똑똑해지거나, 아니면 외부에서 충격이 오거나.

 

 

X