데이터 사이언스는 죽었다

데이터 사이언스는 죽었단다. (Data Science is Dead.)

자칭 데이터 사이언티스트 입장에서 읽기는 좀 불편하지만 공감할 수 밖에 없는 글을 하나 읽었다.

과학의 테두리 안에 들어가는 학문은 어떤 특성을 가지는가? 조건을 지정해서 실험을 하고 그 결과값을 바탕으로 가설을 검증하고, 새로운 가설을 찾는 과정이다. 데이터 사이언스 안에는 A/B Testing이 있지 않냐고 주장할 수도 있을텐데, 이미 데이터를 만드는 사람이 결정한 일을 그냥 해석만 하는 작업이지 실제로 데이터를 만들어내는 작업은 아니란다. A/B Test를 설정하는 역할까지 다 한다면? 그래도 모든 조건을 다 통제하는 실험실의 셋팅이 아니기 때문에 “Soft” Science란다. 대부분의 사회과학이 그렇지 않냐고 화끈하게 깎아내리네.

더 눈에 들어오는 부분은 전공 이름에 Science가 들어가 있으면 그건 과학이 아니기 때문에 그렇게 붙어있는 거란다. 대표적으로 Computer Science 전공을 들면서, 과학이 아닌 기술이 대학 전공인 것처럼 되어 있고, 노동 시장에서 수요는 많단다.

아래 스샷을 보면 참 Scientist 타이틀이 큰 풍자거리다ㅋ

데이터 사이언스는 죽은게 맞다

솔직히 다 맞는 말이라는 생각이 들어서 별로 반박하고 싶은 마음이 안 든다.

학창시절부터 CS 친구들이 자기네 공부가 제일 힘들다고 할 때마다 너네는 그냥 코딩하는거 아니냐고 드립질쳤던 기억이 생생하고, 데이터 사이언스 직장들 중에 거의 대부분은 SQL로 데이터를 뽑아서 Excel로 그리는 작업을 반복하는 경우가 많다. 사실 Data Analyst가 해야될 일을 좀 멋있게 보이고 싶어서 Data Scientist라는 타이틀로 이름만 바꾸는 편이 뽑는 쪽에서도, 뽑히는 쪽에서도 즐거울테니까, 그들에게는 윈-윈 게임이다.

필자가 실리콘 밸리에서 잡서칭을 할 때 제일 경계했던 부분도 바로 이 부분이었다. 대부분의 직장들이 타이틀은 Data Scientist이지만 정작 업무는 Data Analyst이거나 혹은 Data Engineer쪽 일이었다. 잡 타이틀에 Business Analyst라고 쓰면 너무 구식으로 느껴지고, 그래도 우리는 큰 용량의 데이터를 SQL로 뽑아서 쓰는 업무가 있으니 Data Scientist라고 주장할 수 있다고 생각하는 듯 했다. Engineering쪽 업무들도 Data Warehousing이나 Systems Analyst 같은 타이틀을 달면 뭔가 너무 개발자스러운 단어인 것 같아서 안 쓴다는 이야기도 들었다.

데이터 사이언스는 죽었다가 다시 태어났다

실리콘 밸리에서 필자가 Data Scientist 업무를 찾아다닐 때, 꼭 물어봤던 질문이 있다. “혹시 너네 팀에 경제학 박사 출신 있어?”

필자와 배경 지식이 유사할 것 같아서 이런 질문을 했기도 하지만, 이 질문의 본래 의도는 “너네 팀, 데이터로 모델링하고 계량 테스트하는 팀이야?”라는 뜻이었다.

데이터 사이언스는 죽었다고 일갈한 Miko Matsumura의 표현대로, 데이터 사이언스는 “Hard” Science가 아니라 “Soft” Science다. 실험실에서 조건을 강하게 컨트롤 한 상태에서 얻은 데이터로 작업을 하는 일이 아니라, 경제학 박사들처럼 현실 데이터를 나름대로의 모델로 분석하는 일을 해야한다. 굳이 차이가 있다면 경제학 박사가 다루는 데이터는 용량이 크고 작고의 차이만 있겠지만, 데이터 사이언티스트가 다루는 데이터는 유저의 행동 패턴을 초 단위로 추적하는, 이른바 “행동 데이터”라는 부분인 것 같다.

다루는 (빅)데이터가 다른 것만큼이나 다루는 통계학 모델도 달라서, 경제학자에게 수리통계학의 회귀분석이 핵심적인 기술이었다면, 데이터 사이언티스트에게 가장 핵심적인 통계학 기술은 머신러닝이 되었다.

지극히 필자의 주관적인 생각일지도 모르나, 진짜 데이터 사이언티스트는 수리통계학 훈련이 잘 된 경제학자가 SQL로 빅데이터를 뽑을 줄 알면서, 가설을 바탕으로 통계학 모델을 만들고, 그 모델을 테스트할 수 있는 머신러닝 (+다른 통계학 지식)을 할 줄 아는 사람이어야한다. 이렇게 말해놓고보니 보통의 경제학자는 그런 훈련을 안 받으니, 참 이런 사람 찾기 힘들겠다는 생각도 든다.

데이터 사이언스를 재정의하자

요즘 실리콘 밸리에서는 잘못 알려진 데이터 사이언스에 대한 비판과 새롭게 정의하자는 움직임이 일고 있다. (진작에 이랬어야했다.) 가장 눈에 띄는 정의는 HR회사인 Hired Brains에서 나온 내용인데 아래와 같다,

  • Type 1 – 알고리즘과 분석방법을 연구하고, 새롭게 만들어내는 전문가로 논문을 발표할 수 있는 사람
  • Type 2 – 수리통계 모델링 및 모형 개발 전문가로 Quantitative한 방법을 이해하고 모형을 설계, 시험 및 실전 배치할 수 있는 사람

Type 2의 예시로 나온 직업이 머신러닝과 통계 모형을 이용해서 패턴 감지 알고리즘을 개발하고, 빅데이터에서 유의미한 정보를 찾아내, 개발한 알고리즘으로 예측업무를 수행하는 사람이었고, 금융 사기나 고위험 담보 대출에 이런 모델을 적용시키는 내용이 주 업무였다. Type 1의 대부분은 아마 학계에 있을 가능성이 높다.

직장을 찾는데 타이틀은 Data Scientist이면서 정작 위의 업무가 Job Description에 없다면, 그건 아마도 Data Analyst이거나 Data Engineer일 것이다.

 

데이터 사이언스 아직 안 죽었다. 죽은 사람더러 데이터 사이언티스트라고 하지 말자.

 

X