데이터 과학자도 인공지능이 대체한다

데이터 사이언스, 데이터 과학자, 인공지능, Prophet

데이터 사이언티스트가 부족하고, 좋은 사람을 찾기도 힘들어서 (그리고 비싸서), 아예 인공지능으로 대체해보려는 움직임이 많이 있다. 가장 많이 발달한 영역은 시계열 (Time-Series) 데이터를 넣으면 향후 예측치를 보여주는 시뮬레이션 모델인데, 정확성이 꽤나 높게 나와서 이제 다른 영역의 데이터 사이언스도 인공지능으로 대체될지도 모른다는 “설레발”들이 입에 오르내리고 있다.

최근에 모 데이터 사이언스 학회에 가보니 2025년까지 인공지능이 데이터 사이언스 관련 기능들을 (거의) 완전히 대체할 수 있을거란다. 지금도 이미 Word Cloud 만들기 같은 매우 단순한 작업들은 무료로 해주는 서비스들이 널려있고, 위에 말한대로 고급 통계학자들만 할 수 있을 줄 알았던 시계열 예측도 저렴한 가격에 제공해주는 서비스들이 나타나기 시작했다. 심지어 페이스북이 올초에 Prophet이라는 사실상 무료 서비스를 내 놨다. Github페이지에 R과 Python으로 코드도 다 공개했고 (Prophet 패키지 알고리즘은 공개 안 했더라), 필요한 그래프도 온라인에서 바로 확인할 수 있다.

 

그럼 정말 데이터 사이언스는 인공지능으로 대체될까?

 

아래는 KDnuggets에서 데이터 사이언티스트들을 대상으로 한 설문조사 내용이다.

많은 숫자가 설문에 참여한 것은 아니지만, 그래도 과반수의 참여자들이 10년 이내에 가장 고난이도 데이터 사이언스 업무마저도 자동화될 것이라고 예상하고 있다. 밥그릇 챙기는 소리를 떠나서 냉정하게 시장 트렌드만 놓고보면, 데이터 사이언스 업무 중 일상적인 작업들은 자동화 업무로 빠르게 전환이 될 것이라는 점에 이의를 달고 싶지 않다. 필자가 전 직장에서 했던 업무 중 하나도 간단한 시뮬레이션을 통해서 향후 온라인 광고 예산을 추정하는 시뮬레이션 모델을 만드는 것이었는데, 이미 다양한 곳에서 유사한 업무가 진행되고 있다. 

 

그럼 대체되는건가?

사실 여기서 가장 중요한 질문은 “Most expert-level”의 수준이 어느정도인가에 달려있다.

필자가 시계열 데이터 시뮬레이션 모델을 만들면서 했던 작업들을 한번 돌이켜보자. 먼저 데이터를 트렌드 (Trend) 부분, 주기 (Cycle) 부분, 그리고 오차 (Error) 부분으로 쪼갠다. 특히 주기 (Cycle) 부분을 쪼갤 때는 ARIMA 모델의 (x,y,z) 숫자 조합이 어떻게 되는지 몇 가지 테스트를 해 봐야된다. 트렌드도 직선으로 뽑아낼 수 있다면 참 좋겠지만, 때로는 곡선이 더 정확할 수도 있다.

그 다음, 각각의 데이터 셋들을 놓고 머신러닝 모델을 훈련을 시킨다. 무조건 딥러닝을 써야되는거 아니냐고 착각하는 분들이 참 많을텐데, 가장 간단한 Logit으로만 훈련시켜도 충분히 좋은 결과가 나오는 경우도 많다. 모델 훈련에서 가장 중요한 부분은 “1. 데이터가 얼마나 많냐, 2. 얼마나 전처리가 잘 되었냐” 에 달려있다. 그리고 가능성 높은 모델들 몇 개를 뽑아서 그 중 어느 모델이 더 좋은지 테스트를 해 보는 과정도 거친다.

생각해보니 참 간단하다. 이 과정 전체를 수학적으로 다 이해할려면 꽤나 긴 수업을 들어야겠지만, 정작 주어진 모델을 활용해서 시계열 데이터에 적용하는 일은 그다지 어려울 것 같지가 않다.

그래서인지 이미 수십개의 자동화 프로그램들이 돌아다니고 있다. 위에서 언급한 페이스북의 Prophet과 더불어 알려진 프로그램 몇 개를 정리해본다. (광고해주는거 아니니 오해마시라.)

인간 최고수를 이기는 바둑 게임도 나왔고, 변호사, 의사같은 유명 전문직들이 인공지능으로 빠르게 대체되고 있는 마당에 굳이 데이터 사이언티스트가 인공지능으로 대체되지 말아야 할 이유가 하나도 없다.

 

인공지능에 대한 착각

그럼 변호사, 의사를 대체하는 인공지능은 누가 만들까? 공돌이들이 만드는 걸까?

진짜로 저런 상품을 (모든) 공돌이들이 어느 날 뚝딱 만들어 낼 수 있을 것이라고 생각하는 사람은 없을 것이다.

기계가 어떻게 돌아갈지에 대한 작동 원리를 만드는 사람은 결국 그 분야 전문가일 수 밖에 없다. 세금 계산을 자동으로 해 주는 로보텍스 모델은 개발을 배운 회계사가 만든게 아니라면 두 직군의 협조가 있어야 나올 수 있다. 마찬가지로 변호사, 의사도 같은 방식의 협조가 있어야 대체할 수 있는 로봇과 그 로봇을 돌릴 수 있는 인공지능이 나온다.

인공지능이 무슨 아이큐 160의 천재를 만들어내서 그 천재가 모든 업무를 순식간에 배우고, 스스로 창의성을 갖춘 형태로 진화할 것이라는 일반의 생각들 때문에 오해들이 참 많은 것 같다. 지금 우리 인류가 갖고 있는 인공지능은 패턴을 학습하고, 그 패턴과 유사한 내용을 매칭시키는 기술 이상도 이하도 아니다. 이걸 “약(Weak) 인공지능”이라고 표현하더라. 누군가가 “강(Strong) 인공지능”을 갖고 있다면 정말 보고 싶다. 실제로 어떻게 돌아가는지.

같은 맥락에서 데이터 사이언스 업무를 대체할 인공지능을 만드는 사람도 여전히 데이터 사이언티스트일 것이다. 한 10년쯤 지나서 데이터 사이언티스트 간 경쟁이 더 치열해지면, 데이터 사이언티스트에게 필요한 능력이 지금처럼 통계학과 머신러닝 모델을 활용하는 수준을 넘어서서, 그 모델들을 자동화시킬 수 있는 능력을 갖춰야할지도 모르겠다. (사실 이런거 벌써 다들 하고 있는거 같기는한데…)

 

데이터 사이언스의 미래

데이터 사이언스가 더 발전하면서 데이터 사이언티스트가 줄어들 것이다. 자동화가 되어서 Not-so-expert-level인 데이터 사이언티스트가 없어져서? 아니다. 지금 시장이 혼란하다보니 여러사람들이 자기가 데이터 사이언티스트라고 주장하지만, 정작 하는 일은 Data Analyst거나 Data Engineer인 경우가 많다. 그들이 당장은 Data Scientist라는 타이틀을 달고 있겠지만, 시간이 지나고 업무 레벨이 고도화되면 시장도 학습을 하게 될 것이다. 물론 Data Scientist라는 타이틀을 단 사람들에게 요구되는 스킬셋의 수준도 고도화될 것이다.

데이터 사이언스 석사하고 있는 후배가 가끔 보내오는 Problem Set을 보면, 과연 이 정도로 10년후에 살아남을 수 있을까 싶다. 항상 공부 더 해라고 충고해준다. (필자 자신에게도 마찬가지 충고를 매일하고 있다.)

 

X