비전문가들도 데이터 사이언스를 공부해야하는 이유?

학부시절, 아니 대학원 재학 시절에도 마찬가지였는데, 필자의 전공 교수님들이 대체로 보면 굉장히 까칠하다. 어릴 땐 나름대로 상처가 된 적도 있었는데, 대학원 들어가는 준비하면서 좀 이해가 되는 느낌을 받았고, 박사 재학 중에는 필자도 그런 “괴물”이 되어가는 걸 느꼈다. (사실 원래도 좀 까칠하다 ㅋㅋ) 요즘와서는 학창시절 불편하게 생각했던 교수님들의 모습을 그대로 닮아버린게 아닐까 싶어서 가끔 뜨끔할 때가 있는데, 나름대로 이유가 있고, 아래에 좀 구질구질하게 변명해볼까 한다.

일단 제일 까칠해지기 쉬운 경우가 비전문가(?) 분들의 연락을 받을 때인데, 예를 들자면, 일면식이 전혀 없는 기자, 헤드헌터, 회사 HR 업무, 기획 업무, (그리고 개발업무)를 담당하시는 분들께 받는 뜬금없는 이메일 들이다.

대부분은 도대체 내 업무랑 무슨 관련이 있는지 잘 연결이 안 되는 것 같은 질문들이거나, 인터넷 검색 10-20분 하기 귀찮아서 보내는 메일들이 많다. 필자는 성격이 좋질 못해서 그런 메일들에 굉장히 까칠하게 대답한다. (대답 안 할 때도 있다. 욕 쓸까봐.) 박사 지원하던 시절 가까이 지내는 대선배님께 질책아닌 질책을 들은 적이 있었는데, 다른 교수님들에게 추천서를 부탁드리고, 그 분들이 찾아오라고 연락주실 때는 그 분들의 시간을 샀다는 생각으로 최대한 효율적이고 알차게, 그래서 그 분들이 시간을 버렸다는 생각이 들지 않게 해야한다고 하셨다. 누구에게나 시간은 돈이니까. 그 분들의 불편한 메일을 받으면 딱 그 대선배님의 고언(苦言)이 생각난다. 뱅킹 다니던 사회 초년병 시절에 윗 분들이 미팅 나가기 전에 상대방 회사에 대해서, 최소한 미팅 주제에 대해서는 찾을 수 있는 모든 정보를 다 뒤진 다음에 미팅 자리에 나가야한다고 엄청나게 “쪼”았었던건 기억이 나는데, 그 땐 밤새 준비하느라 힘들었지만 돌이켜보면 첫 직장에서 참 좋은 걸 배웠다 싶다.

 

1. 안타깝고 씁쓸한 사례들

필자의 블로그에 글이 몇 십개가 있는데 이걸 읽지도 않고 메일을 쓰시는 분들, 특히 블로그에 버젓이 나와있는 내용을 묻는 사람들에게 어떻게 반응해야할까? 그래도 친절하게 내 시간을 버려가면서 블로그 하나 쓰는 시간과 노력을 다 들여서 그런 메일에 답장을 해 줘야 하나?

아예 아무것도 모르는 분들이 블로그 글 몇 개 읽고 아는체 하는 것보다는 백번 낫다고 생각하기는 하지만, 비전문가들이 전혀 맥락을 잡을 수 없는 질문들만 잔뜩 쓴 이메일로 미팅 시간 내달라고 할 때는 필자 역시 비지니스 적으로 생각할 수 밖에 없다. 사업 초반에 만난 헤드헌터 하나는 나름대로 한 시간 넘게 빅데이터, 행동 데이터, 유저 데이터 등을 설명해 준 끝에 필자에게 했던 말이 “제가 엑셀로 정리한 명함집이 있는데요, 여기에 머신러닝이라는 걸 적용할 수 있을까요?”라는 어이가 없는 질문이었다. 학부 시절 친구인 기자들은 자기네 보스가 필자에게 엉뚱한 질문해서 시간 낭비하도록 만드는 걸 보고는 미안해서 어쩔 줄 모르는 경우도 있었는데, 저렇게 준비 하나도 안 하고와서 몇 마디 질문만 하면 다 알아먹을 수 있을 것이라는 맹목적인 자기 신뢰는 도대체 어디서 비롯되는걸까?

비슷한 케이스로, 생각의 깊이가 너무 얕은티가 나는 분이 있었는데, 자기가 학부는 문과인데, 방송통신대학으로 통계학과 컴퓨터 공학 학위를 땄으니 이제 데이터 사이언티스트 준비 다 된 것 같다, 뭘 더 해야되냐는 질문도 있었다. 모델링 할 줄 알아야 된다고 블로그 글을 몇 번이나 썼는데 한번도 안 읽어봤으니 그런 메일을 썼을테고, 데이터 사이언스가 뭔지 한번도 깊게 생각해보질 않았으니 전공 타이틀만 따면 되는거 아님? 이라고 생각하시는게 아닐까 싶다. (문과에서 생각의 깊이가 얕아도 졸업할 수 있는 전공이…? ㅋㅋㅋ) 당장 DSP 회사들이 쓰는 모델 리뷰한 블로그 글만 봐도 그런 메일은 안 보냈을텐데… 이런식으로 이해도의 깊이가 0 (음수가 있었다면…)인 분들과 부대끼고 나면, 그냥 잘 모르는티가 나는 사람에게 어쩔 수 없이 불편한 기색을 보일 수 밖에 없다.

가끔 자기네 회사에 쓸 모델 가르쳐 달라고 하는 분도 있는데, 몇 억, 몇 십억 들여서도 제대로 쓸 수 있는 모델 찾아내기 쉽지 않을텐데, 필자더러 어떻게 해라는건가? “Logistic regression을 쓰셔야 됩니다, SVM을 쓰셔야 됩니다, 요즘 잘 나가는(?) Neural Network를 쓰세요. 다른 모델을 쓰면 85% 맞추는데, 이걸 쓰면 90%까지 끌어올릴 수 있습니다.” 이런 종류의 답변을 원하시는 분들이 메일을 쓰신게 아닐텐데, 고민하셨다는 내용을 보면 좀… 모델링을 모르는 개발자들이 쓴 것 같은 메일이 너무 많다. 이럴 땐, 외람되지만 “공부하세요”라고 답변드리고 싶다. 데이터 파일 첨부해서 원하는 목록 리스트 뽑은 다음, 언제까지 답변 받을 수 있냐고 묻는 분도 있던데, 더더욱 외람되지만 “진짜 공부하셔야 되겠네요.”라고 답변 드리고 싶다.

회사에 쓸 모델 가르쳐 달라는 어떤 분은 지금은 그냥 데이터의 평균치만 쓰고 있는 것처럼 써놓으셨던데, 모델링을 하고 싶으면 수업도 듣고, 논문도 읽어보면서, 하나씩 배우고, 새로 적용해보고, 다시 고쳐보고, 이런 작업을 열심히 반복하셔야지, “무슨 모델 쓰면 되는거야?”는 식으로 질문하시면 곤란하다. 다들 Neural Net에 경도되어서 무슨 NN만 쓰면 다 해결되는 것처럼 이야기하지만, 논문 리뷰 글에서 이미 언급했듯이 one-size-fits-all solution은 없다. 모델 만든 다음에 연동 작업 같은 것도 RTB가 어떻게 돌아가는지, 그런 업무를 같이하려는 개발자 뽑으려다가 고생했던 블로그 글도 있었던 것 같은데, 그 글에 관련 문서 링크가 몇 개나 있는데 왜 아는 바가없다는 메일을 쓰신 걸까? 데이터 파일 던지면서 작업해달라는 분께도 똑같이 말씀드리고 싶다. 모델링은 쉽게 뚝딱 나오는 거 아니다. 데이터 셋 하나로 수업 10분 정도에 다룰 코드 + 논리 정리하는데도 하루를 쓴다. 그런 “노가다”를 필자에게 던지는 건 “시간을 샀다는 생각으로 최대한 효율적이고 알차게, 그래서 시간을 버렸다는 생각이 들지 않도록” 질문해야한다는 기본 “예의”에 좀 어긋나는 메일이지 않나 싶다.

얼마전에 만났던 어느 회사의 고위직 관계자 분은 자기네 회사에서 “인공지능”을 활용한 시스템을 만들려고 노력 중인데, “파이썬을 쓸 줄 아는 유일한 개발자인 XX가 지금까지 ~~” 라는 문장으로 사내 프로젝트 현황을 이야기 하시더라. 이걸 개발자들이 할 일이 아니라 수리통계학 모델링을 할 줄 아는 사람이 하는거라고 글을 몇 번이나 써놨는데, 아까운 시간을 내서 미팅하는 자리에 그런 식의 갑갑한 사정 청취를 하려니 참 안타까웠다. 그 회사가 만들어야하는 시스템을 들어보면, 결국 Reinforcement learning 모델을 만들어야하고, 그걸 시뮬레이션에만 맡기면 uncertainty가 너무 많아서 스타크래프트 인공지능 케이스처럼 모델이 파라미터를 확정하는데 (or 모델이 “learning”하는데) 걸리는 시간이 엄청나게 길어질 것이다. 모델에서 내부화할 수 있는 요소들은 수식으로 풀어내야하는데, 그럴려면 당연히 Bellman equation을 셋팅하고 풀어야한다. 그걸 개발자한테 시킨다는게, 그냥 듣기 좀 딱하더라. 이렇게 이야길하니 무슨 A 저널 (제일 좋은 저널 그룹)에 퍼블리쉬될 논문 쓰는 걸로 오해하시던데, 그런 걸로 저널 퍼블리쉬는 꿈도 못 꾼다. 그냥 C급 저널 수준 or 기업 프로젝트 수준에 불과한 일인데, 무슨 수학 용어가 나오고 잘 모르는 단어가 나오면 무조건 “연구”고 “실무”가 아니라고 오해하시는 듯. “오해”를 “이해”했지만, 그래도 안타깝더라. 그 회사의 “유일하게 Python 쓸 수 있는 개발자” 분 참 많이 고생하겠다…

그나마 저런 식으로 자기네가 모르는 것들을 쫓아가는 분의 메일이나, 회사와의 미팅은 “안타까움” 수준에서 끝난다. 그런데, 가끔 “분노”의 수준까지 필자를 몰아부치는 회사들도 있다. 사업 초창기에 만났던 회사인데, 업무 협조에 도움이 될 만한 내용들을 블로그 포스팅하고 만난 분들이 정작 회사내 데이터 담당자라고 모델링이 뭔지 전혀 모르는 개발자 2명을 불러내시더라. 그 때 필자가 받은 느낌을 비유로 들자면, 평창올림픽 유치로 인한 경제적 파급효과를 계산한 경제학자에게 비슷한 프로젝트를 부탁하는 미팅자리에 “저는 매니저라서 실무는 담당하지 않구요, 저희 경리 직원과 이야기해보시면 어떨까요? 이번에 XX상고를 졸업하고, 주판 계산 대회에서 1등을 한 인재입니다.”라는 느낌이었다.

(공부 쬐금 더 했다고 고교 졸업한 산업의 역군을 무시하는거 아니다. 굳이 따지자면 무시는 필자가 당한거지. 필자가 분노한 대상은 그 고교 졸업한 산업의 역군이 아니라, 매니저라면서, 회사의 중요 직책에 있는 사람이 얼마나 게으르고 무지했으면 담당할 교육을 전혀 받지 않은 사람에게 미루고….)

 

2. 데이터 사이언스 인사 업무하시는 분들께

야구 경기는 9명의 야수와 1명의 투수가 진행하지만, 정작 프로야구 구단은 약 40명의 1군 자원과 100명이 넘는 2군, 육성군 선수들로 구성되어 있다. 이런 야구 구단에서 선수 선발 및 관리에 큰 영향을 미치는 전력 분석원이나 스카우터들은 대부분 전직 야구 선수 출신이거나, 몸은 야구를 몰라도 머리는 야구를 매우 잘 아는 “야빠”들이다. Money Ball에서 통계학자 하나가 야구 전략을 다시 썼다고하지만, 정작 그런 정책을 시도하고 이끌어간 Billy도 전직 프로야구 선수였고, 일을 도운 통계학자도 어마어마한 야구광이었다.

지난주에 “데이터 사이언티스트로써 업무 환경에 대한 감상”, “‘다른 업무’를 하는 인력들에게 데이터 활용을 어떻게 도울 수 있을지”를 알려달라는 모 대기업 자회사 인사팀 담당자의 메일을 받았다. 위에 한참 쓴 대로 비전문가 분들과의 경험이 축적되어 있었기 때문에, 질문의 내용만 보고 바로 미팅 요청을 거절했다. 첫번째의 좀 뜬구름 잡는 듯한 질문은 제쳐두고, 두번째 질문은 “빅데이터”가 있는 곳에서만 유의미한 업무고, 나머지 분야에서는 예전에 하던 그대로 밖에 할 수 없다는 필자의 여러 다른 글을 제대로 이해하지 못했다는 증거라고 본다. (너무 돌직구인가?)

그 분께 필자가 드렸던 메세지는 두 가지다. 엉뚱한 고민마시고 제대로 모델링할 줄 아는 똑똑이들 몇 명만 뽑아서 굴리면 어지간한 회사내 “도전”들은 다 소화하실 수 있다고, 괜히 “Data”라는 이름을 덧댄 Engineer나 Analyst를 뽑으실 필요가 없다고, “Data”만 떼면 이미 그런 인력들은 많이 보유하고 있으신 회사 아니냐고. 그리고 한 마디 덧붙인 부분이 위의 전력 분석원 and/or 스카우터 사례다. 정말 뛰어난 HR로 살아남고 싶고, 회사의 중요한 방향을 제대로 잡아낼 수 있는 인재를 뽑아 팀을 꾸리고 싶다면 본인이 직접 그 공부를 하셔야 된다고. 전력 분석원이 4년 80억짜리 대형 FA 계약을 맺는 성공한 프로야구 선수여야할 필요는 없다. 다만 이 선수가 우리 팀과 맞고, 충분히 성공할 수 있다고 판단하려면 그 선수의 능력치와 그 구단의 필요, 보유 선수별 특성을 매우매우매우 잘 알고 퍼즐을 맞출 수 있어야한다.

좀 미안한 말이지만, “데이터 사이언티스트로써 업무 환경에 느끼는 감정”같은 핀트 안 맞는 질문에 필자가 대답하기를 기대하셨다면, 실력있는 데이터 사이언스 팀 구성하는데 도움이 되긴 좀 어렵지 않을까? 참고로, 모델링할 줄 아는애 뽑아놓고 정작 Data Analyst로 굴리면 그 똑똑한 녀석은 이직 준비를 한다. (그렇다고 스펙이 좀 떨어지는 사람은 절대로 안 뽑더라 ㅋㅋ) 업무하면서 한 단계 더 성장하려고 직장다니는데, 정작 자신의 능력을 발휘하고 성장시켜준다는 느낌을 못 받을테니까. 인력을 뽑는 자리에 있는 사람들이 정확하게 무슨 일을 어떻게 시키고 있고, 팀원들이 어떤 능력을 갖춘 사람인지 제대로 파악 못하면 흔히 발생하는 일이고, 데이터 사이언스의 영역에서도 별반 다를 바 없다. 주판 계산 대회에서 1등한 “인재”와 같은 팀에 들어가 있는 것 같다고 불평하던 후배가 문뜩 떠오른다.

항상 필자에게 따끔한 충고질을 하는 비전문가 친구가 스타트업 C-level에 있으면서 필자에게 매우 엉뚱한 질문을 했던 적이 있다. 한번 쓴 욕을 먹고 나더니, 이렇게 아무것도 몰라서는 2류가 되겠다는 생각에 피곤하고 힘들어도 공부 좀 해야되겠다고 맘을 고쳐먹더라. C-level에서 중요한 사내 의사 결정들을 함께 해야하는데, 아무것도 모르는데 어떻게 회사에 도움이 되겠냐면서 필요한 내용들도 찾아보고 나중엔 필자의 수업도 듣고 그랬다. (물론 얼마나 이해하고 갔는지는 모른다ㅋㅋ)

 

나가며 – 한국 인력 선발&양성 방식의 한계

채용 프로세스를 보면 외국계 회사들과 국내 회사들의 접근법이 확연히 다르다. 외국계 회사들은 업무와 포지션을 구체적으로 명시하고 사람을 뽑는다. 경력직이 아니라 신입도 마찬가지다. 뽑는 사람들이 어떤 스킬셋을 원하는지 명확하게 알고 있고, HR도 거기에 최대한 맞춘 스크리닝을 한다. 물론 HR이 담당자는 아니니 항상 오류의 여지가 있기는 하지만, 최소한 팀이 누구를 뽑을지에 대한 결정을 하는 자리에 자기 업무에 대한 전문가가 아닌 사람이 앉아 있지는 않다. 국내에 있는 외국계 회사들이 뽑는 인원이 적어서 저렇게 효율적으로 진행해도, 본사에서는 다르겠지라고 생각했는데, 몇 년간의 객지 생활 경험을 바탕으로 보면, 굉장히 구체적인 체계가 있고, Early stage를 통과하고 나면 한 인원 당 뽑으려고 하는 10인 미만팀이 1,2개로 추려진다. (국내처럼 삼X 그룹 중 계열사 2, 3개가 관심을 보이는게 아니라, 계열사 1개의 작은 팀 1-2개를 말하는거다.)

국내 대기업들은 대규모 공채를 진행하고, 그 공채로 뽑은 인원들은 사내에서 팀은 물론이고 그룹 내 계열사를 넘어서까지 “동기”라는 방식으로 묶인다. 그래서 동기들이 길게 살아남아 있는 “기수”들은 회사 생활도 편해진다. 좀 어려운 일도 동기들에게 부탁하면 최대한 도와주는 관례가 있으니까. 문제는 이렇게 뽑는 방식이 그 인재의 능력을 최대한 살리는 방식, 그 인재의 꿈을 최대한 살리는 방식이 아니라, 조직의 목표에 맞춰서 인재의 능력과 꿈을 희생시키는 방식이라는 것이다. 그냥 Generalist를 뽑는데는 괜찮은 인재 성발 & 양성법이라고 할 수 있을지 모르지만, 특정 능력치를 갖춘 전문가를 뽑고, 그 팀을 운영하는데는 별로 좋은 방법이 아니다.

단적으로, 데이터 사이언스 팀을 하나 만든다고 하면, 제대로 운영되는 회사는 핵심 의사결정권자 (ex. CEO)가 직접 사업 내용을 이해하고 적합한 사람을 뽑고, 그 사람이 다른 인재를 채용하는 방식으로 진행될텐데, 공채로 뽑는 문화, 특히 HR 중심의 문화가 지배적인 국내 대기업들에서는 핵심 의사결정권자가 우수한 인재 1~2명을 뽑았더라도, 그 다음 인사는 HR에서 엄청나게 개입을 할 것이다. 이런 업무일수록 학위와 타이틀로 Resume screening을 해야할게 아니라, 기존 업무에서는 눈에 띄지 않는 능력들이 필요한 경우가 많은데, 대부분의 HR들은 불행하게도 그런 능력이 없다. 데이터 사이언스를 겪어본 적이 없기 때문이다.

필자와 유사한 스킬셋을 가진 사람이 새롭게 생기는 대기업의 데이터 사이언스 팀에 들어가면, 전혀 교육이 안 되어 있는 기존 인력들의 무지와 오해 때문에 업무 협조에 버거운 일이 매일같이 반복될 것이다. 당장 수리통계학 모델링이 뭔지 모르는 보스에게 지치고, 어디서 줏어듣고 온 기획자가 꿈꾸는 이야기를 구현하는 모델링 작업에 개발자들이 계속 딴지를 거는 일에 또 지칠 것이다. 코드 바꿔서 데이터 쌓는 방식 바꾸자고 그러면, 처음 들어보는 이야기에 디버깅하는거 겁나서 무조건 안 된다고 우기는 개발자에게 당하고, 비용 더 든다고 합리적인 근거를 들이대라는 재무팀에 당하고, 이거 진짜 구현되는거 맞냐고, 맞으면 이런거 저런거 다 되냐고 묻는 기획자에게 당하고, 뽑은지 한 달이 지났는데 도대체 언제쯤 모델링이 뭔지 보여줄꺼냐고 조급증을 내는 팀장에게 당하고… 그.. 그만하자. 이래서 다들 맘 편한 연구소에 짱박히는거다. 에효~

HR은 물론이고, 팀 전체가 데이터 사이언티스트의 업무를 어느 정도는 이해해야 업무 협조가 될텐데, 개발자는 (평소에 하던 것처럼) 코드 copy & paste해서 작업하는게 데이터 사이언스인 줄 알고 있고, 팀장은 그래프 예쁘게 그리는 Data visualization이 데이터 사이언스인 줄 알고 있는 판국이니 참 갑갑하지 않을까 싶다. 그래도 가끔은 직접 이해를 하고 회사 조직을 개편하겠다고 수업에 찾아오시는 회사 대표님들도 있다. 당연하겠지만 그 분들이 회사가 쓸 모델을 전부 다 만들어낼려고 수업에 오시는거 아니다. 회사 조직을 개편하고 발전시키려면 이걸 어느정도는 알아야 합리적인 선택을 내릴 수 있다는 사실을 더 늦기 전에 깨달았기 때문일 것이다. 그 분들의 강렬한 눈 빛에서 이 시장의 희망을 본다.

X