데이터 사이언스 강의 벤치마킹

데이터 사이언스 강의를 왜 들을까?

요새 너도나도 데이터 사이언스라는 표현을 쓰니까 단순히 호기심에 알고 싶어서? 이걸 배워서 회사 업무에 써먹으려고? 아니면 배운 내용을 이용해서 직장을 찾는데 쓰려고?

다른 글에서 이미 언급했다시피, 몇 달 수업을 듣는다고해서 그 능력을 사주는 직장을 찾기는 쉽지 않다. 강의를 들으며 진행한 프로젝트를 바탕으로 실력을 검증받을 수 있다고 하는데, 학부시절에 뱅킹, 컨설팅 업계에 들어가보겠다고 이런저런 경진대회에 참여해서 수상한 실적들이 직장 찾는데 도움이 되었냐고 물어보면 그렇지는 않았던 것 같다. 오히려 어느 회사에서 인턴 했던 경력, 추천해주는 분의 명성 같은 내용이 훨씬 더 중요했던 기억이 난다. 회사들이 학력과 전공, 학벌가지고 사람을 걸러내는 것도 결국에는 실력에 대한 검증을 제대로 할 수 없는 정보의 비대칭성 때문이지 않을까?

검색 엔진에 “데이터 사이언스”, “머신러닝”, “빅데이터” 같은 Buzzword를 넣으면 많은 회사들이 학생들을 꼬시려고 광고를 하고 있더라. 이 중에 과연 얼마가 1.단순한 호기심 때문에, 2.회사 업무에 써먹으려고, 혹은 3.직장 찾는 디딤돌로 삼으려고 그 수업을 들을까?

이런 질문으로 데이터 사이언스 강의 벤치마킹 글을 시작하는 이유는, 거의 대부분의 강의들이 취업 연계 프로그램을 갖고 있기 때문이다. 그리고 몇몇 취업에 성공한 사람들에 대한 인터뷰를 싣고, 여러분도 이렇게하면 성공할 수 있습니다, 수업을 들으러 오세요라고 광고를 하고 있다.

취업률 100%라고 홍보하는 대학들 광고를 보면서 생각이 많았는데, 벤치마킹하는 강좌들이 취업률로 저렇게 홍보하는걸 보면서 또 생각이 많아졌다.

결론부터 말하면, 강의 홍보 보다는 수업의 질과 깊이에 집중하고, 수강생의 취업률에는 관심을 두고 싶지 않다.

 

무료 온라인 강의

구글링을 하다가 “수강료 400만원 데이터 사이언스 스쿨 커리큘럼을 대체하는 온라인 무료강의 15개 커리큘럼“이라는 글을 봤다. 400만원에 육박하는 돈을 주고 데이터 사이언스 커리큘럼을 따라간다는게 너무 비싸다는 생각에 나온 글인지 꽤나 호응이 좋았다. 간략하게 소개된 수업들을 정리해보면,

이렇게 9개 수업의 링크를 공유하고 있더라. 기초를 익히기에 괜찮은 조합이라고 생각하고, 이 정보를 모으느라 고생하신 원 글을 쓰신분께 Like 하나 꾹 눌러주고 싶다. 모두 좋은 수업이고, 필자도 잘 모르는 데이터 베이스 부분은 위의 강의로 공부했었다(고 솔직하게 고백한다).

좋은 강의들이지만, 몇 가지 아쉬운 점이 있는데, 그 중 가장 큰 문제는 이론만 설명하지, 진짜 데이터에 적용하는 훈련을 안 시켜준다는 것이다. “Python을 통한 데이터 분석 실습”이라는 수업은 뭐냐고 반문하실텐데, 그 수업은 “진짜” 데이터가 아니라, 간단한 예제만 다루고 넘어가는 수업이다. 그럼 진짜 데이터는 뭐냐고?

회사 다니면서 데이터베이스에서 SQL로 Raw 데이터를 뽑아본 적이 있으면 잘 알 것이다. 

데이터 베이스에는 위와 같은 테이블의 방식으로 데이터를 저장하고, 여러개의 테이블 중에 일부를 골라 열(Column) 몇 개를 연결해서 원하는 정보를 출력해낸다. 당연히 이런 데이터를 다루면서 위의 이론들을 테스트해보지 않으면, 저 수업에서 배운 지식들은 그냥 죽은 지식이 된다.

온라인에서 위와 같은 데이터를 다루는 강의를 아직까지 못 만나봐서 한번 해보고 싶은 생각이 드는데, 막상 온라인 강의로 옮기기가 쉽지가 않더라.

학교에서 이론 이해를 위한 강의를 하고 있으면 사실 저 위의 무료 온라인 강의만 들어도 충분하다. 그러나 취업과 회사 업무 적용으로 초점을 옮기면, Raw 데이터에 수학/통계학 모델을 적용해보고 그 중간에 발생하는 데이터 전처리 문제, Missing data 문제, 오류가 있을 때 해결하는 문제 등을 경험해보지 않은 지식이 과연 “실용적”이라고 할 수 있을까?

학교에서 석박사들을 대상으로 하는 수업이 아니라, 대중에게 공개하는 수업이라면 그 방점이 “실용적”이어야할텐데, 그렇다고 코드 예제 따라하기 수준에 머물 수는 없으니까 타협점을 찾기가 참 힘들다.

 

고가의 오프라인 강의: 그 400만원짜리 강의

필자가 내놓은 강의는 그 400만원짜리 강의 중 일부와 매우 유사하다. 그 일부에 대한 홍보 페이지를 가보니 7주동안 100시간 강의를 듣고, 정가를 240만원으로 내놨던데, 저걸 진짜로 듣는 사람이 있구나는 생각이들만큼 비싼 가격이지만, 그래도 많이들 듣는지 수강 후기가 꽤나 있더라. 경쟁사지만, 그래도 칭찬하고 싶은 부분은 7주동안 100시간을 쏟아붓도록 만드는 커리큘럼이다. R이건 Python이건 상관없이, 코딩은 본인이 천재가 아니라면, 그리고 남의 코드를 베끼지 않는다면, 시간을 투자하고 경험을 축적해야 실력이 는다.

경쟁사 강의를 보고 있으니 필자의 외부 강의는 참 초라해보인다. 강의 홍보 페이지가 초라해보이는게 아니라, 겨우 30시간 강의 + (최대) 20시간의 Office Hour를 제공하면서 100시간 교육받은 사람들이 할려고 하는 것보다 더 많은 내용을 쏟아붓고 그걸 또 다 따라오라고 강요하는데, 정작 취업 연계 프로젝트는 제공 안 한다. 굳이 차이점이 하나 있다면, 강사가 실제로 빅데이터를 다루는 머신러닝 회사를 다녀서, 그 회사들이 머신러닝을 어떻게 쓰고 있는지 보여줄 수 있는 정도에 불과하다.

경쟁사 따라잡기의 일환으로 강의실을 종일로 빌리고, 취업 연계 프로그램도 만들고 할까?

필자는 취업 사관학교를 만들고 싶지는 않다. 잘 가르쳐서 취업했다고 자랑하고 싶지도 않다. 가르친 사람이 평가를 받아야 할 곳은 학생들이지 기업들이 아니다. 학생들의 우수한 성과에 가르친 사람은 되려 고마워해야한다. 

 

원래 강의를 시작한 목적

처음 강의를 해야겠다고 마음 먹었던 때로 돌아가보자. 가까운 지인을 만나서 “데이터 사이언티스트로 한국에 돌아왔습니다”고 소개하면, “엑셀 많이 돌리겠네”, “공부 그렇게 많이하고 와서는 데이터 보는 일 하는거야?” 같은 질문을 엄청나게 많이 들었다. 이분들이 나름대로 미쿡의 유명 MBA를 나오고 한국서 잘나가는 회사의 중요 직책에 앉아계시는 분들이다. 데이터 사이언스는 그냥 데이터 “보는 일”이 아니라는 걸 설명할려다가 그냥 포기를 했다. 회사 안에서 같이 일하고 있는 Data Analyst 출신들의 능력치를 보고나니 더 이상 “데이터 사이언스가 그게 아니에요”라고 말하기도 힘들더라.

원래 강의를 시작한 목적은 두 가지다. 하나는 대중에게 데이터 사이언스는 데이터 분석도 아니고, 데이터 베이스 관리하는 일도 아니고, 빅데이터를 이용해서 모델 만들고, 그 모델을 빅데이터로 테스트하는 일이라는 걸 알리고 싶었다. 미국의 쇼핑 체인점 Target이 빅데이터로 10대 소녀의 임신 사실을 알아냈다는 이야기, 월마트에 들어가는 차량 숫자를 인공위성 사진 스캔으로 정리해서 그걸 주식 투자에 활용한다는 이야기, 온라인 쇼핑몰에서 봤던 상품들과 유사한 상품 중 가장 관심도가 높을 만한 상품을 배너 광고로 보여준다는 리타게팅 같은게 데이터 사이언스의 일부분이라는 걸 알리고 싶었다.

다른 하나는 우리나라에 좋은 데이터 사이언티스트가 자랄 수 있는 토양을 키워야된다는 욕심이었다. Data Analyst 경력이 장기간 쌓인 사람들이 할 줄 아는 분석이 얼마나 조잡한지도 봤고, 개발자들이 머신러닝 배우면 데이터 사이언티스트되는거 아니냐고 착각하는 이야기도 수도 없이 들었다. 답답했다. 저런 사람들이 계속 양산식 공장에서 찍혀나오면 이 업계는 망한다는 위협도 느껴졌다. 이런 트렌드를 한번 바꿔보고 싶었다.

그리고 위에 잠깐 소개한 기관에서 제시하는 지나친 고가의 수업보다 질도 좋고 가격도 싼 강의를 한번 공급해보고 싶은 마음도 있었다.

너무 편협한 사고방식인가? 이것도 사업인데?

글쎄다. 잘 가르치는 걸 고민해야 할 시간에 쓸데없는 고민을 다 했다.

 

 

 

X