딥러닝(Deep learning)을 R로 구현하기 – Prediction Model

일반에 딥러닝으로 알려져 있는 머신러닝 모델의 가장 기본이 바로 신경망(Neural Network) 모델이다. 다른 글에서 신경망 모델로 Sin(X) 그래프를 추적하는 예제를 하나 풀어봤었는데, 기본적으로 아래처럼 네트워크가 100% 꽉 들어차 있는 Fully Connected Neural Network 모델이 기본형이다. (Deep Neural Network, 일반에는 딥러닝으로 알려져 있다.) 여기서 몇 개의 노드(node)가 사라지는 경우, 또 넣었다 뺐다 하는 경우(Dropout 이라고 한다) 소개 더보기 딥러닝(Deep learning)을 R로 구현하기 – Prediction Model[…]

데이터 사이언스 강의 벤치마킹

데이터 사이언스 강의를 왜 들을까? 요새 너도나도 데이터 사이언스라는 표현을 쓰니까 단순히 호기심에 알고 싶어서? 이걸 배워서 회사 업무에 써먹으려고? 아니면 배운 내용을 이용해서 직장을 찾는데 쓰려고? 다른 글에서 이미 언급했다시피, 몇 달 수업을 듣는다고해서 그 능력을 사주는 직장을 찾기는 쉽지 않다. 강의를 들으며 진행한 프로젝트를 바탕으로 실력을 검증받을 수 있다고 하는데, 학부시절에 뱅킹, 컨설팅 소개 더보기 데이터 사이언스 강의 벤치마킹[…]

온라인 공짜 강의들의 실체 (feat. 국비지원)

데이터 사이언티스트가 되려면 얼마나 많은 준비를 해야 할까? 당연하겠지만 필자의 8주 강의 하나를 듣는다고 완벽하게 준비되는 것은 절대로 아니다. 우연히 구글링을 하다가 본 글에서 눈에 확 들어오는 문구가 여기에 딱 맞는것 같아서 소개하고 싶다. 어느 국비지원 IT학원 6개월 과정을 듣고 난 다음에 극소수만 취업한다, 대부분은 중간에 나가 떨어지고, 일부 취업하는 사람들도 엄청나게 악조건으로 채용된다… 는 소개 더보기 온라인 공짜 강의들의 실체 (feat. 국비지원)[…]

구글 애널리틱스 (Google Analytics)를 쓰다가

밥 먹고 사는 타이틀을 데이터 사이언티스트로 달고 난 이래 줄곧 온라인 유저 데이터를 보고 살아온 탓에 “중독”증상이 좀 있는 것 같다. 처음 이 웹페이지를 만들고 난 다음에 제일 먼저 했던 일이 예쁘게 꾸미는 테마 구하는게 아니라, 데이터 추적하는 구글 애널리틱스 (Google Analytics)를 설치하고, 필자의 IP 주소를 블랙리스트 시켜서 숫자 합산에 포함되지 않도록 하는 일이었다. (필자는 소개 더보기 구글 애널리틱스 (Google Analytics)를 쓰다가[…]

빅데이터가 금융업에 줄 충격

빅데이터, 보험, 금융업 실리콘 밸리에서 면접 보던 시절에 Fitbit 데이터로 의학 관련 업무를 할려고 하는 스타트업을 본 적이 있다. Fitbit으로 맥박을 추적하면 한 개인의 건강과 생활 습관에 대해서 많은 정보를 얻을 수 있는데, 그걸 제약업체에 넘겨주기 위한 자료 처리를 하는 스타트업이었다. 필자가 워낙 의학 관련 지식이 없어서 솔직히 모르겠다고 대답하고는 더 이상 면접을 못 봤는데, 소개 더보기 빅데이터가 금융업에 줄 충격[…]

데이터 사이언스 석사 – 이렇게 돌아간다

데이터 사이언스 석사 프로그램에 관심있다면서 어떤 내용을 배우는지, 어떻게 준비해야되는지, 그리고 졸업하고나면 어떻게 진로가 잡히는지 물어보는 분들이 참 많다.  필자는 데이터 사이언스 석사 프로그램에서 공부한 적이 없고, 학위 중에 데이터 사이언스도 없어서 정확한 답변을 해 줄 수 없겠지만, 그래도 일단 알고 있는 내용들을 많은 분들과 공유하는 게 좋을성 싶어 짧게 정리해본다. 다른 의견이 있으신 분들은 소개 더보기 데이터 사이언스 석사 – 이렇게 돌아간다[…]

깨워라! 한국의 빅데이터

빅데이터, 데이터 사이언스, 데이터 사이언티스트 런던 시내 한 가운데에 있는 대학에서 공부하는 대학원생이 아침에 연구실에 “출근”할 때 갖고 나타나는 것은? 어젯밤에 본 교과서? Problem Set? 논문? 땡!땡!땡! 우리가 아침에 갖고 왔던 것은 2리터짜리 물병과 도시락이었다. 런던 물가가 비싸니까, 가난한 대학원생들이 돈을 아끼려고 도시락을 챙기는건 이해가 될 수도 있겠는데, 물은 왜 갖고 왔을까? 2리터면 2키로나 되는데, 그 소개 더보기 깨워라! 한국의 빅데이터[…]

데이터 과학의 대중화 – Citizen Data Scientist

데이터 사이언스, 데이터 과학자, 그리고 Citizen Data Scientist 요즘 데이터 사이언스 동네에서 돌아다니는 키워드 중 하나가 바로 “Citizen” Data Scientist다. 쉽게 이야기하면, 특별히 학위와 경력을 쌓지 않아도 누구나 데이터 사이언스를 할 수 있도록 하자는 움직임이다. 워낙에 데이터 사이언스가 Buzzword가 되어있다보니 이런 표현이 나온 것 같은데, 이 표현의 정확성을 좀 더 살리면 “Citizen” Big Data Analyst로 소개 더보기 데이터 과학의 대중화 – Citizen Data Scientist[…]

데이터 과학자도 인공지능이 대체한다

데이터 사이언스, 데이터 과학자, 인공지능, Prophet 데이터 사이언티스트가 부족하고, 좋은 사람을 찾기도 힘들어서 (그리고 비싸서), 아예 인공지능으로 대체해보려는 움직임이 많이 있다. 가장 많이 발달한 영역은 시계열 (Time-Series) 데이터를 넣으면 향후 예측치를 보여주는 시뮬레이션 모델인데, 정확성이 꽤나 높게 나와서 이제 다른 영역의 데이터 사이언스도 인공지능으로 대체될지도 모른다는 “설레발”들이 입에 오르내리고 있다. 최근에 모 데이터 사이언스 학회에 소개 더보기 데이터 과학자도 인공지능이 대체한다[…]

데이터 사이언스는 죽었다

데이터 사이언스는 죽었단다. (Data Science is Dead.) 자칭 데이터 사이언티스트 입장에서 읽기는 좀 불편하지만 공감할 수 밖에 없는 글을 하나 읽었다. 과학의 테두리 안에 들어가는 학문은 어떤 특성을 가지는가? 조건을 지정해서 실험을 하고 그 결과값을 바탕으로 가설을 검증하고, 새로운 가설을 찾는 과정이다. 데이터 사이언스 안에는 A/B Testing이 있지 않냐고 주장할 수도 있을텐데, 이미 데이터를 만드는 소개 더보기 데이터 사이언스는 죽었다[…]

빅데이터 분석의 한계과 미래 (feat, Nate Silver)

데이터 사이언스, 빅데이터, Bad data, 분석의 실패 2012년 미국 대선에서 50개 주의 승패를 모두 맞춘 걸로 유명해진 Nate Silver가 FiveThirtyEight (이하 538)이라는 데이터 블로그를 2008년부터 운영하고 있다. 말이 블로그지 사실 왠만한 신문사 출신 기자들 다 모여있고, 글의 깊이도 상당하다. 글의 대부분은 상당한 내공이 담긴 데이터 분석, 통계 모델링이 들어가 있고, 가끔 보면 어디서 저런 데이터를 소개 더보기 빅데이터 분석의 한계과 미래 (feat, Nate Silver)[…]

데이터 과학자가 갖춰야 할 5가지 스킬셋

데이터 사이언스, 데이터 과학, 데이터 과학자, 머신러닝, 딥러닝, R 주변에서 데이터 사이언티스트가 될려면 어떤 공부를 해야되는지 묻는 경우가 참 많다. 전에 다녔던 크리테오라는 프랑스 리타게팅 광고 회사의 세일즈 팀 사람들은 Data Analyst 와 Data Scientist가 무슨 차이가 있는지 잘 모르고 날 더러 그냥 데이터 팀 사람이라고 불렀고, 그 중 누구는 자기가 데이터 쪽으로 커리어를 전환하고 소개 더보기 데이터 과학자가 갖춰야 할 5가지 스킬셋[…]

머신러닝 초보자에게 바치는 5가지 “하지 마라” 시리즈

데이터 사이언스, 머신러닝, 빅데이터, 교재 데이터 사이언스 강의를 시작했다, 그 강의 중에 머신러닝도 많이 들어가있다고 소개를 했더니, 어떤 책을 사서 공부해야되냐고 묻는 사람, 그거할려면 개발 지식 필요하냐고 묻는 사람, 통계학 지식이 필요하냐고 묻는 사람 등등 다양한 종류의 질문을 받았다. 필자는 이렇게 대답하고 싶다. “일단 예제 하나 돌려보세요.” 언젠가 어느 개발자가 “친구가 R 공부하려고 하는데, 어떻게 소개 더보기 머신러닝 초보자에게 바치는 5가지 “하지 마라” 시리즈[…]

머신러닝 스타트업 투자자들이 알아야 할 필수 지식

인공지능, 머신러닝, 데이터 사이언스   요즘 인공지능, 머신러닝 같은 Buzzword를 걸고 사업 소개를 하는 발표를 가면 꼭 나오는 말이 있다.   “우리가 현재 최고의 AI 기술을 보유하고 있다!” 그래서 당신들의 인공지능 기술을 제대로 좀 설명해봐달라고 부탁하면, 앵무새같이 홍보 문구만 열심히 읊어댄다. 제대로 된 대답을 못 들은 것 같아서, 좀 더 구체적으로 파고들어가는 질문을 다시 하면 소개 더보기 머신러닝 스타트업 투자자들이 알아야 할 필수 지식[…]

머신러닝 언어처리 – R로 WordCloud 만들어보기

머신러닝에서 가장 고난이도 작업이 언어 처리고 그 중에서도 더 고난이도 작업이 자연어 처리다.  언어처리를 제대로 하기 위해서 한국말 같이 조사가 많이 들어가는 언어는 조사와 명사, 동사를 구분해내야하고, 또 어떤 쓰임새로 쓰였는지도 모델 내에서 소화해야한다. 여기서 자연어 처리로 한 단계 더 넘어가면, 이 단어가 이 문장에서 단어 그대로의 의미로 쓰였는지, 아니면 비꼬는 표현인지도 알아내야하고, 결국 문맥이라는 소개 더보기 머신러닝 언어처리 – R로 WordCloud 만들어보기[…]

X