데이터 사이언티스트가 되는 길

데이터 사이언스에 대한 견해를 묻는다는 메일을 하나 받았다. 엉? 견해? 무슨 견해? (중략) 최근에 데이터 사이언스에 대한 관심이 많아진 공대 학부생입니다. 제가 어떤 데이터를 추출하고 분석하여 새로운 유용한 가치를 주고 싶은데, 데이터 사이언스, 맞는 길이겠죠? 다만 한 사람이 그 과정을 전부 하기는 불가능하다고 합니다. 그래서 데이터 엔지니어, 분석가 (도메인 지식), 그리고 수학, 통계의 박사과정을 밟은 소개 더보기 데이터 사이언티스트가 되는 길[…]

딥러닝(Deep learning)을 R로 구현하기 – Prediction Model

일반에 딥러닝으로 알려져 있는 머신러닝 모델의 가장 기본이 바로 신경망(Neural Network) 모델이다. 다른 글에서 신경망 모델로 Sin(X) 그래프를 추적하는 예제를 하나 풀어봤었는데, 기본적으로 아래처럼 네트워크가 100% 꽉 들어차 있는 Fully Connected Neural Network 모델이 기본형이다. (Deep Neural Network, 일반에는 딥러닝으로 알려져 있다.) 여기서 몇 개의 노드(node)가 사라지는 경우, 또 넣었다 뺐다 하는 경우(Dropout 이라고 한다) 소개 더보기 딥러닝(Deep learning)을 R로 구현하기 – Prediction Model[…]

구글 애널리틱스 (Google Analytics)를 쓰다가

밥 먹고 사는 타이틀을 데이터 사이언티스트로 달고 난 이래 줄곧 온라인 유저 데이터를 보고 살아온 탓에 “중독”증상이 좀 있는 것 같다. 처음 이 웹페이지를 만들고 난 다음에 제일 먼저 했던 일이 예쁘게 꾸미는 테마 구하는게 아니라, 데이터 추적하는 구글 애널리틱스 (Google Analytics)를 설치하고, 필자의 IP 주소를 블랙리스트 시켜서 숫자 합산에 포함되지 않도록 하는 일이었다. (필자는 소개 더보기 구글 애널리틱스 (Google Analytics)를 쓰다가[…]

데이터 과학의 대중화 – Citizen Data Scientist

데이터 사이언스, 데이터 과학자, 그리고 Citizen Data Scientist 요즘 데이터 사이언스 동네에서 돌아다니는 키워드 중 하나가 바로 “Citizen” Data Scientist다. 쉽게 이야기하면, 특별히 학위와 경력을 쌓지 않아도 누구나 데이터 사이언스를 할 수 있도록 하자는 움직임이다. 워낙에 데이터 사이언스가 Buzzword가 되어있다보니 이런 표현이 나온 것 같은데, 이 표현의 정확성을 좀 더 살리면 “Citizen” Big Data Analyst로 소개 더보기 데이터 과학의 대중화 – Citizen Data Scientist[…]

데이터 과학자도 인공지능이 대체한다

데이터 사이언스, 데이터 과학자, 인공지능, Prophet 데이터 사이언티스트가 부족하고, 좋은 사람을 찾기도 힘들어서 (그리고 비싸서), 아예 인공지능으로 대체해보려는 움직임이 많이 있다. 가장 많이 발달한 영역은 시계열 (Time-Series) 데이터를 넣으면 향후 예측치를 보여주는 시뮬레이션 모델인데, 정확성이 꽤나 높게 나와서 이제 다른 영역의 데이터 사이언스도 인공지능으로 대체될지도 모른다는 “설레발”들이 입에 오르내리고 있다. 최근에 모 데이터 사이언스 학회에 소개 더보기 데이터 과학자도 인공지능이 대체한다[…]

데이터 사이언스는 죽었다

데이터 사이언스는 죽었단다. (Data Science is Dead.) 자칭 데이터 사이언티스트 입장에서 읽기는 좀 불편하지만 공감할 수 밖에 없는 글을 하나 읽었다. 과학의 테두리 안에 들어가는 학문은 어떤 특성을 가지는가? 조건을 지정해서 실험을 하고 그 결과값을 바탕으로 가설을 검증하고, 새로운 가설을 찾는 과정이다. 데이터 사이언스 안에는 A/B Testing이 있지 않냐고 주장할 수도 있을텐데, 이미 데이터를 만드는 소개 더보기 데이터 사이언스는 죽었다[…]

빅데이터 분석의 한계과 미래 (feat, Nate Silver)

데이터 사이언스, 빅데이터, Bad data, 분석의 실패 2012년 미국 대선에서 50개 주의 승패를 모두 맞춘 걸로 유명해진 Nate Silver가 FiveThirtyEight (이하 538)이라는 데이터 블로그를 2008년부터 운영하고 있다. 말이 블로그지 사실 왠만한 신문사 출신 기자들 다 모여있고, 글의 깊이도 상당하다. 글의 대부분은 상당한 내공이 담긴 데이터 분석, 통계 모델링이 들어가 있고, 가끔 보면 어디서 저런 데이터를 소개 더보기 빅데이터 분석의 한계과 미래 (feat, Nate Silver)[…]

데이터 과학자가 갖춰야 할 5가지 스킬셋

데이터 사이언스, 데이터 과학, 데이터 과학자, 머신러닝, 딥러닝, R 주변에서 데이터 사이언티스트가 될려면 어떤 공부를 해야되는지 묻는 경우가 참 많다. 전에 다녔던 크리테오라는 프랑스 리타게팅 광고 회사의 세일즈 팀 사람들은 Data Analyst 와 Data Scientist가 무슨 차이가 있는지 잘 모르고 날 더러 그냥 데이터 팀 사람이라고 불렀고, 그 중 누구는 자기가 데이터 쪽으로 커리어를 전환하고 소개 더보기 데이터 과학자가 갖춰야 할 5가지 스킬셋[…]

머신러닝 초보자에게 바치는 5가지 “하지 마라” 시리즈

데이터 사이언스, 머신러닝, 빅데이터, 교재 데이터 사이언스 강의를 시작했다, 그 강의 중에 머신러닝도 많이 들어가있다고 소개를 했더니, 어떤 책을 사서 공부해야되냐고 묻는 사람, 그거할려면 개발 지식 필요하냐고 묻는 사람, 통계학 지식이 필요하냐고 묻는 사람 등등 다양한 종류의 질문을 받았다. 필자는 이렇게 대답하고 싶다. “일단 예제 하나 돌려보세요.” 언젠가 어느 개발자가 “친구가 R 공부하려고 하는데, 어떻게 소개 더보기 머신러닝 초보자에게 바치는 5가지 “하지 마라” 시리즈[…]

머신러닝 스타트업 투자자들이 알아야 할 필수 지식

인공지능, 머신러닝, 데이터 사이언스   요즘 인공지능, 머신러닝 같은 Buzzword를 걸고 사업 소개를 하는 발표를 가면 꼭 나오는 말이 있다.   “우리가 현재 최고의 AI 기술을 보유하고 있다!” 그래서 당신들의 인공지능 기술을 제대로 좀 설명해봐달라고 부탁하면, 앵무새같이 홍보 문구만 열심히 읊어댄다. 제대로 된 대답을 못 들은 것 같아서, 좀 더 구체적으로 파고들어가는 질문을 다시 하면 소개 더보기 머신러닝 스타트업 투자자들이 알아야 할 필수 지식[…]

베이지안 딥러닝이 보여준 인공지능의 한계와 미래

매일 경제 신문에 영국에 있는 인공지능 스타트업 하나와의 인터뷰 기사가 실렸는데 내용이 참 흥미롭다. 알파고에 쓰인 딥러닝 기술이 가진 문제점을 지적하고, 그 문제점을 어떻게 수학적으로 해결하려고 하는지, 그래서 어느 분야에 활용할려고 하는지에 대한 개략적인 내용인데, 솔직히 인터뷰 내용만 보면 아직 사업 모델은 없고, 박사들 여러 명이 모여서 연구만 하고 있는 것 같기는 하다. 그래도 연구 소개 더보기 베이지안 딥러닝이 보여준 인공지능의 한계와 미래[…]

X