2017-06-07

자유게시판

실험계획법 (DOE)와 데이터 사이언스에 대한 질문이 있습니다.

작성자
Keith
작성일
2018-07-11 10:22
조회
82
안녕하세요,

제조공정에서 발생하는 데이터 분석에 관심있는 학생입니다. 응용통계분야에 궁금한점이 있었는데, 블로그를 읽어보던 중 수학과 이론적인 분야에 전문가이신게 한 눈에 느껴져, 제 의문점을 해결해 주실 수 있을 것 같아 연락드리게 되었습니다.

현대에 빅데이터를 처리하는 기술이 발달하면서 모집단에 가까운 집단에 대한 직접적인 분석이 가능해져서 기존의 샘플링 작업의 필요성이 많이 없어진 것으로 알고 있습니다. 그러면 실험계획법 (DOE)과 같은 방법을 사용해 최적의 실험환경을 설정해 줄 필요도 없다는 이야기 같은데, 요즘 기업들이 공정의 모듈 데이터를 측정하여 제품의 고장률 및 품질에 대한 예측 정확도를 높이려는 시도를 하고 있다 들었습니다. 이와 같은 빅데이터의 활용이 계속되면 기존의 통계학에서 (쓰던) 추측통계와 실험계획법 같은 기법들은 사실상 활용가치가 떨어지는건가요? 아니면 데이터 사이언스 업무상에도 실험계획법과 추측통계가 중요하게 사용되나요?




안녕하세요 XXX님,

 

대수롭지 않은 수학실력을 갖고 있는데, 워낙 머신러닝을 코딩인 것처럼 말하고 다니는 개발자들의 태도가 불편하다보니 어쩔 수 없이 수학을 많이 강조하고 있는 것 뿐입니다. 말씀주신 실험계획법이라는게 통제된 설정아래 변인을 바꾸어가면서, 추가적인 시뮬레이션 데이터를 생성하면서 결과값이 바뀌는걸 테스트해보는 작업을 말하는건가요? 통계학을 가져다쓰는 밑바탕은 같아도 적용하는 학문마다 이름이 약간씩 달라서 확인만 하고 넘어갔으면 합니다.

만약 제가 알고 있는 내용이 맞다면, 제조업에는 빅데이터가 없다고 말씀드리는게 정확한 답변이 될 것 같습니다. 제 블로그 다른 글을 읽어보시면 어느 정도 감이 잡힐텐데, 빅데이터란 인간의 행동을 추적할 수 있는 데이터를 말합니다. (그냥 용량만 큰 데이터가 아니라요) IT업계에서, 금융시장에서 이런 데이터를 쓰게 된 이유도, 개개인들의 행동을 추적해서 모은 데이터가 생겼고, 그 데이터로 집단을 묶고, 그 집단에 대해서 타겟 마케팅, 타겟 상품 판매 등을 할 수 있기 때문입니다. 이미지 인식, 음성 인식 같은 분야에서 쓰이는 것도 마찬가지로 그런 패턴 데이터를 대규모로 저장할 수 있고, 계산할 수 있는 시대가 왔기 때문이죠.

그러나, 제조업에는 그런 종류의 데이터가 쌓이는 경우가 매우 제한적입니다. 철강, 화학 쪽 출신 분이 수업을 다녀가신 적이 있는데, 그 분들은 제가 말하는 빅데이터가 애시당초 생성되질 않는 곳에서 일을 하고 계십니다. 그런 분야에서 빅데이터가 생성되려면 XXX님이 말씀하시는 실험을 매우 많이 반복해서 데이터를 쌓는 수 밖에 없습니다. 그게 실제 기계가 돌아간 장기간의 데이터건, 통제 변인이 설정된 물리적인 실험이건 계산상의 시뮬레이션이건 그 업무에 맞게 적용되어야겠지만요.

추가로, 철도 교량의 안정성을 테스트하려던 분이 제 수업을 듣고 하셨던 방법은, 센서 여러개를 철도 차량과 교각에 설치한 다음, 받은 데이터를 시뮬레이션으로 데이터 숫자를 늘린다음, PCA 작업으로 그 데이터의 핵심적인 Vector들을 뽑고, 핵심 Vector가 얼마나 크게 움직였나로 교각의 이상 유무를 진단했었습니다.

또 추측 통계 (아마도 샘플을 뽑아서 통계량을 잡고, 그걸로 모집단의 분포를 예측하는 통계학이라고 짐작됩니다)는 안 쓰게 되냐고 궁금해하셨는데, 머신러닝이라는거 공부해보시면 그 모든 내용이 통계학이라는 걸 이해하게 되실 겁니다. 단지 Linear pattern들만 찾던 작업을 Non-linear 패턴 찾는 작업, Parametric 모델들을 Non-parametric으로 잡아내는 방법들이 기존보다 더 쉽게 쓸 수 있도록 계산 알고리즘이 지원을 해 주고, 그렇게 모델링해서 도움이 되는 패턴 데이터 (s0-called 빅데이터)가 나타났기 때문에 요즘 붐이 생긴거죠.

아마 위의 사례로 전반적인 그림이 그려질 거라고 생각합니다. 더 궁금한 내용이 있으면 연락주세요.
전체 0

전체 32
번호 제목 작성자 작성일 추천 조회
공지사항
향후 강의 계획 및 웹페이지 운영 방안 (1)
Keith | 2018.07.04 | 추천 7 | 조회 115
Keith 2018.07.04 7 115
공지사항
강의에 대해 궁금한 내용, 강의 중 궁금한 내용이 있으면 여기에 글 올려주세요
Keith | 2017.06.07 | 추천 0 | 조회 393
Keith 2017.06.07 0 393
23
실험계획법 (DOE)와 데이터 사이언스에 대한 질문이 있습니다.
Keith | 2018.07.11 | 추천 0 | 조회 82
Keith 2018.07.11 0 82
22
복습용 강의동영상이 실제 강의와 동일한것인가요? (1)
rbgml2100 | 2018.07.10 | 추천 0 | 조회 101
rbgml2100 2018.07.10 0 101
21
C 언어 기반의 데이터 분석
Keith | 2018.07.09 | 추천 0 | 조회 84
Keith 2018.07.09 0 84
20
수학 & 통계 수업 전에 미리 학습해야할 내용이 있을까요?
Keith | 2018.07.09 | 추천 1 | 조회 93
Keith 2018.07.09 1 93
19
강의 스케쥴 관련 (1)
hochi | 2018.07.03 | 추천 0 | 조회 91
hochi 2018.07.03 0 91
18
데이터 사이언스 기초 by Excel (1)
mhkang | 2018.06.14 | 추천 0 | 조회 174
mhkang 2018.06.14 0 174
17
강의 수준 좀 문의드립니다
Keith | 2018.05.14 | 추천 6 | 조회 310
Keith 2018.05.14 6 310
16
학부 졸업을 앞두고 고민이 많아서 연락드립니다 (3)
Keith | 2018.05.11 | 추천 5 | 조회 312
Keith 2018.05.11 5 312
15
[수학&통계학] 강의 문의드립니다 (1)
Keith | 2018.05.11 | 추천 5 | 조회 209
Keith 2018.05.11 5 209
14
향후 강의 계획은 어떻게 되나요?
Keith | 2018.05.04 | 추천 10 | 조회 226
Keith 2018.05.04 10 226
X