[전용준. 리비젼컨설팅]
머신러닝 예측모델링의 전제와 가정
머신러닝 예측모델이 맞지 않는 이유는 데이터, 알고리즘,
예측 대상 설정 중 어딘가가 잘못되어 있기 때문.
그렇다면, Data와 Algorithm 중 어디를 고치는 것이 더 중요할 것인가?
머신러닝 예측모델의 전제와 가정
(Impicit Assumptions?)
[1] 과거가 미래의 척도가 된다
[2] 분석에 필요한 데이터가 존재한다
[3] 데이터가 예측하려는 내용을 담고 있다
이 전제사항들 중 무언가가 성립하지 않는다면 정확한 예측을 할 수 있는 모델이 만들어질 수 있겠는가?
[유튜브 영상 : TUTORIAL]
검토한다고 해보았으나,
가정이 성립하는지에 대한 판단이 어렵다면?
전제사항이 부분적으로만 충족된다면?
어쩌면 예측모델링이 무의미하거나, 예측모델링이 불가능한 상황일 수 도 있다.
그러한 상황에서라면 억지로 모델을 만든다고해봐야 아무런 쓸모가 없을 것이다.
머신러닝 예측 모델링 : 타겟 변수 정의 [1]
머신러닝 예측모델이 작동 자체도 될 수 없는 경우가 발생하는 가장 대표적인 이유는 예측 대상(Y)을 잘못 설정했기 때문. 그렇다면, Y를 어떻게 설정해야 할 것인가? [Rule #1] X는 과거에서 Y는 미래에서 온다 - 예측모델링의 용도는 미래에 대한 예측 - 이미 벌어진 상황의 설명이 아님 - 다음 시점에 다음 미래 계산 필요 같은 기간에 X와 Y를 두고 데이터를 사용해서 예측모델링(회귀분석이든 딥러닝이든)을 한다? "날씨 검색 많은 기간일수록 미세먼지 검색이 적다" 이런 식이라면 예측은 작동되지 않는다. 전용준. 리비젼컨설팅. 2019. [#머신러닝 #예측모델링 #전용준 #리비젼컨설팅]
[ 유튜브 영상 ]
[전용준. 리비젼컨설팅. 예측모델링. 머신러닝. 빅데이터. 알고리즘. 예측모델 설계]
** chatGPT generated 부연설명
기계 학습 예측 모델링은 데이터의 패턴을 기반으로 예측하는 데 사용되는 인기 있는 기술입니다. 그러나 때로는 이러한 모델에서 생성된 예측이 정확하지 않을 수 있습니다. 이러한 경우 모델의 성능을 개선하려면 근본적인 문제를 식별하고 해결하는 것이 필수적입니다. 이러한 맥락에서 다음과 같은 질문이 발생합니다. 수정하는 데 더 중요한 것은 데이터 또는 알고리즘입니까?
예측 모델을 구축할 때 특정 전제와 가정을 설정해야 합니다. 이러한 전제와 가정은 신뢰할 수 있는 모델을 개발하기 위한 기반이 됩니다. 기계 학습 예측 모델링의 기본 가정 중 하나는 과거가 미래의 척도 역할을 한다는 것입니다. 이는 과거 데이터에서 관찰된 패턴을 사용하여 미래 이벤트에 대한 예측을 할 수 있음을 의미합니다. 또 다른 가정은 분석에 필요한 데이터가 존재한다는 것입니다. 이 가정은 데이터가 분석에 사용 가능하고 액세스 가능하며 적절하다는 것을 의미합니다. 마지막으로 세 번째 가정은 데이터에 예측하려는 내용이 포함되어 있다는 것입니다. 이는 관련 데이터에 예측을 수행하는 데 필요한 정보가 있음을 의미합니다.
이러한 가정 중 하나라도 맞지 않으면 정확한 예측을 할 수 있는 모델을 구축하는 것이 어려울 수 있습니다. 따라서 예측 모델링을 진행하기 전에 이러한 전제와 가정이 확립되어 있는지 확인하는 것이 필수적입니다. 가정이 성립하지 않으면 가정이 성립되었는지 판단하기 어려울 수 있습니다. 이러한 경우 사용 가능한 데이터를 검토하고 사용 가능한 데이터를 보완할 대체 데이터 소스를 고려하는 것이 도움이 될 수 있습니다. 데이터가 분석에 적합한지, 모델이 적절하게 설계되었는지 판단하기 위해 전문가의 의견을 구하는 것도 도움이 될 수 있습니다.
부정확한 예측의 문제를 수정하는 데 있어 무엇이 더 중요한지, 데이터 또는 알고리즘 중 무엇을 수정해야 하는지에 대한 답은 간단하지 않습니다. 데이터와 알고리즘은 모두 예측 모델의 성공에 매우 중요합니다. 데이터는 알고리즘이 작동하는 원재료 역할을 합니다. 알고리즘은 데이터를 처리하고 패턴을 식별하며 예측을 생성합니다. 따라서 데이터와 알고리즘 모두 적절하게 구조화되어야 하며 예측 대상 설정이 잘 정의되어야 합니다.
또한 예측 모델에 의해 해결되는 문제의 특성을 고려하는 것이 중요합니다. 어떤 문제는 데이터에 더 집중해야 할 수도 있고 다른 문제는 알고리즘에 더 집중해야 할 수도 있습니다. 예를 들어 데이터가 부족하거나 품질이 낮은 경우 데이터 품질을 개선하는 것이 알고리즘을 개선하는 것보다 더 중요할 수 있습니다. 반대로 데이터의 품질이 높은 경우에는 알고리즘을 개선하는 것이 더 유리할 수 있습니다.
결론적으로 신뢰할 수 있는 예측 모델을 구축하려면 특정 전제와 가정을 설정해야 합니다. 이러한 전제와 가정은 모델의 기초 역할을 하며 정확도를 보장합니다. 부정확한 예측 문제에 직면했을 때 데이터와 알고리즘을 모두 고려하는 것이 필수적입니다. 데이터와 알고리즘 모두 적절하게 구조화되어야 하며 예측 목표 설정이 잘 정의되어야 합니다. 문제의 특성에 따라 데이터나 알고리즘에 더 초점을 맞춰야 할 수도 있지만 둘 다 신뢰할 수 있는 예측 모델을 구축하는 데 필수적입니다.
'인공지능' 카테고리의 다른 글
[RFNNC MDL 2019] R을 이용한 재무적 분석 _ 예측과 이상탐지 (0) | 2019.11.18 |
---|---|
[AI Summit] 머신러닝과 딥러닝 실전 – Python을 활용한 상품 추천 - 전용준 (0) | 2019.10.02 |
[전용준] 리비젼컨설팅 대표. -- 비즈니스 머신러닝 적용사례들의 교훈 - 기대와 실제의 차이(PDF) (0) | 2019.04.13 |
[인공지능컨퍼런스] AI서밋 Workshop - 머신러닝 실전: 예측과 이상패턴 탐지 (0) | 2018.10.26 |
인공지능과 빅데이터의 시너지 - 현재와 미래 (0) | 2018.10.23 |