>RE::VISION CRM

R 데이터 분석

[R 사용자 컨퍼런스 2014] 랜덤포리스트를 활용한 다차원 시계열 예측: 아이디어와 산업계 응용 방안

YONG_X 2014. 5. 23. 05:45

[R 사용자 컨퍼런스 2014 : 5월 30일 양재동 L타워]   

 http://rconference.itdaily.kr/program/

 

랜덤포리스트를 활용한 다차원 시계열 예측:

아이디어와 산업계 응용 방안

Multivariate Time Series Forecasting using Random Forest (in R): Ideas and Industial Applications

 

 

 . . .  전 용 준

 . . . 리비젼컨설팅 (Korea) 대표.

 

(아주대학교 경영학박사. CRM 전략수립, 고객데이터 분석, 예측모델링, 비정상패턴발견 스페셜리스트

 20년간 유통, 제조, 금융, 통신, 공공에 대한 컨설팅 서비스 제공. 

 아주대학교 일반대학원, 경영대학원 강사 역임 )

 

 

 

      이 발표에서는 R에 제공되고 있는 랜덤포리스트(randomForest) 패키지를 활용해서, 통상적으로 이루어지고 있는 ETS, ARIMA류의 패키지를 활용하는 단일 시계열 데이터 기반의 시계열 예측을 하는 방식의 근본적인 한계를 극복하는 방안에 대한 경험과 아이디어를 공유한다. 일종의 massive model combination 방법으로 분류될 수 있는 랜덤포리스트는 그 자체로서도 매우 유용한 모델링 도구로 최근 각광받고 있으나 (특히 Kaggle competition community에서), 예측적인 시계열 분석을 위해 활용되는 사례는 알려진 바가 많지 않았다. 그러나, 특히 실제 산업 분야에서의 시장 관련 예측에서는 서로 다른 원천으로 부터 수집되는 다양한 시계열 데이터들이 독립적으로 또는 결합되어 하나의 예측에 실용적으로(pragmatically) 사용될 수 있기에 이들을 종합적으로 또 최대한 활용하기 위해 다수의 변수들 중 핵심 변수를 선택하는 용도로도 랜덤포리스트가 매우 강력한 성능을 보여줄 수 있다.

      이에, R의 신축성있는 패키지들을 연계시켜, 랜덤포리스트를 다음 단계의 실제 다변량 시계열 예측 모델에 투입할 핵심 변수 선택을 위한 1차 필터(Initial Filter)로 사용하는 응용 방안을 제시하고 이의 산업계 실무 적용시 가능성과 장점에 대해 논의 한다.

 

                                       http://rconference.itdaily.kr/program/