# =========== creating decision tree ===============
# 데이터 셋은 데이터 처리 연습에서 사용하던 것을 그대로 가져다 사용
# 다시 한번 돌려서 머지된 RBI와 OPS 있는 데이터 셋을 사용하든지 아니면
# k6 데이터 셋을 사용하든지
attach(k6)
k7 <- aggregate(OPS~team, FUN=median, na.rm=TRUE)
k8 <- aggregate(rbi~team, FUN=median, na.rm=TRUE)
k9 <- merge( k7, k8,by="team")
# party라는 라이브러리에는 트리와 몇가지 분석 방법이 들어 있으니
# 그중 c-tree (conditional inference tree)를 사용해서 트리를 한번 만들어 보기로 하고
library(party)
# 트리를 만드는 과정과 트리를 디스플레이하는 과정은 별도로 이루어 지니
# 트리를 만들어도 R studio는 당연히 묵묵부답
# RBI가 target variable 또는 dependent variable. OPS는 input 또는 independent variable
k10 <- ctree(rbi ~ OPS, data=k6)
# 만들어진 트리를 디스플레이하기 위해 plot을 사용
# main 옵션에 지정한 것은 이미지 상의 트리 제목
plot(k10, main="RBI by OPS of KBO batterbox")
일단, 트리는 그려졌으니 만족!!!
하지만, 의미를 대충이라도 이해해야지...
RBI는 OPS에 따라 차이가 난다.
OPS가 큰 값을 가지면 RBI도 큰 값을 가지는 관계가 있다.
OPS가 0.825가 넘는 경우가 48명 타자중에 12명이 있는데
그들의 경우 대략 RBI (타점) 40점 가량은 되고, 좀 더 많거나 적거나 하기는 하다.
... 아주 초보의 데이터 분석이지만, R을 사용해 가볍게 한번 돌려보면서
적어도 RBI가 OPS와 상관이 크다는 점은 발견
(이런 상식적인 과정을 거창하게 우리는 데이터 마이닝 이라고 부른다는 것! ㅎㅎ)
-- last update : 2013. 02. 01
'R 데이터 분석' 카테고리의 다른 글
[R 데이터 분석 연습] 플롯과 heatmap을 통한 추가적 EDA 탐색적 분석 (0) | 2013.02.08 |
---|---|
[R 데이터 분석 연습] ctree 를 보기 좋게 수정하는 custom 함수 활용 (0) | 2013.02.06 |
[R 데이터 분석 연습] RFM 데이터 준비와 모델링 (0) | 2013.02.05 |
R 디시젼 트리 기본적인 옵션 활용 (0) | 2013.02.02 |
R을 사용한 데이터 처리 [왕초보용 연습 example] (0) | 2013.01.31 |