>RE::VISION CRM

R 데이터 분석

R 마이닝 첫경험[?] [디시젼트리 만들기]

YONG_X 2013. 2. 1. 18:03


# ===========  creating decision tree ===============

 

# 데이터 셋은 데이터 처리 연습에서 사용하던 것을 그대로 가져다 사용

# 다시 한번 돌려서 머지된 RBI와 OPS 있는 데이터 셋을 사용하든지 아니면

# k6 데이터 셋을 사용하든지

 

attach(k6)
k7 <- aggregate(OPS~team, FUN=median, na.rm=TRUE)
k8 <- aggregate(rbi~team, FUN=median, na.rm=TRUE) 
k9 <- merge( k7, k8,by="team")

 

# party라는 라이브러리에는 트리와 몇가지 분석 방법이 들어 있으니

# 그중 c-tree (conditional inference tree)를 사용해서 트리를 한번 만들어 보기로 하고

library(party)

# 트리를 만드는 과정과 트리를 디스플레이하는 과정은 별도로 이루어 지니

# 트리를 만들어도 R studio는 당연히 묵묵부답

# RBI가 target variable 또는 dependent variable. OPS는 input 또는 independent variable

k10 <- ctree(rbi ~ OPS, data=k6)

 

# 만들어진 트리를 디스플레이하기 위해 plot을 사용

# main 옵션에 지정한 것은 이미지 상의 트리 제목
plot(k10, main="RBI by OPS of KBO batterbox")

 

 

일단, 트리는 그려졌으니 만족!!!

 

하지만, 의미를 대충이라도 이해해야지...

RBI는 OPS에 따라 차이가 난다.

OPS가 큰 값을 가지면 RBI도 큰 값을 가지는 관계가 있다.

OPS가 0.825가 넘는 경우가 48명 타자중에 12명이 있는데

그들의 경우 대략 RBI (타점) 40점 가량은 되고, 좀 더 많거나 적거나 하기는 하다.

 

... 아주 초보의 데이터 분석이지만, R을 사용해 가볍게 한번 돌려보면서

적어도 RBI가 OPS와 상관이 크다는 점은 발견

(이런 상식적인 과정을 거창하게 우리는 데이터 마이닝 이라고 부른다는 것! ㅎㅎ)

 

-- last update : 2013. 02. 01