k3 <- read.table("c:/jarasumR/kbo_batterbox.txt", header=TRUE, sep=",")
install.packages("party")
# sample only 10 instances
k4 <-head(k3,10)
require(party)
k06 <- ctree(hr ~ SO + games + atbat + run + single + double + triple + rbi + steal + ballfour + rhit + rlong + robase, controls = ctree_control( mincriterion = 0.5, minsplit = 2, minbucket = 3) , data=k4)
# minbucket 이라는 ctree_control 파라미터를 조절하면 트리 생성 가능
plot(k06, main="Home run tree")
# 비록 전수가 10 밖에 되지 않는 케이스라고 하더라도 트리를 통한 분석 가능함을 확인
install.packages("randomForest")
require(randomForest)
r01 = randomForest(hr ~SO + games + atbat + run + single + double + triple + rbi + steal + ballfour + rhit + rlong + robase, data=k4 , importance=TRUE, do.trace=5, ntree=100)
plot(r01, log="y")
varImpPlot(r01)
# 변수의 상대적 중요도 확인 ... 홈런이 타겟이지만... 장타율이라는 변수가 Leak
# 여하간 분석은 무사히 이루어짐
'R 데이터 분석' 카테고리의 다른 글
[R 데이터분석] (0) | 2014.12.21 |
---|---|
[마트SAS] SQL 레벨001 (0) | 2014.12.13 |
bikini forecasting case [EDA sample] (0) | 2014.09.03 |
예측모델링 워크샵용 공유 (0) | 2014.08.26 |
[R 사용자 컨퍼런스 2014] 랜덤포리스트를 활용한 다차원 시계열 예측: 아이디어와 산업계 응용 방안 (0) | 2014.05.23 |