>RE::VISION CRM

R 데이터 분석

[RF] 랜덤포리스트 for an Extremely Small Sample Set

YONG_X 2014. 10. 23. 20:59


k3 <- read.table("c:/jarasumR/kbo_batterbox.txt", header=TRUE, sep=",")


install.packages("party")


# sample only 10 instances

k4 <-head(k3,10) 


require(party)


k06 <- ctree(hr ~ SO + games + atbat + run + single + double + triple + rbi + steal + ballfour + rhit + rlong + robase, controls = ctree_control( mincriterion = 0.5, minsplit = 2, minbucket = 3) ,  data=k4)


# minbucket 이라는 ctree_control 파라미터를 조절하면 트리 생성 가능


plot(k06, main="Home run tree")




# 비록 전수가 10 밖에 되지 않는 케이스라고 하더라도 트리를 통한 분석 가능함을 확인 



install.packages("randomForest")


require(randomForest)


r01 = randomForest(hr ~SO + games + atbat + run + single + double + triple + rbi + steal + ballfour + rhit + rlong + robase,  data=k4 , importance=TRUE, do.trace=5, ntree=100)


plot(r01, log="y")






varImpPlot(r01)




# 변수의 상대적 중요도 확인 ... 홈런이 타겟이지만... 장타율이라는 변수가 Leak 

# 여하간 분석은 무사히 이루어짐