>RE::VISION CRM

R 데이터 분석

[R 데이터 분석 예제] ggplot2 qplot 활용

YONG_X 2013. 3. 29. 18:51

데이터 분석을 위해 R을 사용하면서 가장 많이 사용하는 패키지는 ggplot2

ggplot2 패키지 내에서도 가장 많이 사용될 수 밖에 없는 qplot

기본이기 때문에 그만큼 활용도가 높은 플로팅 툴

 

# ---------------------

 

# 일단 ggplot2 불러오고

require(ggplot2)

 

# 예제용 데이터는 이전에 사용했던  kbo batterbox 것을 불러오고


k3 <- read.table("kbo_batterbox.txt", header=TRUE, sep=",")

 

# 데이터 불러올 방법 설명 :   http://blog.daum.net/revisioncrm/171


attach(k3)

# 플롯이 문제가 아니라 데이터 부터 정리를 하는 것이 순서

# 8개 팀을 다 그리면 복잡해져서 보이는 것이 없으니 일부 팀을 추출해서 비교

k4 <- subset(k3, team=='sk' | team=='ss' | team =="ds")
attach(k4)

 

# 데이터에 이미 만들어져 있는 항목을 그대로 쓰기 곤란한 경우

# 플롯에 사용할 새로운 파생 필드를 생성 ... 여기서는 볼넷에 의한 출루에서 삼진을 뺀 선구안이라는 지표를 새로이 생성
eyec <- (ballfour-SO )


# 타수, 출루율, 선구안 그리고 팀별

qplot( atbat, robase, data = k4, color = team, size = eyec )

 

 

 

# 삼성이 강했던 이유는 역시... 꾸준히 출장하고 출루율이 좋은 두명의 공신

# 두산... 왜 성적 안나왔는지 바로 보임... 존재감있는 타자 없음~ 부상때문이라 할 수 있겠지만 타수가 안나옴. 들쭉날쭉하면 당연히 컨디션도 나빠질게고 실력은 제대로 나오지 않을테니...

 

# 일단 볼넷으로 선구안을 보려했지만... 삼진을 많이 당하면 선구안이 좋다 할 수 없기에... 볼넷-삼진으로 축을 변경

# 이런 구성에서는 두가지 보조축을 X Y로 주고, 가장 중요한 축은 사이즈로 지정하는 것이 팁이 될 수 있을 듯

 

 

 

 

# 역시 야구는 홈런, ... 그리고 점수나는 순간... 타점과 득점

# 이번에는 팀별 비교대신 포지션별 비교
qplot(hr, rbi, data=k3, size = run, bandwidth=0.1, color=position)

 


# 유격수와 3루수가 무지 중요한듯...

# 생각보다는 수비부담이 크지 않은데도 불구하고 외야수들의 승부에 대한 기여도가 그리 크지 않았던 듯

# 2013년 야구도... 기대되는데... KBO가 좀 더 분석하기 좋은 통계데이터를 웹사이트를 통해 공유해 주었으면 좋겠다는 생각