데이터 분석을 위해 R을 사용하면서 가장 많이 사용하는 패키지는 ggplot2
ggplot2 패키지 내에서도 가장 많이 사용될 수 밖에 없는 qplot
기본이기 때문에 그만큼 활용도가 높은 플로팅 툴
# ---------------------
# 일단 ggplot2 불러오고
require(ggplot2)
# 예제용 데이터는 이전에 사용했던 kbo batterbox 것을 불러오고
k3 <- read.table("kbo_batterbox.txt", header=TRUE, sep=",")
# 데이터 불러올 방법 설명 : http://blog.daum.net/revisioncrm/171
attach(k3)
# 플롯이 문제가 아니라 데이터 부터 정리를 하는 것이 순서
# 8개 팀을 다 그리면 복잡해져서 보이는 것이 없으니 일부 팀을 추출해서 비교
k4 <- subset(k3, team=='sk' | team=='ss' | team =="ds")
attach(k4)
# 데이터에 이미 만들어져 있는 항목을 그대로 쓰기 곤란한 경우
# 플롯에 사용할 새로운 파생 필드를 생성 ... 여기서는 볼넷에 의한 출루에서 삼진을 뺀 선구안이라는 지표를 새로이 생성
eyec <- (ballfour-SO )
# 타수, 출루율, 선구안 그리고 팀별
qplot( atbat, robase, data = k4, color = team, size = eyec )
# 삼성이 강했던 이유는 역시... 꾸준히 출장하고 출루율이 좋은 두명의 공신
# 두산... 왜 성적 안나왔는지 바로 보임... 존재감있는 타자 없음~ 부상때문이라 할 수 있겠지만 타수가 안나옴. 들쭉날쭉하면 당연히 컨디션도 나빠질게고 실력은 제대로 나오지 않을테니...
# 일단 볼넷으로 선구안을 보려했지만... 삼진을 많이 당하면 선구안이 좋다 할 수 없기에... 볼넷-삼진으로 축을 변경
# 이런 구성에서는 두가지 보조축을 X Y로 주고, 가장 중요한 축은 사이즈로 지정하는 것이 팁이 될 수 있을 듯
# 역시 야구는 홈런, ... 그리고 점수나는 순간... 타점과 득점
# 이번에는 팀별 비교대신 포지션별 비교
qplot(hr, rbi, data=k3, size = run, bandwidth=0.1, color=position)
# 유격수와 3루수가 무지 중요한듯...
# 생각보다는 수비부담이 크지 않은데도 불구하고 외야수들의 승부에 대한 기여도가 그리 크지 않았던 듯
# 2013년 야구도... 기대되는데... KBO가 좀 더 분석하기 좋은 통계데이터를 웹사이트를 통해 공유해 주었으면 좋겠다는 생각
'R 데이터 분석' 카테고리의 다른 글
[빅 데이터, 그리고] 데이터 사이언스와 데이터 마이닝 - Using R <강좌 예고> (0) | 2013.05.09 |
---|---|
[R 분석] searchtwitter 한글 오류 검토 (0) | 2013.04.12 |
[R 분석 연습] xyplot을 사용한 플롯 그리기 예제 (0) | 2013.03.22 |
[R 분석 연습] 박근혜 당선인 워드클라우드 2013 02 22 (0) | 2013.02.23 |
[R 워드클라우드 연습] 빅데이터 워드 클라우드 (0) | 2013.02.18 |