[DSM1809] statistical data analysis using R

A05_kbobank_scrpt_201809.txt

http://blog.daum.net/revisioncrm/372

######
# 연습문제
# 3부터 52까지 정수값을 가진 컬럼 A와 그 값의 제곱인 Asqr라는
# 두개의 컬럼으로 구성된 practice1 이라는 이름의 데이터프레임을 생성하라

A <- 3:52
Asqr <- A^2
practice1 <- data.frame(A, Asqr)

#--------------------
# 연습 : mtcars 에서 2두번째 4번째 행의 mpg를 추출하라

mtcars[c(2,4),"mpg"]
mtcars$mpg[c(2,4)]

plot(mtcars$mpg)

# 한 컬럼에 NA가 없는 dataframe의 모든 컬럼, 행을 추출
mydata3[!is.na(mydata3$v1),]

# 연습
# mtcars 데이터에서 연비 mpg가 20이상인 자동차의 수는?
length(mtcars[mtcars$mpg>=20,]$mpg)

# mtcars 데이터에서 연비가 30이상이고 무게 wt가 4 미만인 자동차들의
# 이름만 출력!

row.names(mtcars[mtcars$mpg>=30 & mtcars$wt<4,])
row.names(mtcars[mtcars$mpg>=30 | mtcars$wt<4,])

# mtcars 데이터에서 연비가 30이상인 차들 중에서 wt가 가장 가벼운 차의 wt는?

#################
# 연습 : 복습
#
#####################
# mtcars에서 hp(마력) 순으로 중간 50%에 해당하는 자동차들의 이름을
알파벳순으로 출력하라!

( nrow(mtcars) - (nrow(mtcars)/4) )

round(quantile(1:nrow(mtcars),c(0.25,0.75)))

mm1 <- mtcars[order(mtcars$hp),]
mm2 <- head(mm1, nrow(mtcars)-round(quantile(1:nrow(mtcars),c(0.25,0.75)))[1])
mm3 <- tail(mm2, nrow(mm2)-round(quantile(1:nrow(mtcars),c(0.25,0.75)))[1])

통계학 summary

시행 : 결과는 알지 못하지만 결과로 나타날 수 있는 가능한 경우를 알고 있는 "실험"

표본공간 : 시행에서 나타날 수 있는 가능한 모든 결과들의 집합

확률변수가 취하는 값이 연속형이면 분포함수는 확률밀도함수

이항분포 : 연속된 n번의 독립적 시행에서 각 시행이 확률 p를 가질 때의 이산 확률 분포

정규분포는
종모양 ; 양과 음 양 방향으로 무한대까지 ;
평균 주변에 집중 ; 평균과 표준편차에 따라 모양 결정

평균 0, 표준편차 1인 정규분포 --> 표준정규분포

평균과 중앙값이 같으면 왜도(skewness)는 0

표준정규분포의 왜도는 0, 첨도(kurtosis)는 3

Q-Q 플롯 : 분포의 정규성을 확인하기 위한 챠트

중심극한정리 : 모집단의 분포와 상관없이 모집단에서 추출한 표본의 크기가 충분히 클 때 표본평균의 분포가 정규분포를 따른다

카이제곱분포 : k개의 서로 독립적인 표준정규 확률변수를 각각 제곱한 다음 합해서 얻어지는 분포. 독립성 또는 동질성 검정에 사용

t-분포의 자유도는 (표본의 갯수-1). 자유도가 커질수록 표준정규분포에 근접

가설검정 : 모수에 대한 가설을 수립하고 어떤 가설을 선택할 것인지를 결정하는 작업

추정량이 가져야할 바람직한 성질
불편성(unbiasedness) ; 유효성(efficiency) ; 일치성(consistency)

유의수준 : 검정에서 1종오류를 범할 확률의 최대허용한계

단측검정은 대립가설이 방향성을 가짐. 양측검정은 방향성 없음

t-검정( t.test() )에서 alternative="greater" 옵션 : 단측검정

등분산성이 성립하지 않는 t-검정에서는 var.equal=F 옵션

등분산성검정에서 p-value = 0.3 인 결과를 얻었다면 (0.05 유의 수준에서) 등분산성 성립. 0.05보다 작아야 차이가 있다는 것(영가설 기각 --> 대안가설 채택)

심슨의 역설 : 부분에 대한 평균이 크다고 해서 전체에 대한 평균까지 크다는 보장은 없다

ANOVA 분산분석은 세 집단이상의 분포 차이 검정

피어슨 상관계수 범위는 -1~1

독립변수가 하나면 단순선형회귀분석 둘이상이면 다중선형회귀분석

# 통계 Cheat sheet

InstEval.csv

xAPI-Edu-Data.csv

kbo_20180830.csv

A03_statB_scrpt_20170419.txt

xAPI-Edu-Data.csv

0.04MB

0.02MB

stat_xtra_scrpt_20180903.txt

A01_r_intro_scrpt_201809_a.txt

0.0MB

0.04MB

A05_kbobank_scrpt_201809.txt

0.0MB

faults1.txt

0.29MB

0.01MB

0.03MB

A01_r_intro_scrpt_201809.txt

0.04MB

0.03MB