>RE::VISION CRM

R 데이터 분석

[SKK_DA1] 통계 컨닝페이퍼 Cheat sheet

YONG_X 2017. 5. 23. 08:41

통계 입문 개념 정리 PPT [파일 다운로드 링크] 


https://www.google.co.kr/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&ved=0ahUKEwi1-eC69IXUAhWBMJQKHYgKD0EQFggoMAE&url=http%3A%2F%2Fdbworld.tistory.com%2Fattachment%2F492b4aad39944EN.ppt&usg=AFQjCNFi3g664uITZpph2IjRZ7433_GJ3g&sig2=kZaPYjcLPJGRRlZEY3JR3g 

 

통계 개요 정리 [PDF 다운로드 링크]

 

http://www.google.co.kr/url?sa=t&rct=j&q=&esrc=s&source=web&cd=6&cad=rja&uact=8&ved=0ahUKEwjH1LnBmYfUAhUHF5QKHdIwBx0QFgg8MAU&url=http%3A%2F%2Fwww.kycu.ac.kr%2Fcmm%2Ffms%2FFileDown.do%3FatchFileId%3DFILE_000000000002277%26fileSn%3D0&usg=AFQjCNFyf3SqG6etu-oN4B1-peh21S7rgQ

 


통계 핵심 개념 요약 페이지 2장 ::

 

http://www.dummies.com/education/math/statistics/business-statistics-for-dummies-cheat-sheet/ 

 

 

http://www.dummies.com/education/math/statistics/statistics-for-dummies-cheat-sheet/ 

 

 

 

분포와 검정 요약

 

 

 

 

 

 

자료: https://s-media-cache-ak0.pinimg.com/originals/35/b7/11/35b7115bf51ac2ba3f091e139f3f6a90.jpg  

 

 

<자유도 (degree of freedom) 개념>
어느 집단의 키 평균이 170(모집단 평균)이라는 것을 미리 알고 있을때 세명의 표본을 구했다.
= 홍길동(165), 이순신(175), 한라산(?)
(165 + 175 + x)/3 = 170
세번째인 한라산은 자유도가 없다(= 임의로 결정될 수 없다)
고 부른다. 분산이나 표준편차를 구하려면 표본수 3이 아닌 2를 사용한다.

모집단의 분산과 표준편차를 구할 때는 n으로 나누고 표본에서는 n-1로 나눔.


표본에서 n(표본수) 으로 나누게 되면 모집단의 값보다 작은 값(편향된 값 biased)이 나오게 되기에 편향되지 않은 값으로 바꾸기 위한 것임

 

<평균값>을 구하는 경우라면 N-1개의 관측치 값을 안다면 나머지 하나는 자동으로 구할 수 있음. 자유도는 N-1

 

<단순선형회귀분석>에서 N개의 관측치(표본)을 가지고 있는 경우 찾아야할 계수는 절편값과 기울기 2개임. 자유도는 N-2 (= 관측치의 수에서 찾아야할 계수의 갯수를 뺀 것)


오차(Error)란 : 모집단의 값과 관측치(표본) 간의 차이

잔차(Residual)란 : 관측치와 추정한 값과의 차이

The error (or disturbance) of an observed value is the deviation of the observed value from the (unobservable) true value of a quantity of interest (for example, a population mean), and the residual of an observed value is the difference between the observed value and the estimated value of the quantity of interest

 

PCA에서 주성분을 찾는 원리

 

 

e1과 e2는 두개 만으로 분포를 설명하는 최적의 요소들임