카테고리 없음
[SSF20] 다중선형회귀분석 - 연습문제
YONG_X
2020. 11. 2. 13:13
[실습]
- Customer Transaction Summary 의 다음해 구매금액을 예측하는 다중선형회귀분석을 실시
- 모델의 R Sqaured를 확인
- 각각을 비교했을 때 타겟과 가장 상관관계가 높은 독립변수를 파악
- 상관계수가 가장 큰 세 개의 독립변수만을 사용한 모델의 R Squared 확인
회귀분석 결과 세부사항 보기
import statsmodels.api as sm
with statsmodels
list_feat = ['age','amt_nike', 'amt_hnm','amt_strbk','amt_dgt','amt_book','amt_htl', 'amt_prmmsneakers',
'cnt_pstyr', 'cnt_login']
X, Y = dfc21[list_feat], dfc21.amt_nxtyr
X = sm.add_constant(X)
model = sm.OLS(Y, X).fit()
회귀분석 결과의 출력
print(model.summary())
타겟변수와 독립변수를 모두 포함한 상관매트릭스를 생성한 후
타겟변수 컬럼만 추출하고 값의 크기 순으로 정렬해 3개 변수 구함
단, 부호가 아닌 절대값의 크기 순으로 세 개 선택 필요
dfc21[list_feat + ['amt_nxtyr']].corr()['amt_nxtyr'].sort_values()
회귀분석 결과 세부사항 보기
import statsmodels.api as sm
with statsmodels
list_feat = ['amt_strbk','amt_book', 'amt_dgt']
X, Y = dfc21[list_feat], dfc21.amt_nxtyr
X = sm.add_constant(X)
model = sm.OLS(Y, X).fit()
회귀분석 결과의 출력
print(model.summary())