>RE::VISION CRM

R 데이터 분석

[SKK_DA1] 예측분석을 위한 데이터 생성 절차와 처리 연습

YONG_X 2017. 5. 23. 13:13

#---- 예측분석을 위한 테이블 생성 ----

# 예측분석 수행절차(예시)
# ....................
# 1. 무엇을 예측할 것인지 정의 (다음학기 휴학가능성)
# 1.1 기간 설정 (언제 기간의 데이터로 언제를 예측?)
# 2. 대상의 범위 설정 (예: 4학년 재학중 내국인 남학생)
# 3. 필요한 데이터 확보
# 4. 확보한 데이터에서 대상자 추출(예: 대상자 학번)
# 5. 변수(X)를 만들 데이터 분리
# 6. 타겟(Y)을 만들 데이터 분리
# (중간중간) 탐색적으로 데이터 구조, 분포, 관계 파악
#  === 탐색적 데이터 분석 (EDA)
# 7. 변수 설계 (아마도 여러개. 100개이상???)
# 8. 변수 생성 (하나씩 하나씩. NA처리, 정제 포함)
# 9. 생성된 변수와 대상자 리스트 결합
# 10. 타겟 생성
# 11. 타겟을 생성된 변수들의 Set와 결합

# 12. 모델 개발 (변수 선택, 추가변수 반영 포함)
# 13. 모델 평가 Assessment (잘맞는 것인지)
#-------------

#--- 데이터 처리 >> 변수생성 연습 --------

# 8월중 마지막 날짜는?
# 9월중 마지막 날짜는?
# 전체 user중에서 10번째로 많은 방문일수를 가진
#   user의 id는?
# 여성의 숫자는?
# 여성이면서 10대는 몇명인가?
# 여성중 가장 마지막 날 사용한 사람들 명단은?
# 연령대별 인원수는?
# 연령대별 평균게임일수는?
# 50대 여성중 가장 처음 한명이라도 게임을 한 날과
#   가장 마지막으로 게임을 한 날의 간격은?