#-------- 파이썬 데이터 처리 기초 연습문제 -----------
# 아래는 한 회사의 고객 리스트이다. 이 데이터를 활용하여 아래의 문제들에 대한 답을 찾는 Python 스크립트를 작성하라.
import pandas as pdimport numpy as np
# data to usecust = pd.DataFrame({'age' : np.arange(30,51), 'sales' : np.repeat([65,60,80],7)})
freq = np.repeat([3,7,4,2,1,1,2],3)
# sales는 각 고객별 총판매금액이며 freq는 구매횟수이다.
.
# 문제1: 고객의 수를 계산하라
# 문제2: 고객의 나이를 큰값에서 작은 값의 순서로 정렬하라
# 문제3: 고객의 나이 중 두번째로 큰 값은 얼마인가?
# 문제4: sales의 평균값은 얼마인가?
# 문제5: 각 고객별로 sales와 전체고객의 sales 평균간의 차이는 얼마인가?
# 문제6: cust dataframe에 freq를 걸럼으로 추가한 후 처음부터 3명의 고객을 출력하라.
# 문제7: 고객별 구매1건당 평균 sales 금액을 구하여 avgsales 라는 이름의 컬럼으로
# cust dataframe에 추가한 후 마지막 두 명의 고객을 출력하라.
# 문제8: cust dataframe을 avgsales 순서로 정렬하고, avgsales가 가장 큰 세명의 고객을 출력하라.
# 문제9: 고객의 freq와 sales간의 분포를 scatter plot으로 작성하라.
# 문제10 : freq와 평균sales간의 관계를 scatterplot을 이용하여 시각화하고 점들간의 분포를 보여주는 폴리노미얼 추세선을 추가하라. 동일 좌표에 복수의 점이 존재할 수 있으므로 jitter 함수를 이용하여 복수의 점이 존재하는지를 scatterplot에 반영하라. 결과는 다음의 챠트와 같은 모습이 되어야 한다
# 문제11: 문제 10의 결과에서 40대인 고객들만 red color로 점을 표시하라
# 문제12: 고객리스트에 동일하게 36세이며 두 번에 걸쳐 총 55를 구매한 고객을 세 명 추가한 후 문제 11과 같은 형식의 scatter plot을 작성하라
'Python데이터분석' 카테고리의 다른 글
[머신러닝] 디시젼트리와 XGBoost 인기도 변화 추이 (0) | 2021.03.29 |
---|---|
[파이썬] kmeans scatter plot: plot different colors per cluster (0) | 2020.12.22 |
[Python] mtcars mtcars.csv sample dataset (0) | 2020.04.09 |
[kma_recsys_2020] 데이터 기반의 추천서비스_ 전용준_리비젼 (0) | 2020.03.31 |
[디지털마케팅서밋] 디지털 마케터를 위한 탐색적 데이터 분석 Workshop (0) | 2020.02.10 |