>RE::VISION CRM

인공지능

ChatGPT 주도적인 데이터 분석 - 온라인서점 고객세분화 예제

YONG_X 2023. 10. 5. 12:40

ChatGPT 주도적인 데이터 분석 - 온라인서점 고객세분화 예제

 

분석가의 개입을 최소화하고 최대한 ChatGPT(3.5)의 코드 생성 기능만을 활용하여 실전적 데이터 분석을 실시해보는 예제. 90% 이상의 작업은 ChatGPT 가 수행하고 지휘와 감독, 부분적인 수정 정도만 인간 분석가가 하는 방식으로 진행한 결과물

 

 

# prompt: 파이썬에서 테이블의 컬럼별 기본 특성 정보를 확인하는 스크립트를 작성하라. csv 파일로 데이터가 제공된다

# prompt: 실제로는 수치인데 천단위 컴마가 들어가 object로 보이는 컬럼의 값들을 컴마 없는 수치로 변경하는 스크립트를 작성하라

 

 

# prompt: 테이블에서 수치형 데이터들 끼리만 상관관계를 매트릭스로 구한 후 매트릭스 히트맵으로 시각화하는 스크립트를 작성하라

# prompt: 데이터 값들을 파이썬 시각화에서 euc-kr 형식 한글을 정상 표시하는 스크립트를 작성하라. 윈도우 PC다

# prompt: 윈도우에서 폰트 폴더 위치는

 

 

# prompt : 다음 상관관계 매트릭스의 의미를 설명하라

Response:

주어진 상관관계 매트릭스는 여러 변수 간의 상관 관계를 측정한 결과를 나타냅니다. 이 매트릭스는 표의 형태로 각 변수 쌍 간의 상관계수를 표시하며, 이를 통해 다양한 변수 간의 상호 관련성을 이해할 수 있습니다.

매트릭스 내에서 상관계수 값은 다음과 같은 의미를 가집니다:

연령과 다른 변수들 간의 상관관계:
연령과 다른 변수들 간에는 다양한 상관관계가 나타납니다. 가입기간과 연령 사이에 음의 강한 상관관계(-0.454)가 있으며, 가입 기간이 길수록 연령이 어린 경향이 있습니다. 구매쟝르수와 연령 사이에도 음의 강한 상관관계(-0.420)가 있으며, 구매쟝르수가 적을수록 연령이 어린 경향이 있습니다. 구매일수와 연령 간에는 약한 음의 상관관계(-0.247)가 있으며, 구매일수가 많을수록 연령이 어린 경향이 있습니다. 

구매일수와 다른 변수들 간의 상관관계:
구매일수와 다른 변수들 간에는 강한 양의 상관관계가 나타납니다. 구매일수와 구매서적수, 서적구매액, 기타상품구매액, 총구매액 등의 변수 간에 양의 상관관계가 높으며, 구매일수가 증가하면 이러한 변수들도 증가하는 경향이 있습니다. 

구매쟝르수와 다른 변수들 간의 상관관계:
구매쟝르수와 다른 변수들 간에는 음의 상관관계 또는 약한 상관관계가 나타납니다. 구매쟝르수와 연령, 가입기간 등과의 음의 상관관계가 있으며, 구매쟝르수가 적을수록 연령이 높아지거나 가입 기간이 길어지는 경향이 있습니다.

서적구매액, 기타상품구매액, 총구매액 등과의 상관관계:
서적구매액, 기타상품구매액, 총구매액 등의 변수들 간에는 양의 상관관계가 나타납니다. 즉, 이들 값이 함께 증가하는 경향이 있습니다. 이러한 상관관계 매트릭스를 통해 데이터의 특성과 변수 간의 관계를 이해하고, 필요에 따라 데이터 분석 및 모델링에 활용할 수 있습니다.

 

# prompt: 다음의 분석결과를 고려한다면 온라인서점은 어떤 마케팅을 고려할 수 있겠는지 3가지 방안을 제안하라. 상식적인 방안들은 효과가 낮을 것이므로 경쟁사와 차별화할 수 있는 방안을 제안하라: {}

 

 

# prompt: matplotlib으로 두 수치형 컬럼들간의 스캐터플롯을 작성하는 함수를 작성하라

# prompt: 스캐터 플롯에 선형회귀 추세선을 추가하는 함수를 작성하라

 

 

# prompt : 지역별 고객당 평균 서적구매액을 시각화하는 스크립트를 작성하라. 구매액이 높은 지역부터 나타낸다. 색상은 두 가지만 사용한다. 구매액이 많은 3개 지역만 짙은 색으로 나머지 지역은 흐린 색으로 구분해 나타낸다. 지역별 색상 표시가 정확하게 되도록 작성한다

 

 

# 고객수가 가장 많은 두 지역을 추출한후 두 지역의 구매서적수 분포를 겹쳐서 비교하는 분포 챠트와 밀도 챠트를 모두 표시하는 시각화 프로그램을 작성하라

 

 

# prompt: 수치형 변수만을 추출한 후 그 변수들로 고객들을 군집화한 후 시각화하는 프로그램을 작성하라

 

# prompt: 군집화에 영향을 많이 미치는 변수 네개를 추출하는 프로그램을 작성하라

# prompt:  top_variables 에는 군집화에 영향을 많이 미치는 중요 변수들이 들어 있다고 할 때
# 군집별로 각 중요변수들이 어떤 값을 가지는지를 비교하는 시각화 프로그램을 작성하라

 

 

# prompt : 중요한 변수들에서 두 가지씩의 조합을 추출해서 군집 산점도를 작성하는 스크립트를 작성하라

 

 

# prompt: 중요한 변수들에서 두 가지씩의 조합들을 추출해서 변수값의 평균을 좌표로 하는 군집 산점도를 각 변수 조합별로 작성하는 스크립트를 작성하라

 

 

 

Ending Note::

많은 시간과 노력을 들여 인간 데이터 분석가 또는 데이터 과학자가 해오던 작업들의 대부분을 또는 그 이상을 ChatGPT와 같은 생성AI가 소화할 수 있음을 확인할 수 있다. 이 모든 작업을 직접할 수 있는 사람이 아니라면 지휘를 할 수가 없을 것이기에 전문적인 분석가들은 필수적으로 존재해야한다. 하지만 이제는 단순 데이터 처리나 프로그래밍 작업, 단순 해석 정도의 분석만으로는 인간 분석가들의 설 자리는 없어지는 것으로 보인다.

ChatGPT 이상의 시각과 식견, 더 가치있고 필요한 빈틈을 깊고 넓게 볼 수 있는 역량이 필요한 시대로 전환된 것이다.