>RE::VISION CRM

인공지능

[ChatGPT] 온라인 서점 고객분석 예제 N=500 feat. ChatGPT ADA

YONG_X 2023. 12. 28. 07:31

[ChatGPT] 온라인 서점 고객분석 예제 feat. ChatGPT ADA

 

 

 

 

 

다음과 같은 도서들을 판매하는 온라인 서점이 있다. 이름은 myTekBooks 라고 하자. "마이테크북스.com" (가상적인 고객데이터베이스)
고객은 딱 500명이라고 가정하자. 전체 고객 중 샘플이라고 생각해도 좋다. 다음과 같은 항목들에 데이터베이스에 관리되고 있다. 이 데이터를 사용하여 무엇을 어떤 식으로 분석할 수 있을까? 조금 더 현실적인 예를 만들어 보자.

 

 

 

" 이 포스트의 목적은 "myTekBooks"라는 가상의 온라인 서점을 통해 제시된 다양한 고객 데이터를 분석하고 활용하는 방법에 대한 아이디어와 인사이트를 제공하는 것입니다. 이 글은 온라인 서점이 보유한 다양한 고객 정보를 최대한 활용하여 비즈니스 전략을 개발하고 개선하는 데 도움이 되는 분석 및 활용 사례를 제시하고 있습니다. 이를 통해 독자들은 고객 데이터를 효과적으로 활용하여 판매 증대, 고객 서비스 향상, 마케팅 전략 최적화 등의 목표를 달성하는 방법을 이해할 수 있습니다. 또한, ChatGPT와 관련된 도서의 판매 및 선호도에 관한 정보도 제공하고 있습니다. 이 포스트는 온라인 서점과 데이터 분석에 관심 있는 사람들을 대상으로 제시된 데이터를 활용한 다양한 가능성을 탐색하고 생각해보도록 유도하는 것이 목적입니다. "



데이터 컬럼 목록 : 

[고객 ID, 영어이름 firstname, 도시, 성별, 생년월일, 1년간 구매 도서수, 5개월간 구매금액, 결제 방식, 장바구니 최근 담은 책, 위시리스트 최근 담은 책, 최근 3개월 조회 도서수, 리뷰 작성횟수, 평균 리뷰 평점, 반품 비율, 가입 날짜, 최근 방문 날짜, 선호 세부주제1, 선호 세부주제2]

 

 

무엇을 분석할 것인지에 대해 제안을 받아 본다. 다양한 분석을 위해서는 다양한 분석 접근방식이 필요할 것이다.

 

ChatGPT(3.5) ::

온라인 서점이 다음과 같은 데이터 항목들을 가지고 있다면 다양한 분석과 인사이트를 얻을 수 있습니다. 아래는 몇 가지 가능한 분석 및 활용 사례입니다:

  1. 고객 세분화: 고객 ID, 도시, 성별, 생년월일 등을 이용하여 고객을 세분화할 수 있습니다. 이를 통해 특정 지역, 성별, 연령대별로 구매 행동 및 선호도를 이해하고 타겟 마케팅을 개발할 수 있습니다.
  2. 구매 행동 분석: 1년간 구매 도서수, 5개월간 구매금액, 결제 방식 등을 분석하여 고객의 구매 행동을 파악하고 어떤 상품이 가장 많이 팔리는지 등을 알 수 있습니다.
  3. 상품 추천: 장바구니 최근 담은 책, 위시리스트 최근 담은 책, 최근 3개월 조회 도서수 등의 정보를 활용하여 고객에게 적합한 상품을 추천할 수 있습니다.
  4. 리뷰 분석: 리뷰 작성횟수, 평균 리뷰 평점을 분석하여 어떤 상품이 어떤 평가를 받고 있는지를 파악하고 제품 개선 또는 마케팅 전략을 조정할 수 있습니다.
  5. 고객 충성도 평가: 가입 날짜, 최근 방문 날짜를 통해 고객의 충성도를 평가하고, 어떤 고객이 장기적으로 서점을 이용하는지를 확인할 수 있습니다.
  6. 반품 및 문제 해결: 반품 비율을 분석하여 어떤 상품이 반품률이 높은지를 파악하고, 고객 서비스를 개선하거나 제품 품질을 조정할 수 있습니다.
  7. 마케팅 효과 분석: 마케팅 캠페인의 효과를 추적하고, 어떤 마케팅 전략이 가장 효과적인지를 평가할 수 있습니다.
  8. 선호 주제 분석: 고객의 선호 세부주제1과 선호 세부주제2를 분석하여 어떤 주제의 책이 가장 많이 팔리는지를 파악하고 적절한 책을 제안할 수 있습니다.
  9. 추이 분석: 시간에 따른 데이터 변화를 분석하여 특정 기간에 성과가 어떻게 변화했는지를 이해하고 전략을 조정할 수 있습니다.
  10. 예측 모델 개발: 고객 데이터를 활용하여 예측 모델을 개발하여 향후 구매 행동이나 고객 이탈 가능성을 예측할 수 있습니다.

이러한 분석을 통해 온라인 서점은 고객 서비스를 개선하고 판매량을 증가시키는 전략을 구사할 수 있습니다.

 

 

마침 이 서점은 30권의 ChatGPT 책만 판다고 가정하자. 다음의 목록이다.


도서의 목록: [
"ChatGPT Chronicles: Unleashing AI Creativity"
"The Genius of ChatGPT: Transforming Workflows"
"Ask ChatGPT: Navigating the Knowledge Universe"
"Therapy in the Age of ChatGPT: A New Paradigm"
"ChatGPT for Young Minds: Futuristic Study Techniques"
"Revolutionizing Classrooms with ChatGPT"
"ChatGPT: The Gateway to AI Exploration"
"Sustainable Strategies: ESG Reporting via ChatGPT"
"Empowering Lives with ChatGPT: A Comprehensive Guide"
"ChatGPT in Education: Redefining Teaching"
"Intellectual Property in the ChatGPT Era"
"Profitable Passions: Monetizing Ideas with ChatGPT"
"Futuristic Innovations: ChatGPT Meets Arduino"
"Solo AI Development: ChatGPT & Python"
"Expert's Guide to Leveraging ChatGPT"
"Financial Mastery with ChatGPT: Trading Revolutionized"
"AI Transforming Education: Insights with ChatGPT"
"The Future School: Education Reformed by ChatGPT"
"AI's Trio: Exploring ChatGPT, MidJourney, and Beyond"
"The Educator's AI Companion: ChatGPT in Schools"
"ChatGPT API Mastery: From Novice to Expert"
"ChatGPT: The New Era of Workplace Automation"
"Decoding AI: Guru's Insights on ChatGPT"
"ChatGPT English Mastery: Revolutionary Learning Methods"
"Language Arts Reimagined: ChatGPT in Linguistics"
"The Ultimate Guide for ChatGPT Developers"
"ChatGPT in Academia: A Dual Perspective"
"ChatGPT for Personal Branding: A Journey to Success"
"Mastering ChatGPT: The Art of Virtual Conversation"
"Creative Writing with ChatGPT: Unveiling AI's Potential" ] 

 

 

 

 

 

자 분석을 해보자. 우선은 (데이터 량이 크지 않으므로) ChatGPT Plus의 고급데이터분석을 통한 탐색적 데이터 분석을 시도해 본다.

 

Here are 5 sample records from the modified dataset:

 

Customer ID / First Name / City / Gender / Birthdate / Books Purchased in a Year / Amount Spent in 5 Months / Payment Method / Recent Cart Book / Recent Wishlist Book / Last Purchased Book / Estimated Average Price per Book / City Group / City Group with Major City

10 Ann Brandyhaven Female 1968-09-13 7 75.45 Debit Card Mastering ChatGPT: The Art of Virtual Conversation ChatGPT for Young Minds: Futuristic Study Techniques ChatGPT for Young Minds: Futuristic Study Techniques 10.78 Group 3 (Example: Michaelshire) Group 3 (Nearby Major City: Chicago)
64 Ashley South Briantown Female 1994-07-12 6 47.97 Bank Transfer Empowering Lives with ChatGPT: A Comprehensive Guide Intellectual Property in the ChatGPT Era Empowering Lives with ChatGPT: A Comprehensive Guide 7.99 Group 2 (Example: South Karenbury) Group 2 (Nearby Major City: Los Angeles)
45 Bryan Heatherfort Other 1993-05-21 5 112.54 Debit Card Empowering Lives with ChatGPT: A Comprehensive Guide Profitable Passions: Monetizing Ideas with ChatGPT Profitable Passions: Monetizing Ideas with ChatGPT 22.51 Group 3 (Example: Michaelshire) Group 3 (Nearby Major City: Chicago)
765 Jose Johnsonburgh Male 1990-07-11 6 96.94 Bank Transfer ChatGPT API Mastery: From Novice to Expert ChatGPT for Personal Branding: A Journey to Success ChatGPT API Mastery: From Novice to Expert 16.16 Group 3 (Example: Michaelshire) Group 3 (Nearby Major City: Chicago)
337 Zachary Michaelberg Other 1975-07-18 3 33.66 Bank Transfer ChatGPT: The Gateway to AI Exploration Ask ChatGPT: Navigating the Knowledge Universe ChatGPT: The Gateway to AI Exploration 11.22 Group 3 (Example: Michaelshire) Group 3 (Nearby Major City: Chicago)

 

 

CSV 형식의 데이터 파일

modified_online_bookstore_customer_data.csv
0.57MB

 

 

 

 

 

어떤 책들이 많이 팔렸는지 부터 보자

 

 

많이 팔린 책들은 주로 ChatGPT의 기능, 활용 방안, 그리고 이 기술이 일상과 업무 환경에 미치는 영향에 초점을 맞춥니다. 교육, 프로그래밍, 금융, 언어 학습 등 다양한 분야에서 ChatGPT를 어떻게 효과적으로 사용할 수 있는지에 대한 실질적인 가이드와 인사이트를 제공합니다. 또한, ChatGPT를 이용한 창의적 글쓰기, 개인 브랜딩, 치료적 사용 등 새로운 영역에 대한 탐색도 포함됩니다. 이 책들은 기술적 측면과 사회적, 교육적 영향을 모두 다루며, 독자들에게 인공지능 시대를 이해하고 준비하는 데 중요한 정보를 제공합니다.

 

 

수치변수들은 우선 선형관계를 한번에 살펴본다. 상관관계를 히트맵으로 요약해보자

 

이 heatmap에서 주목할 만한 몇 가지 핵심 패턴은 다음과 같습니다:

  1. 구매도서 수와 구매액 간의 상관관계: 이 두 변수 사이에는 긍정적인 상관관계가 있었습니다. 이는 고객이 더 많은 수의 책을 구매할수록 총 구매액이 증가한다는 것을 시사합니다.
  2. 리뷰 수와 평균 리뷰 평점: 이들 변수 사이의 상관관계는 약하거나 중립적일 수 있습니다. 이는 리뷰를 많이 작성하는 사용자가 반드시 높거나 낮은 평점을 부여한다는 것을 의미하지 않습니다.
  3. 나이와 구매 관련 변수들: 나이는 구매 도서 수나 구매액과 같은 다른 변수들과 유의미한 상관관계를 가지지 않을 수 있습니다. 이는 다양한 연령대의 고객들이 서점에서 비슷한 수준의 활동을 보일 수 있음을 나타냅니다.
  4. 리턴율과 다른 변수들: 리턴율은 다른 변수들과의 상관관계가 낮거나 중립적일 수 있습니다. 이는 리턴율이 고객의 구매 패턴이나 리뷰 활동과 크게 연관되지 않을 수 있음을 나타냅니다.

 

 

 

 

구매한 책의 수가 많은 고객일 수록 구매금액의 합계가 약간은 더 높아진다. 완전 선형은 아니다.

책을 읽을 줄 아는 사람들은 좀 더 비싼 책도 살 수 있다는 의미일까? 선물을 하느라?

더 심도있는 분석이 요구되는 부분이다.

 

 

추가분석대상 ::

금액이 적은 쪽에서 평균평점이 높은 관계가 보인다. 책에 대해 많이 알게될 수록 평가를 엄격하게 하게되는 경향이 있는 것일까?

 

 

 

 

 

 

우리가 가지고 있는 정보만을 사용하여 k-NN 방식으로 유사한 책들의 가격을 추정하는 것은 제한적입니다. 가장 간단한 접근 방식은 책 제목의 텍스트 유사성을 기반으로 유사한 책들을 찾고, 이들의 평균 가격을 계산하여 NaN 가격을 가진 책에 적용하는 것입니다. 이 방법은 제한적이지만, 현재 데이터 상황에서 시도해볼 수 있는 유일한 방법입니다.

이 접근 방식을 사용하여 가격 추정을 수행한 후, 추정된 가격을 가진 모든 책에 대해 가로 막대 그래프 (barh)로 시각화하겠습니다. 먼저, 유사 책들의 가격을 k-NN 방식으로 추정해 보겠습니다.

 

 

 

 

이제 책 별로 추정가격이 있으니 가격과 판매량간의 관계를 비교해 보는 것은 어떨까?

 

 

 

고객 주소인 도시로부터 지역을 자동 구분할 방법이 있을까? ChatGPT가 가진 상식을 활용한다면 말이다.

구분하고 나면 지역 단위의 인기 도서를 비교해 본다면?

 

 

 

 

 

인구통계적인 측면을 살펴보자. 연령에 따라 선호하는 도서의 차이가 존재할까?

 

 

원천적으로 연령 구성은 어떤가?

연령분포는 약간의 차이지만 대략 두 개 봉우리로 보인다. 대학생 근처 집단 하나와 50세 인근 중년 집단 하나

30대 중반은 바쁜지 책을 덜사는 모양이다. (회사에서 사주니 직접 살 필요가 없어서일까?)

 

연령과 성별의 관계와 분포를 짚어보자

 

연령별 차이가 미미하지만 남성의 senior 집단 쪽이 여성에 비해서는 ChatGPT 관련 도서에 큰 관심이 없는 것으로 보인다

 

10세단위 구분이 적절하지 않았을 수 있으나, 40대 초 정도에서 구매 수량이 낮아지는 특징이 보인다. 70세 이상이 중요할 수 있겠고 10대는 구매가 저조하다.

 

 

 

장바구니에 담긴 책, 위시리스트에 담긴 책, 그리고 최근 구매한 책 간의 관계 연관성을 네트워크 시각화 방식으로 제공하는 것은 가능합니다. 이를 위해서는 각 책들 간의 연관성을 측정하고 이를 네트워크 그래프로 표현해야 합니다. 연관성 측정은 각 책이 서로 얼마나 자주 함께 등장하는지(예: 같은 고객의 장바구니와 위시리스트에 동시에 나타나는 경우)를 기반으로 할 수 있습니다.

네트워크 시각화는 책들을 노드로, 이들 간의 연관성을 에지로 나타내어 각 책들 간의 관계를 시각적으로 표현합니다. 이러한 네트워크는 책들 사이의 연관 패턴을 이해하는 데 유용할 수 있습니다.

다만, 이러한 분석과 시각화는 매우 복잡할 수 있으며, 특히 대규모 데이터셋에서는 시간과 자원을 많이 소모할 수 있습니다. 

 

 

 

  1. 클러스터 형성: 네트워크에서 몇몇 노드들이 서로 밀접하게 연결되어 클러스터를 형성하고 있는 것을 볼 수 있습니다. 이러한 클러스터는 고객들이 서로 관련이 깊은 책들을 함께 구매하거나 관심을 가지고 있는 경향을 반영합니다.
  2. 중심 노드의 존재: 네트워크에서 특정 노드들이 많은 연결을 가지고 있으며, 이들은 네트워크의 중심 노드로 볼 수 있습니다. 이러한 중심 노드들은 다른 많은 책들과 연관되어 있으며, 인기 있는 또는 핵심적인 책일 가능성이 높습니다.
  3. 연결의 강도: 네트워크에서는 연결의 강도가 다양합니다. 일부 책들은 다른 책들과 매우 강한 연결을 가지고 있는 반면, 일부는 약한 연결을 보입니다. 이는 고객들이 특정 책들을 함께 구매하는 경향이 다르다는 것을 나타냅니다.
  4. 분리된 노드: 네트워크에서는 몇몇 노드들이 다른 노드들과의 연결이 없거나 매우 적은 것을 볼 수 있습니다. 이러한 분리된 노드들은 특정 고객 그룹에게만 인기가 있거나, 특이한 주제를 다루는 책일 수 있습니다.
  5. 연결 패턴의 다양성: 전반적으로 네트워크 내에서 다양한 연결 패턴을 관찰할 수 있습니다. 일부 책들은 여러 다른 책들과 연결되어 있는 반면, 다른 책들은 좁은 범위의 책들과만 연결됩니다. 이는 책들 간의 관계가 다양하며, 고객들의 취향과 관심사가 다양하다는 것을 시사합니다.

 

 

 

 

 

관련 포스트 :: 

https://revisioncrm.tistory.com/592

 

[온라인 서점 고객세분화] ChatGPT가 지원하는 디지털 마케터의 시장/고객 데이터 분석

[온라인 서점 고객세분화] ChatGPT가 지원하는 디지털 마케터의 시장/고객 데이터 분석 * 고객세분화와 마케팅, 그리고 데이터분석과 알고리즘 활용 (Python). ChatGPT의 초안을 이해하고 응용하는 방

revisioncrm.tistory.com