>RE::VISION CRM

빅데이터

[빅 데이터 분석] 무엇을 분석해야 하는가?

YONG_X 2011. 12. 21. 19:17

[빅 데이터 분석] 무엇을 분석해야 하는가?

 

-  작성중 - December 2011. 전용준. 리비젼컨설팅/아카데미.  http://cafe.daum.net/revisioncrm

-  부분수정 - May 2011.

 

2011년, 빅 데이터 분석(Big Data Analysis)은 꽤나 인기있는 화두 하지만 막상 구체적인 질문에 들어가면 아직은 별 명쾌한 대답을 구체적으로들 풀어내지 못하고 있는 것이 현실이다. 심지어는 무엇이 빅 데이터 이며 왜 빅 데이터를 고민해야 하는가에 대해서 조차 그렇다. 그 때문에 언제나 그리고 얼마나 큰 가치를 빅 데이터 분석으로 부터 우리가 얻게 될 것인지에 대해 판단이 쉽질 않다.

 

그런 근본적인 질문들 중 하나가 바로 [ 무엇을 분석해야 하는가 ] 일 것이다.

단, 이 이야기를 풀어가기 위해서 먼저 살펴볼 부분이 있다. 빅 데이터든 아니면 스몰 데이터든 결국은 [ 데이터 분석] 이라는 점이다. 따라서 우선은 데이터 분석에서 무엇이 대상이 되어야 하는가를 먼저 생각하고 넘어가는 것이 순서일 것이다.

 

이에 대한 실마리를 찾기 위한 고민의 결과로 다음의 일련의 항목들을 검토할 것을 주문한다.

 

분석의 대상을 찾기 위해 고려할 수 있는 세가지 축과 두가지 추가적인 차원

 

[Dimension 1] 육하원칙 5W1H

누가 - 고객, 직원, 점포, 라인

무엇을 - 상품, 서비스, 구매, 이용, 부품, 자재, 시설, 이상, 고장

언제 - 계절, 시간, 요일, 행사

어디서 - 지역, 국가, 건물

어떻게 - 채널, 지불수단, 만족, 속도

왜 - 좋아서, 불안해서, 편해서, 기분이 나빠서, 우울해서, ...

 

[Dimension 2] 탐색적 데이터 분석의 유형

구조, 구성

차이, 변화, 반복, 주기

속도,  경로

진위, 영향

 

[Dimension 3] Value Chain상의 기능

이는 결국 일반적인 기업내의 활동에서의 기능 영역의 범위가 어디인가를 의미한다.

(특히 기업에서의 활용 측면에서 보는 경우)

 

고객관리, 채널관리, 품질관리, 마케팅, 서비스, 자재관리, 인력관리

Mktg, SVC/CS, CRM, SCM, QM, ...

어떤 분야에 적용하려는가

 

[Additional Diemnsions ] 그리고 두가지 추가적인 고려사항

하나는 과거, 현재, 미래 중 언제에 대한 분석 결과가 나와야 하는가

과거 중에서도 최근, 그리고 미래 중에서도 단기 미래라는 세부적인 시점에 대한

판단이 필요

 

나머지 하나는 어떻게 활용할 것인가와 그에 따른 우선순위

분석결과로 찾아낸 지식과 정보를 어떤 활동에 적용할 것인가? 어떤 Action을 취할 수 있는가?

어떤 의사결정을 내릴 수 있는가?

누구에게 유용한 정보가 될 것인가?

그리고 우선순위는 상대적으로? (유용성, 시급성, 복잡도, 기타 제약사항. 예를들면 데이터가 존재하는가와 같은)  수많은 분석 대상중 더 우선적인 것은 무엇인가?

 






이상의 실마리가 되는 축들을 결합해서 찾아낼 수 있는 가상적인 분석결과의 한 예를 들어 본다면

"오늘은 남성 특히 회사원 층의 사람들이 강남역 근처에서 회식을 많이 하지 않을 것이다. 이 들은 다음주로 모임을 많이 미룰 것이며 화요일 모임이 특히 많을 것이다."와 같은 식이 될 수 있다. 이를 찾아내기 위해서는 사전에 누가 언제 어디서 무엇을 할 것이며 대신 어떤 일이 다음에 벌어질 것인가로 구성된 분석이 미리 이루어져야 할 것이다. 이 분석의 대상 영역은 마케팅, 그리고 중요도는 높다는 식의 판단도 따라야 할 것이다.

 

이와 같이 매우 일반적인 후보 분석 대상의 목록을 작성하다보면 분석을

할만한 내용은 무수히 많이 찾아질 것이다. 어쩌면 너무나 많은 후보들이 도출되는 사태도 벌어질 수 있다.

 

 

이제, 앞서 미리 살펴본 기본적인 데이터 분석 대상 파악의 방법에 대한 이해를 바탕으로 기존의 데이터 분석의 대상이 아닌 새로운, [빅 데이터 분석]을 통해 무엇을 찾을 것인가를 생각해 본다면?

 

 

        >> 빅데이터 관련 2012년 6월 교육안내:  http://blog.daum.net/revisioncrm/167 

 

 

빅데이터 분석의 대상 주제의 예는?

 

빅데이터 분석과 관련해서 최근의 뉴스 기사에서 나왔던 이야기중 하나는

 

*  독감은 어떤 경로로 (어떤 속도로) 확산되는가?

(관련글 : http://cafe.daum.net/revisioncrm/Lcbg/287 )

 

조금 확대해서 비슷한 분석 주제로 생각해 볼 수 있을 만한 것 두가지 추가.

 

*  오늘은 어떤 손님이 많이 올 것이며 어떤 주문이 많이 들어올 것인가?

 

(한참 사람 많은 연말 목요일 저녁시간, ... ) 오늘은 택시를 몇시에 어디서 잡아야 쉽게 잡힐까?

 

독감의 확산에 대한 분석이 분석 대상 주제로 유용했던 이유는 무엇일까?

독감 확산이야 어차피 정부기관들에서 사후적으로는 통계가 나올 것이겠지만 핵심은

독감 확산을 정부기관보다도 더 '먼저', 즉, 누구보다 빨리 파악할 수 있었기 때문.

그렇다면 더 먼저 파악할 수 있었던 이유는 무엇일까? 통상 빅 데이터라고 부르는 종류의 데이터는 실시간 그리고 사람들의 검색이나 소셜네트워크 등에서 에서 포착되는 비정형적인 새로운 데이터들이 반영될 수 있기 때문. 얼마나 빨리 정보를 생산할 수 있는가 그리고 당장 유용한 정보를 찾아낼 수 있는가가 중요한 요인

Nearest realtime information, most recent update 여기에 사람들이 가치를 부여한다는 사실

현재 내지는 초단기적인 미래에 대한 정보가 더 가치있는 정보가 되는 경우가 많다는 점이다.

이는 결코 마케팅이나 커뮤니케이션의 사이클이 짧아진다는 점 즉, 정보의 생산과 유통이 이루어지는 사이클이 짧아진다는 점과 무관하지 않다. 이 처럼 생산 유통의 사이클이 짧아지면서 정보의 유효기간(또는 유통기간)이 함께 짧아진다.

 

여기서 독감의 확산이라는 분석이 누구에게 어떤 식으로 가치를 주었는가를 짚어볼 필요가 있을 듯 하다. 분석을 수행한 것은 구글. 검색업체이다. 하지만 그 정보를 필요로 하는 곳은 일차적으로는 일반 개인들일 수 있다. 검색의 사용자라서가 아니라 일반인들로 독감에 대한 사전 경계를 하려는 사람들일 수 있다. 독감 자체가 아니라 구글은 사용자들에게 유용한 정보를 빠르게 그리고 필요한 시점에 제공한다는 가치로 인해 더 많은 사용자를 유치 및 유지 할 수 있고 그 댓가로 더 높은 광고수익을 얻을 수 있다는 점이다. 결국 찾아내는 정보를 직접 사용하는자와 그 정보를 통해 금전적 이익을 누리는 자가 구분될 수 있다는 시사점을 볼 수 있는 것이다. 

 

오늘은 어떤 손님이 많을 것으며 어떤 주문이 많을 것인가에서도 마찬가지. 초단기적인 예측, 즉, 최근의 동향으로 미루어 볼때 당장 또는 오늘, 조금 있다가 어떻게 신속하게 대응을 해야하는가를 결정할 수 있고 이를 통해 비용을 줄이거나 매출을 늘이기 위한 조치를 취할 수 있다. 음식점이라면 손님의 구성에 따라서 서비스 인력을 일시적으로 늘이거나 줄이는 것이 가능하다. 재료를 추가로 조달하는 것도 가능하다. 유통업체라면 진열을 조절해서 팔릴만한 상품을 더 많이 배치하는 것을 통해 매출을 높이는 것이 가능하다.

일종의 조기경보시스템 (Early Warning System)을 운영할 수 있다는 것이다. 흐름에 대한 초단기 예측이 가능하도록, 사전에 모델이나 패턴을 개발해 두었다가 활용한다는 것이다.

음식점의 예에서도 정보의 직접 사용자는 음식점 주인일 수 있겠지만 만일 음식점에 손님이 갑자기 증가할 때를 대비해 비상인력을 공급하는 업체가 있다면 더 큰 금전적 이익은 그 곳이 누릴 수 있을 가능성도 있다. 그리고 그런 기회를 이해하고 있는 업체라면 이 분석의 주체가 되어야 할지도 모른다.

 

택시를 어디서 잡아야 할 것인가의 경우도 마찬가지이다. 사람 많은 연말이라면 도심에서 저녁시간 택시잡기는 쉽지 않다. 그러나 어디서 언제 잡는가에 따라서는 훨씬 수월하게 택시를 잡을 수 있다. 문제는 그에 대한 답이 일정하지 않다는 것이다. 날씨나 그날 그날의 상황에 따라 수시로 변화가 있다. 이 때문에 실시간적인 정보는 가치를 발휘한다. 어디서 택시를 잡으면 얼마나 걸린다는 요약정보를 만들어 낼 수 있다면 그것만으로도 사람들은 좀 더 쉽게 택시를 잡을 수 있는 곳을 찾아낼 수 있다. 

 

제조업체나 유통업체에서 생각해볼 수 있는 두가지 주제를 더 생각해 보면 다음과 같다. 이 두가지는 앞서와는 달리 실시간적이라는 점이 특별하게 중요한 경우는 아니지만, 앞선 사례들 이상으로 기업들이 얻을 수 있는 가치가 크게 기대되는 경우들이다.

 

* 매출둔화 원인 진단과 커뮤니케이션 방향 수정

 

유통업체의 경우에도 제조업체의 경우에도 전체적으로 또는 특정 상품에서 매출이 줄어드는 것을 파악하는 것은 오늘날의 IT시스템을 활용해 쉽게 가능하지만 큰 문제는 왜 매출이 줄어들었는가를 파악하는 것이 가능하지 않은 것이 현실이다. 빅데이터 분석을 위해 소셜네트워크로 부터 획득된 소비자들의 반응이 분석된다면 그 원인을 찾는 것이 가능해진다. 경쟁사의 신제품 출시나 프로모션의 영향인지, 지역이나 상권에 특별한 변화가 있었기 때문인지, 기타 예상하지 못했던 사회적인 이슈 (예: 광우병 ) 가 발생되었기 때문인지가 드러날 수 있다. 원인을 찾아낼 수 있다면 기업은 다양한 대처방안을 강구할 수 있다. 물리적으로 제품을 변경하지 않는다고 하더라도 제품에 대한 커뮤니케이션 방향을 변화시키는 것으로도 매출의 둔화를 저지할 수 있을 것이다. 예를 들어 광우병이 특정 제품에 크게 부정적인 영향을 미치고 있다면 제품에 포함된 소고기 관련 성분의 장점을 강조하던 메시지를 다른 기능적인 요소로 변경할 수 있을 것이다.


* 소비자 트렌드로 부터 제품 컨셉을 개발

 

새로운 제품을 개발하는 제조업체가 겪는 가장 큰 어려움이 바로 대상으로 하는 소비자들의 마음속에 무엇이 들어 있을까를 파악하는 것이다. 기존에도 신상품 개발을 위한 표본설문조사는 가능했으나 비용이 크고 한가지 목적으로 실시된 조사가 여러 용도로 재사용되기 어려운 문제점을 안고 있어서 실효성이 매우 낮았자. 소셜데이터를 활용하는 분석을 한다고 해도 한번에 새로운 상품의 구체적인 모습이 바로 드러나지는 않을 것이지만 폭넓은 소비자층의 요구에 부합하는 또는 특정한 소비자 집단의 특별한 유구에 부합하는 좋은 신상품의 후보들을 찾아낼 수 있는 단서를 제공하는 것은 가능할 것이다.

 

빅 데이터 분석은 어떤 특성을 가지고 있는가?

 

몇가지의 예를 살펴보면서 얻는 시사점은 활용이 광고나 R&D등 사람들의 움직임과 반응이 필요한 곳에 중요한 분석 주제들이 존재한다는 것이다. 또 사람들의 심리적인 상태나 환경적인 변화에 따라서 다른 결과가 나타나게 되는 곳에서도 좋은 분석 주제들이 존재한다.

부동산 시장이나 주식시장은 사람들의 심리가 매우 중요하게 작용하는 영역이다. 실제로 가치가 커지거나 작아지거나 한다기 보다는 사람들이 왜인지 값이 오를 것이라고 믿는다 또는 값이 떨어질 것이라고 믿는다는 점이 결과적으로 시장의 구도를 변화시키기 때문이다. 실체 보다도 심리의 변화와 확산이 중요한 경우이다. 독감에서 처럼 생태계의 변화에서도 비슷한 점을 찾을 수 있다. 실제 독감이라기 보다도 알려진, 사람들이 인식한 독감이 중요할 수 있다. 사람들의 머리 속의 인식이 변화가 의료수요를 움직이고 수급 불균형으로 이루어지는 결과도 낳게 될 수 있다.

 

소위 빅 데이터라 일커어지는 것들의 내용물을 보면 웹사이트에서의 검색어, 게시글(Posting), 또는 페이지뷰(어떤 컨텐츠를 많이 보았는가) 등이 주종을 이룬다. 이들의 주요한 특성이라 할 수 있는 점들은

 

   [1] 거의 실시간적으로 포착될 수 있다는 점 Near Realtime Data Capture

   [2] 거래와 같은 구체적인 행위 이외의 내용을 담은 데이터가 포착된다는 점 Soft Data Capture

   [3] 사건이 발생되는 위치가 포착될 수 있다는 점 Location Data Capture  

 

빅 데이터는 꼭 이세가지를 모두 충족하는 경우가 아니라 그중 일부를 포함하는 경우라면 조건이 성립된다고 보는 것이 옳을 것이다. 빅 데이터의 사이즈가 커지게된 이유도 근본적으로 이 세가지 특성에서 출발한다. 하지만, 빅 데이터냐 아니냐에 대한 이분법적인 구분은 실용성이 크지 않다. [빅]이라는 것은 결과이지 원이나 목적이 아니다. 

기존에도 POS 시스템을 통해 포착되는 거래 데이터에서 편의점의 매출 변화를 바탕으로 실시간에 가까운 단기적 상품별 매출 변화 예측이 불가능했던 것은 아니다. 실제로 얼마나 많은 노력을 그에 쏟았는가와는 별개로 말이다. 일기예보에 비해 날이 더 춥게 느껴졌고, 그 때문에 특정 지역의 편의점에서 따듯한 음료가 평소 보다 또 예상 보다 더 팔려갈 수 있을 것을 예상할 수 있다. 일기예보와는 달리 비가 좀 일찍 그친다면 우산의 판매를 일찍 종료시킬 수 있을 것이다. 이들은 거래 데이터만으로도 파악이 불가능한 것은 아닐 수 도 있다. 다만, 좀 더 많은 데이터, 좀 더 다양한 데이터가 투입된다면 좀 더 정확하고 구체적인, 또 사람들의 심리적인 변화에 따른 영향도 파악될 수 있다는 점에 차이가 있는 것이다. 물론, 기존에 거래 데이터 조차 50% 이상 분석을 통해 그 가치를 얻어내지 못하고 있었던 상황이라면 추가적으로 그것도 대량의 데이터가 보태진다고 해서 더 좋은 분석을 할 수 도, 더 좋은 업무적인 성과 내지는 활용도 기대할 수 없을 것이다. 

 

데이터 분석의 가치는 절대적인 것이 아니라 그 결과를 활용하는 사람으로 부터 어떤 평가 내지는 인정을 받을 수 있는가가 좌우한다. 결국 가치는 사람이 판단하고 부여하는 것이지 실체가 존재하는 것이 아니다. 지나치게 많은 자원을 그다지 큰 차이로 나타나지 못할 일에 투입하는 것은 상식적으로도 매우 어리석은 일이다.

 

더 좋은 주제를 실수 없이 찾기 위한 Core Tips?

 

[1] (비록 반복적으로 그리고 시행착오를 거쳐 좋은 결과를 얻을 수 있을 지언정) 사전에 충분한 노력을 투입해서 분석을 기획하라

[2] 분석에 꼭 빅 데이터가 필요한가를 확인하라 - 그리고 어떤 빅 데이터가 필요한가를 확인하라

[3] 분석결과와 활용처간의 조합을 조금씩 바꿔 보면서 반복적으로 분석을 실시하라 (Plan while doing) - 한 번의 분석은 그 것으로 끝나는 것이 아니므로 경우에 따라 한 분석이 한 곳에는 유용하게 활용되지 못하더라도 같은 내용이 다른 사람에게 유용한 정보가 되거나 다른 용도로 유용해 질 수 있다는 기본 원리를 기억하라

 

데이터 마이닝의 도입기에도 웹 마이닝의 도입기에도 기대는 컷으나 그만큼의 과실이 얻어지지 못했던 경험을 가지고 있다. 기술의 차이 (특히 하드웨어와 소프트웨어 적인)도 크게 작용했지만 무엇을 어떻게 분석하는가 그리고 왜 분석하며 누구에게 그 결과를 사용하게 할 것인가에 관한 부족했던 준비와 역량도 크게 영향을 주었던 경험을 이미 가지고 있다. 데이터 마이닝은 툴이 자동으로 결과를 찾아낼 것이라는 환상 덕분에 오히려 나락으로 빠졌고, 웹 마이닝은 아직 그다지 성장하지 못한 닷컴기업들을 주된 수요처로 한다는 점에서 시기적으로 붐을 조성하는데 한계가 있었다.

아직은 어떻게 비정형 데이터로 부터 분석을 위한 중요한 변수를 설계할 것인가, 변수가 많아질 경우 어떻게 축소 시킬 것인가, 환경변화와 데이터의 편중에 따른 Bias를 어떻게 처리할 것인가 등 하드웨어와 소프트 웨어 이외에도 많은 기술적 이슈들 까지 많은 풀어야 할 숙제들이 남아있기는 하지만, 이번의 [ 빅 데이터 분석 ]은 어쩌면 데이터 분석의 확산과 발전을 위한 매우 중요하고 결정적인 계기가 되어 줄 지도 모른다는 기대를 해본다. [ 빅 ] 이라는 단어가 풍기는 뉘앙스에서 처럼 무언지 모를 거창함이 기대되기도 한다. 그 기대가 물거품으로 끝나지 않게 되려면 더 좋은 그리고 겉보기에도 팬시한 듯한 하지만 실용적인 분석 대상들이 잘 찾아져야 할 것이다. ( 관련글 :  http://blog.daum.net/revisioncrm/163 )

 

기타 참고가 될만한 글: http://blog.daum.net/main-consulting/5144561 

( 빅데이터 분석, 첫 술에 배부르랴  )

 

-  작성중 -

 

 

- 끝 - December 2011. 전용준. 리비젼컨설팅/아카데미.  http://cafe.daum.net/revisioncrm

-  부분수정 - May 2011.

 

[작성자주] 이 글에 대한 인용 또는 전제를 원칙적으로 허용합니다. 단, 인용시

출처를 밝혀 주시기 바랍니다. 이글의 내용의 전체 또는 일부는 수시 변경될 수 있으며

그 내용에 대한 독자의 해석과 적용은 본인의 판단에 따라야 할 것입니다.

글에 대한 문의 사항이나 발전적 의견은 xyxonxyxon@empal.com 으로도 받습니다.