>RE::VISION CRM

빅데이터

[빅데이터] 데이터를 잘못 읽기 - 배경지식, 상식과 결합한 해석의 중요성

YONG_X 2016. 10. 19. 17:52

[빅데이터] 데이터를 잘못 읽기 - 배경지식, 상식과 결합한 해석의 중요성



2016. 10. 19 ......... 전용준 | 리비젼컨설팅 대표 xyxonxyxon@empas.com 



데이터 세상이라고들 한다. 데이터가 많아진 것은 부정할 수 없다. 그 와중에 아주 편리한 도구로 관심을 모으고 있는 것 하나가 구글의 검색통계, 구글트렌드(trends.google.com). 

재미삼아서 구글트렌드를 통해서 페이스북과 트위터에 대한 전세계의 관심도 추이를 살펴보자. 한 눈에 페이스북이 트위터에 비해 관심이 많다는 사실과 더불어 페이스북에 대한 관심이 2013년을 전후하여 감소추세를 이어가고 있다는 사실을 한눈에 볼 수 있다.

이로부터 무엇을 생각해낼 수 있을 것인가?



"어? ... 아! .... 페이스북의 사용자들이 다른 미디어로 떠나가서 관심이 줄어드나보다!"


과연 이런 단순한 풀이가 타당한 해석이라 할 수 있을까?



[그림] <facebook>과 <twitter> 전세계 범위에서의 검색 관심도 추이 비교 (2004~2016.10.19)






그렇다면 실제로 페이스북의 사용자들이 떠나갔는지를 페이스북이 발표한 통계를 통해 확인해 보자.

2014년 이후의 사용자수 특히 활성 사용자의 수는 꾸준히 증가하고 있다. 페이스북이 주가관리 차원에서 거짓 통계라도 내놓은 것인가? 그럴리는 없어 보인다.

그렇다면 앞선 구글트렌드가 보여준 통계는 무엇을 의미하는가? 우리가 제대로된 해석을 했던 것일까? 구글트렌드 그 자체를 관심도의 추이라고 보는 것이 적절한 것인가?



[그림] 페이스북의 일단위 활성 사용자 수 추이 (2014~2016 1Q)

자료: Venturebeat. ( http://venturebeat.com/2016/04/27/facebook-passes-1-65-billion-monthly-active-users-54-access-the-service-only-on-mobile/  )



스마트폰 보급과 더불어 더 많이 확산된 페이스북은 여전히 많은 사용자를 가지고 있으며 활발한 이용도 이루어지고 있는 것이 사실이다. 오직 그 사실이 데이터로 구글에 의해 포착되지 않는다는 것이다. 안드로이드 스마트폰의 기본 검색 창구인 구글을 거치지 않고도 페이스북이 적극 배포한 페이스북앱을 통한 접속이 증가했다. 더 이상 사용자들이 구글을 거쳐서 페이스북을 찾아갈 이유가 없어졌다. 이 현상은 페이스북을 자주, 그리고 더 적극적으로 사용하는 사용자의 경우라면 더 심할 것이다. 

이와 같은 <배경지식>이 빠진 상태에서 단순히 검색통계 한 가지만 두고 풀이를 하는 과정이 얼마나 위험한가에 대한 단적인 사례일 것이다.



빅데이터가 끝났다?


유사한 사례를 또 한 가지 살펴보자. 구글트렌드의 통계를 보면서 <빅데이터>가 표류하고 있으며 관심이 끝났다는 주장과 해석을 내놓는 경우다. 이 역시 합리적인 해석일까? 2016년 출간된 <빅데이터는 거품이다>라는 책을 보면 <관심과 비판 부족, 연착륙 난망>이라는 해석을 내놓았다. 구글트렌드의 통계값이 증가를 멈춘데다 불안정하다는 단서를 풀이하면서 나온 주장이다. 책에서는 미국은 빅데이터에 대한 관심 증가가 멈추었다고 해도 안정적인 모습이지만 대한민국은 그렇지 않다는 주장을 한다. 

구글트렌드를 보자. 먼저 전세계를 놓고 보면 분명 증가세가 둔화되었거나 멈춘듯 보인다. 그러나 비교적 안정적으로 보인다.



[그림] <big data>라는 키워드 전세계 지역의 관심도 추이 (2010~2016.10.20)



이제, 대한민국으로 범위를 좁혀보면 <big data>에 대한 관심이 2015년 이후 오히려 얼마간은 줄어드는 듯한 모습으로도 보인다. 이에 착안하여 <관심과 비판 부족, 연착륙 난망>이라는 단조로운 해석이 나온 것이다. 그러나 일단 이런 해석을 내놓기 전에 <빅데이터>라는 한글로된 키워드가 존재한다는 사실을 먼저 생각했어야 했다. 한글로된 검색은 2015년과 2016년을 통해서도 줄어들기는 커녕 오히려 지속적으로 늘어나는 모습을 보여주고 있다. 물론 2013년의 급격한 증가에 비해서는 다소 증가세는 둔화된 듯 보이지만 그 증가세가 끝이 났다고 보기는 어렵다.


[그림] <big data>, <빅데이터> 두 가지 키워드간의 관심도 추이 비교 (2010~2016.10.20)


이 두 가지 키워드가 보이는 패턴의 차이는 어떻게 해석해야할 것인가? 우선적으로 생각해볼 가설은[1]  2014년 이후 이미 그 개념이 국내에 확산되었고 관련된 자료들이 한글로 많이 나오기 시작했기에 영문으로된 해외 자료를 찾을 필요가 없어졌다는 것이다. [2] 두번째로는 검색을 하는 집단에 다른 사람들이 많이 유입된 것으로 보는 것이다. 

2013년을 기점으로 빅데이터 관련 산업 및 기술 분야 전문인력들이 빅데이터에 대한 정보를 찾고자 했던 것에서 그 주체의 범위가 대학생들과 일반인을 포함하여 넓어졌을 것이라는 가설이다. 전문인이 아니다 보니 영문으로된 최신 동향 보다는 일반론에 대한 검색이 많아졌을 수 있다. 한글로 작성된 국내 자료만으로도 충분한 경우이다. 이러한 내용들을 고려해보면 두 가지 가설들 중 어느 쪽이 사실이든 간에 앞서와 같은 <관심과 비판 부족, 연착륙 난망> 이라는 스토리로 귀결될 가능성은 별로 없어 보인다. 극히 일부의 표면으로 보고 확대해석을 너무 쉽게 해버린 것이 아니었을까?



이터는 아무말도 하지 않는다. 오직 데이터를 읽는 사람이 무언가를 말할 뿐이다.



빅데이터든 스몰데이터든 데이터는 유용한 재료가 될 수 있다. 그러나 재료가 많다고 좋은 요리가 되는 것도 아니며 식사를 한 사람을 행복하게 하는 것도  아닐 수 있다. 잘못된 가공은 아무런 가치를 만들지 못할 뿐더러 비용을 낭비하며 더 나아가서는 나쁜 경험으로 까지 연결된다.

단순히 기술적 관점에서 기계적으로 데이터를 처리하고 읽는 것은 큰 리스크를 수반한다. 더 많은 데이터는 좀 더 유리한 여건을 제공하지만 데이터가 보여주는 패턴을 제대로 해석하지 못한다면 무용지물이 된다. 가용한데이터가 설명하고자 하는 문제 전체에서 얼마나 많은 부분에 대해 정보를 담고 있는가를 체크해야 한다. 팔 한쪽만 보고 한 사람의 전체를 설명하려는 우를 범하는 것은 결코 바람직하지 않을 것이다.






- 끝 -