>RE::VISION CRM

R 데이터 분석

[R 라인플롯][시계열분석] 페이스북에 대한 관심 시계열 분석 예제

YONG_X 2014. 2. 3. 16:37

최근(2014년 초) 의 한 뉴스 기사에서는 페이스북에 대한 사람들의 관심이 줄어들기 시작했다고 하는 내용을 전했다. 10대들은 더 이상 페이스북에 관심이 없어졌고, 다른 커뮤니케이션 수단들로 떠나가기 시작했다는 것이다. 세상 모든 것에 대한 관심은 생겨남과 동시에 그 쇠망도 함께 가지게 되는 것이 자연스러운 것이기에 전혀 말이 되지 않는다고 볼 수는 없을지 모른다. 문제는 그 근거자료로 구글트렌즈(trends.google.com) 데이터가 사용되었다는 점이다.

 

구글트렌즈는 지배적인 검색사이트인 구글에서의 검색량 통계이므로 분명 유용한 정보를 준다. 하지만, 근본적인 왜곡(bias)의 소지도 함께 안고 있는 것이 사실이다. 예를들어 스마트폰에 App을 설치해둔 사람이라면 더이상 구글에서 "facebook"을 검색할 일은 없어질 것이기 때문이다.

 

페이스북에 대한 사람들의 관심이 정점을 지나 감소로 방향이 바뀌고 있다는 주장을 뒷받침하기 위해서는 좀 더 다각적인 검토가 필요해 보인다.

 

이 흥미로운 주제를 소재로 해서 특정한 사물이나 사건에 대한 사람들의 관심변화를 구글트렌즈 데이터를 받아서 R을 사용해서 분석하는 방법을 연습해 본다.

 

첫번째 단계는 구글트렌즈에 접속해서 필요로 하는 키워드에 대한 검색량 통계를 다운로드 받는 것이다.

그 결과물은 아래의 파일에 들어 있다. 물론 데이터 분석에 사용되지 않을 필요없는 항목들과, 페이스북이 창립되기 이전에 대한 기간들은 삭제해둔 상태이다.

 

gt_fb.csv

 

 

gt_fb <- read.csv("gt_fb.csv")

 

gt_fb$week <- as.character(gt_fb$week)

# class( gt_fb$week)

gt_fb$mon <- ifelse(as.numeric(substr(gt_fb$week,23,24)<=3),
substr(gt_fb$week, 6, 7), substr(gt_fb$week, 19, 20))
gt_fb$yr <- as.character(ifelse( gt_fb$mon=="01",substr(gt_fb$week, 14,17), substr(gt_fb$week, 1,4)))
gt_fb$yr <- as.factor(gt_fb$yr)

 

require(sqldf)
gt_fb1 <- sqldf('select distinct week, yr, mon,
    avg(gti_fb_ww) as fb_wwma ,
    avg(gti_fb_kr) as fb_krma
    from gt_fb group by yr, mon
 ')

 

require(ggplot2)

# location = world wide
ggplot(data = gt_fb1, aes(x=as.numeric(gt_fb1$mon), y=gt_fb1$fb_wwma)) + geom_line(aes(colour=gt_fb1$yr))

# location = south korea
ggplot(data = gt_fb1, aes(x=as.numeric(gt_fb1$mon), y=gt_fb1$fb_krma)) + geom_line(aes(colour=gt_fb1$yr))

 

 

 

<Google Trends Index Trend of "Facebook": location = worldwide>

비록 수치형으로 표시되어 우습게 되긴 했지만,

X축은 월의 의미를 나타내고 있기 때문에 연도별 계절적 추이 변화를

한눈에 파악할 수 있도록 작성한 것

 

<Google Trends Index Trend of "Facebook": location = south korea>

 

 

전세계와 한국 경우를 각각 살펴보아도 특정월에 검색이 치솟는 식의 계절성은 눈에 띄지 않는다.

그러나, 한국에서와 전세계에서의 검색량 추이에는 차이가 분명해 보인다. 구글의 검색 점유율이 다른 나라와는 달리 한국에서는 그리 높은 편이 아니라는 점도 영향요인중 하나일 것이다. 또 페이스북에 대해 비교적 강력한 경쟁자들도 한국에는 비교적 많은 편이기도 할 것이다.

 

여하간, 2009년이 성장의 핵이 되었던 해임에는 틀림 없어 보인다.

그리고, 최근 2~3년에 걸쳐 정체되고 있어 보이는 것도 틀림없어 보인다.

또, 2013년 하반기에 검색량이 급격히 줄어들고 있음도 공통적인 사항이다.

 

그러나, 이 정도의 데이터 흐름만을 가지고는 몇년내에 페이스북 가입자의 수가 현재의 절반이 될 것인지를 예측할 수 있다는 주장은 좀 지나친 소설처럼 보인다.

 

** [참고] R을 이용한 데이터 준비상의 주의 사항

<구글트렌즈>의 데이터를 다운로드 받으면 week 단위의 값이 보여지기 때문에

우리에게 익숙한 월단위의 형태로 변환하기 위해서는 약간의 처리가 필요하다.

여기서는 주가 마감되는 일자가 언제인가에 따라 어느 월에 속하는가를 결정하고

해당 월을 해당 년도에 포함되도록 다시 변환하는 작업을 거친 것이다.

월단위 집계에는 편의상 주별 값의 평균을 sqldf  함수를 사용하였다.

gt_fb.csv
0.01MB