>RE::VISION CRM

카테고리 없음

KHU 빅데이터 150317 보충

YONG_X 2015. 3. 17. 16:40
경희대학교 경영대학원 디지털경영MBA 빅데이터 2015


KHU 빅데이터 150317 보충


기술 [P.162]
=================
하둡 - 다수의 병렬 서버를 활용한 대용량 데이터 처리 프레임워크

맵리듀스 -



스크립팅 언어 - Python, Pig, HIVE


기계학습

시각적 분석

자연어 처리 - 텍스트 분석 - 빈도나 의미


인메모리 분석 - 컴퓨터 메모리에 저장된 데이터를 활용한 분석 처리 방식


무엇이 새로운가?
- 병렬, 대규모 처리, 인메모리, Non-SQL, 오픈소스

하둡이 필요한 이유 [P164]
- 한대의 서버에서 (아무리 강력해도) 빠르게 처리될 수 없다.
특정한 조건에 맞는 사진을 찾기 위해 다른 사진들과 비교하는 알고리즘일 경우 병렬이라면 백배이상 시간을 줄일 수 있다.

이베이 [P165]
온라인클릭스트림 데이터 저장 및 분석
40PB DW - 100+PB 하둡 클러스터 세트

클라우드컴퓨팅 - 하드웨어와 소프트웨어를 필요할 때 필요한 만큼 임대해 사용


분석 방법은 새롭지 않음 [P166]
비정형 데이터(텍스트, 사진, 음성, 동영상) --> 정형화 --> 기존방식과 같은 분석 처리






[Q1] 빅 데이터의 3요소로 데이터 량, 다양성, 속도 등을 이야기한다. 하지만 이 보다 가치(Value) 가 더 중요하다고 한다. 빅 데이터에서 가치란 무엇을 의미하는지를 설명하고 3V 보다 더 중요한 이유를 설명하라.




[Q2] 당신은 기획 담당 임원이다. CIO는 빅 데이터 프로젝트를 제안하면서 대규모의 데이터를 축적하기 위해 거액의 투자를 요청했으나 무엇을 분석할 것인지에 대해서는 언급이 없다. 당신은 어떤 조언을 주겠는가?  



[Q3] 당신이 대한민국의 국가 빅데이터 전략을 기획하는 임무를 맡은 담당자라고 가정하자. 데이터 분석을 담당할 전문성 있는 데이터 과학자가 부족하다는 문제를 해결하기 위해 어떤 방법을 강구할 것인가?