>RE::VISION CRM

Python데이터분석

데이터 사이언스: 과학인가 기술인가 실행인가 [Draft]

YONG_X 2022. 9. 13. 18:12

데이터 사이언스: 과학인가 기술인가 실행인가

Data Science: Science, Art or Action?

 

SEP. 2022

 

. . . . .   YONG

 

 

데이터 과학과 데이터 과학자가 많은 사람들에게 흔한 단어로 사용되고 있는 시대이기는 하지만 

데이터 과학과 본래 의미에서의 과학을 혼동하는 이들이 대부분인 것 처럼 보인다.

경험적으로 보면 데이터 과학에서 과학의 역할은 Foundation, 기술(Art)의 역할은 Technique, 실행의 역할은 Application(즉, Goal)이라 생각된다.

 

딱딱한 과학의 정의를 들춰내 보면,

"세계의 구성, 변화 등에 관한 합리적 이해를 목적으로 수학과 실험의 방법을 이용하여 수행하는 지적 탐구활동" 이다.

 

데이터 과학으로 좁혀서 생각해 본다면 그 대상물 역시 일반적인 세계가 아닐 뿐더러 '목적' 부터가 '이해' 그 자체가 아니다. 이해하는 것으로 만족할 것이라면 아마도 아무도 기초과학이 아닌 데이터 과학에 관심을 가지거나 투자하려고 하지 않을 것이기 때문이다. 데이터 과학에게 주어진 임무는 이해를 바탕으로 돈을 벌게 하는 (가치를 창출하도록 하는) 것이다.

 

목적과 결과물에서의 차이가 끝이 아니다. 수학과 실험이라는 체계적 방법만으로는 해결할 수 없을 만큼의 넓고 다양한 문제들을 다루기 때문이다. 이런 특수하지만 한편 일반적인 상황에서는 과학이 아닌 창의적 '찍기'  또는 영감에 의존해야만 한다.

 

 

데이터 과학에서의 과학의 의미는 Foundation, 기술의 의미는 창의적으로 사용되는 Technique, 실행의 의미는 Goal이다. 대부분의 사람들이 제목에 등장한 '과학'이라는 단어에 집중하지만 실제로는 과학의 색채는 20%를 넘겨 지니지 않은 활동이다. 80%가 Art and Action으로 구성된다.

 

 

 

탐구는 지적유희라는 뉘앙스를 강하게 풍긴다. 현실의 데이터 과학에서 탐구 내지는 탐험은 일상적으로 벌어지는 일이지만 이 경우에는 탐구에 명확한 목표가 있다. 효율과 효과라는. 더 많이 팔거나 더 빠르게 운영하거나 하는 등의 매우 구체적이고 타산적인 목표 말이다.

 

여전히 과학은 그 숭고한 목표를 향해서 정진한다. 하지만 데이터 과학은 그리 고상한 목표를 가진 것이 아니다.

더 빠른 시간내에 고객을 이해하고 고객에게 적용할 interaction tactics를 찾아내야 한다. 확률적으로 이득이라면 정답과 오답을 섞어 결과물을 내는 것에도 서슴이 없다. 없어도 될 상품을 가려내기 위해 무제한 조합대신 유의수준 밖에도 상관없이 선별적인 시뮬레이션을 한다.

 

데이터 과학은 실험실 안에 있는 것이 아니다.

그래서 수많은 감당할 수 없을 만큼 많은 변수들 사이에 부유하며 흔히 비현실적이고 가혹한 마감일정을 매일 매일 만족 시켜야한다. 

 

내가 한 사람의 추가적인 팀원을 골라야할 상황에 놓인다면

그리고 세명의 후보가 존재한다면,

한 사람은 .... 실험계획법과 비모수 통계, 선형대수와 AutoML에 익숙하고 (Foundationalist)

한 사람은 ... 선형회귀분석 하나에만 익숙하지만 변수개발이나 문제 변환에 익숙하고 (Tech Artist)

그리고 나머지 한 사람은 스캐터 플롯 하나만 그릴 줄 알지만 어떤 문제를 풀어야 업무목표에 도움될지에 대해 새로운 해석 을 해낼 수 있다면 (Applicationist)

 

나는 주저없이 세번째를 고를 것이다. 당장의 내 짐을 가볍게 해 줄 것으로 기대하기 때문이다.

Greedy 한 것이라 생각하지 않는다. 원래 데이터 과학의 임무에 충실한 선택이기 때문이다.

 

데이터 과학자라고 스스로 여기는 사람들이나 그렇게 불리우고 싶어하는 Wannbe 들이 흔히 하는 이야기기 바로 "무엇을 분석해야 할지는 잘 떠오르지 않아요" 이다.

이유는 간단하다. 그 쪽에는 관심을 둔 적이 별로 없으니 숙련되지 않았기 때문이다.

 

 

데이터 과학이 데이터 사이언스가 무엇인가를 누군가 묻는다면

아마도 나는 "과학을 약간 코스프레하는 목적지향적인 데이터 활용"이라고 답할 듯 하다.

 

 

 

<부록> 또 다른 어떤 이야기를 해봐야 할까?

* 데이터 과학이 망가지는 이유는?

* 데이터 과학에 대한 오해의 변천사

* 누가 데이터 과학을 망치는가? 매니저? 경영자? 그들 자신? 학원들? 뉴스기자들?