>RE::VISION CRM

인공지능

[인공지능] 인공지능은 꼭 대량 데이터가 필요한가

YONG_X 2018. 10. 18. 16:57

인공지능은 꼭 대량 데이터가 필요한가



전용준. 리비젼컨설팅 대표. 경영학박사

2018.10.18



인공지능에 대한 관심이 급격하게 늘어나면서 다양한 이야기들이 나오고 있다. 그러나 자세히 들여다 보지 않으면 오해를 불러일으킬만한 이야기들도 심심치 않게 들린다. 그 중 대표적인 한 가지가 바로 인공지능이 제대로 만들어지려면 "엄청나게 많은 대량의 데이터가 필요하다"는 이야기이다. 그러나 결론부터 이야기하면 어떤 문제에 어떤 방법을 사용하는가에 따라 대답이 많이 달라진다는 것이다.



▶ 데이터에 의존적이지 않은 종류의 인공지능 방식들이 존재한다


많은 사람들이 인공지능(Artificial Intelligence)과 머신러닝(Machine Learning) 그리고 딥러닝(Deep Learning)을 동일시 한다. 어쩌면 최근의 분위기와 기술적인 상황을 본다면 잘못된 것만은 아닐 수도 있다. 최근에는 딥러닝에서 가장 많은 기술적 진보를 이루기도 했고 성공스토리를 많이 만들어내고 있는 것도 사실이다. 그러나 원론적으로는 인공지능의 범위안에는 여러 가지가 들어가고 그 중 일부인 머신러닝 역시도 딥러닝 이외의 여러 가지를 포함한다.

대표적으로 머신러닝이 아닌 규칙기반(Rule-based)의 인공지능의 경우에는 많은 데이터가 필수조건이 아니다. 현실세계에 존재하는 패턴들이 이미 사람의 머리를 거쳐 압축되어(Compressed) 규칙의 형태로 입력되는 방식이기 때문이다.


딥러닝 분야의 대가로 널리 알려진 앤드류 응(Andrew Ng) 스탠포드 대학 교수는 딥러닝이 기존의 머신러닝 보다 좋은 이유로 데이터가 많아지면 계속 성능이 좋아진다는 점을 강조한다. 그러나 과연 그런 지나치게 단순화시킨 논리가 타당할까? 틀렸다고 보는 쪽이 맞을듯 싶다. 또는 위험한 이야기라고 보는 것이 맞을듯 싶다.


왜 이 논리가 틀렸다고 봐야하는지를 몇 가지 들어 보면:

- 기존의 머신러닝도 데이터 많아지면 통상 성능이 좋아진다 (예: 랜덤포리스트)

- 딥러닝인지 아닌지 보다는 얼마나 많은 변수가 사용되는가가 얼마나 많은 건수의 데이터가 필요한가에 더 크게 영향을 미친다

- 데이터가 무제한으로 늘어난다고해서 딥러닝의 성능이 무제한으로 늘어나지 않는다



[그림] 앤드류 응의 딥러닝 장점 설명 자료






게다가 데이터가 엄청나게 늘어난다고 가정하면 지금의 기술수준에서 제아무리 병렬처리를 최대로 활용한다고 하더라도 계산에 소요되는 시간이 월등히 늘어나게 된다. 무제한으로 많은 데이터를 구할 수도 없겠지만 구한다고 하더라도 모두 딥러닝 또는 다른 머신러닝에 투입하는 것이 합리적이라고도 할 수 없다. 특히, 연구자들이라면 더 많은 가능성을 확인해 보기 위해 최대한 많은 데이터를 사용해보려는 노력을 해보는 것을 나무랄 수 만은 없겠지만, 비즈니스에서라면 투자 대비 성과라는 무시할 수 없는 우선순위를 잊지말아야 한다. 돈이 많이 든다면 어차피 무의미한 일이다.



▶ 데이터가 많아지면서 성능이 좋아지는 현상이 나타나는 이유?


단, 머신러닝에 많은 데이터가 입력되면 결과가 좋아질 수 있는 가능성이 존재하는 은 사실이다. 예를들어 동물의 사진을 구별하는 문제를 생각해 보자. 이 경우라면 사진이 충분히 많아야 다양한 동물의 특징을 포착할 수 있다. 정면사진만 있거나 다리 사진만 있다면 동물을 제대로 구별하기 어려울 것이다. 사진이 많다면 아마도 다양한 각도의 다양한 부위의 모습이 들어있을 가능성이 높을 것이다. 입력변수(설명변수 또는 독립변수)가 많고 출력변수(종속변수)가 많은 클래스를 가지기 때문에 많은 데이터를 입력할 경우 성능이 높아질 수 있는 것이다. 



▶ 데이터 량의 증가와 성능은 정비례 관계가 아니다


데이터 량의 증가와 결과의 성능이 정비례하지 않는다. 한계효과(marginal effect)가 체감한다. 다시 말하면 데이터 한 건이 더 들어간다고 해서 성능이 한 단위만큼 비례해서 일정하게 계속 높아지지는 않는다는 것이다. 데이터 량이 늘어남에 따라서 점차 성능이 증가하는 정도가 줄어든다. 이는 앤드류 응 교수의 주장과는 달리 딥러닝에서도 마찬가지일 수 밖에 없다. 다만, 동물사진 구별에서 처럼 기존의 모델들이 필요한 만큼의 데이터 건수에 비해 극도로 적은 데이터만을 사용하고 있었던 경우들에서는 상대적으로 데이터 증가에 따라 성능이 늘어나는 것 처럼 보일 뿐이다. 일종의 착각 내지는 일반화의 오류라고 할 수 있다.



▶ 문제에 맞는 중요한 데이터 집중 확보가 관건이다


중요한 데이터를 포함하는가가 결과를 좌우한다. 양적으로만 볼 때 데이터의 절대수가 작더라도 중요한 데이터가 많다면 모델의 성능은 높아진다. 강아지 사진에서 강아지의 등의 털 사진만 많아봐야 늑대나 여우와 구별하는데 크게 도움이 되지 않는다. 얼굴, 귀, 꼬리와 같이 종류를 구별하는데 중요한 부분의 사진이 많아야 한다.



[사진] 강아지인지를 구별하기 위한 사진 데이터의 예 

      (만일 강아지 등에 대한 사진만 무수히 많다면?)



이러한 원리는 일반적인 비즈니스 문제에서도 마찬가지로 적용된다. 예를들어 신용카드 도용을 적발하기 위한 머신러닝(인공지능이라 불러도 좋다)모델을 만들려고 한다면 적어도 십만원 이상은 사용한 건들이 많아야할 것이다. 편의점에서 천원 이천원을 사용한 건들이 수천억건이 있어봐야 그 건들안에는 신용카드 도용이 포함되어있을 가능성이 매우 낮을 것이다. (생각해 보자. 신용카드를 훔쳐서 천원짜리 몇개 사려고 할 사람이 얼마나 있겠는가?) 모델의 변별력을 높이는데 그다지 도움이 되지 않는다. 반대로 겨우 십만건의 데이터가 있다고 하더라도 십만원 이상의 금액을 사용한 건들만 있다면 그 안에는 도용 건이 많이 포함되어있을 가능성이 높다.

인공지능이 답해야하는 대상 문제에 있어서 중요한 핵심적인 데이터가 얼마나 확보되었는가가 중요하다. 단순히 절대량으로 건수만 많다고 해서 똑똑한 답을 주는 인공지능이 만들어질 수 없는 것은 지극히 당연하다.



▶ 인공지능으로 무엇을 하려는 것인지를 되짚어 보라


결론은, 데이터가 없어서 인공지능을 만들 수 없다 또는 데이터를 많이 넣으면 알아서 계속 점점 더 똑똑해 질 것이다와 같은 이야기들은 잘 모르고, 깊이 생각해 보지 않고서 하는 소리라는 것이다. 어떤 문제를 다루는 것인지를 제대로 이해해야 한다. 그리고 그에 맞는 가장 중요한 데이터를 집중적으로 확보하는 것이 핵심이다.


- 끝 -