>RE::VISION CRM

Python데이터분석

데이터 시각화 라이브러리와 머신러닝 알고리즘의 인기도 비교

YONG_X 2022. 6. 12. 20:22

데이터 시각화 라이브러리와 머신러닝 알고리즘의 인기도 비교

 

2022-06-12

 

 

전세계 데이터 분석가들의 커뮤니티인 캐글은 연례로 꽤 상세한 사용자 서베이를 진행하고 그 결과에 대한 분석을 또 경진대회 형식으로 진행해서 커뮤니티의 변화를 공유하고 있다.

그 서베이 데이터의 일부분을 통해서 데이터 시각화 라이브러리들 중 어떤 것들이 많이 사용되고 있으며

머신러닝 알고리즘으로는 또 어떤 것들이 많이 사용되고 있는지를 간단히 살펴본다.

 

서베이의 질문은

1) 어떤 데이터 시각화 라이브러리를 일상적으로 사용하는가? (중복응답 가능)

2) 어떤 ML 알고리즘을 일상적으로 사용하는가? (중복응답 가능)

 

최신 자료인 2021 결과를 보면

( https://www.kaggle.com/competitions/kaggle-survey-2021/code?competitionId=31480&sortBy=dateCreated ) 

시각화에서는 파이썬에서 많이 사용되는 Matplotlib이 압도적인 1위, Matplotlib을 기반으로 만들어진 Seaborn이 2위

ML 알고리즘에서는 역시 회귀분석이 1위

다음은 의사결정나무 또는 랜덤 포리스트 (두 가지가 합쳐진 것임에는 주의 필요해 보임).

 

 

응답자 전체를 대상으로 분석한 결과의 맹점은 

데이터 분석 커뮤니티에 상당히 많은 학생등 이제 공부를 시작하는 또는 주업무로 데이터 분석을 하지는 않는 계층이 다수 포함된다는 것. 따라서 좀 더 일상적으로, 전문적으로 사용하는 층을 구분해서 살펴볼 필요가 있다.

(여기서는 Professional 이라고 부르기로 한다)

 

조건은,

 

25세~59 까지로 연령을 제한하고

 

ageList = ['25-29', '22-24', '30-34', '35-39', '40-44', '45-49', '50-54','55-59']

 

공식적인 교육 수준이 높은 층으로 제한하는 것.

 

educationList = ['Master’s degree', 'Doctoral degree', 'Professional doctorate']

 

 

 

과연 Professional 들은 좀 다를까? 

 

전체와의 차이는

1) 시각화에 Ggplot이나 Plotly를 사용하는 비율이 높다는 점과

2) Genetic Algorithm 등 Evolutionary Approaches 를 사용하는 경우가 일부 있다는 정도

눈에 띈다

 

 

 

 

Neural networks 계열 (Deep learning 포함) 알고리즘을 사용하는 분석가들이 상당히 많기는 하지만 여전히 회귀분석과 비교하면 절반 또는 그 이하 정도로 보인다. 업무에와 사용하는 데이터에 따라서는 신경망계열의 방법이 크게 필요하지 않은 경우가 많기 때문일 것이다. 

초심자들이 프로들 보다 오히려 신기한 새로운 기법들에 더 관심을 많이 보이는 패턴인듯 싶다.

 

 

어떻게 변해가고 있는가?

 

시각화 라이브러리에서 가장 대중적인 Matplotlib의 인기는 일반사용자를 포함하든 전문사용자만으로 좁히든 별 차이가 없없는데다가 상대적인 사용자 비중의 변화(2020년과 2021 비교)에서도 2위인 Seaborn과 함께 지속적인 증가세를 보인다.

 

 

큰 차이라 할 정도는 아니라도 조금 세부적으로 들여다보면

프로페셔널 그룹에서 Seborn의 증가세가 눈에 띄고, Plotly는 오히려 감소 방향이다.

 

 

 

알고리즘에서 매우 큰 폭으로 증가하고 있는 것은 Transformer. 최근 크게 업그레이드된 새로운 모델들이 많이 발표되고 있는데다 단순히 불러서 사용하는 방식이라 인기가 있는 것으로 추측된다.

Neural networks 이외의 방식들 중에서는 상대적인 사용자 비율은 적지만 Gradient Boosting의 사용자 증가가 보인다. 실제 기업 업무등에서 활용도가 높기 때문일 것으로 생각된다.

반면 베이지언 모델링은 약간의 감소가 나타난다.

 

 

[요약]

  • 시각화 라이브러리와 ML 알고리즘 선택에서 전문적인 용도인 경우와 아닌 경우가 매우 큰 차이를 보이지는 않는다
  • 시각화 라이브러리로는 Matplotlib과 Seaborn이 대세
  • Matplotlib은 필수일 것
  • 알고리즘에서 프로페셔널들이 오히려 더 전통적 기법을 사용하는 비중이 높음
  • Gradient Boosting과 Random Forests 확산이 지속되는 중