MachineLearning

Data Science/ML&AI

[군집화] Clustering 알고리즘 쉽게 이해해보기

Clustering(군집화)는 비지도 학습 중 한가지 기법으로, 비슷한 유형의 데이터를 그룹화함으로써 unlabeled 데이터에 숨겨진 구조를 파악한다. 군집화를 통해 다음과 같은 것들을 구현할 수 있다. Recommendation Engine: 개인화된 사용자 경험을 제공하기 위해 상품들을 그룹화 한다. Search Engines: 뉴스 토픽과 검색 결과를 그룹화 한다. Market Segmentation: 지역, 인구, 행동 등을 바탕으로 고객을 그룹화한다. K-Means Clustering K Means 알고리즘은 주어진 K, 즉 그룹화 할 그룹의 개수에 따라 주어진 데이터를 군집화 하는 알고리즘이다. Means는 각 클러스터의 중심(centroids)과 데이터들의 평균 거리를 의미한다. K- Me..

Data Science/ML&AI

[머신러닝] Undersampling과 Oversampling이란?

레이블이 불균형한 분포를 가진 데이터 세트를 학습 시, 이상 레이블을 가지는 데이터 건수가 매우 적어 제대로 된 유형의 학습이 어렵다. 반면에 정상 레이블을 가지는 데이터 건수는 매우 많아 일방적으로 정상 레이블로 치우친 학습을 수행하며, 제대로 된 이상 데이터 검출이 어렵다. 이러한 문제점을 보완하고 적절한 학습 데이터를 확보하는 방안이 필요한데, 언더 샘플링과 오버 샘플링은 이러한 방안의 대표적 예시이다! 언더 샘플링은 높은 비율을 차지하던 클래스의 데이터 셋의 개수를 줄이는 방법으로 데이터 불균형을 해소하는 아이디어이다. 하지만 학습에 사용되는 데이터 수가 줄어들기 때문에 학습의 성능이 줄 수 있으므로 주의해야한다. 오버 샘플링은 낮은 비율 클래스의 데이터를 증식하여 학습을 위한 충분한 데이터를 확..

so.py
'MachineLearning' 태그의 글 목록