Data Science

Data Science/ML&AI

[머신러닝] Undersampling과 Oversampling이란?

레이블이 불균형한 분포를 가진 데이터 세트를 학습 시, 이상 레이블을 가지는 데이터 건수가 매우 적어 제대로 된 유형의 학습이 어렵다. 반면에 정상 레이블을 가지는 데이터 건수는 매우 많아 일방적으로 정상 레이블로 치우친 학습을 수행하며, 제대로 된 이상 데이터 검출이 어렵다. 이러한 문제점을 보완하고 적절한 학습 데이터를 확보하는 방안이 필요한데, 언더 샘플링과 오버 샘플링은 이러한 방안의 대표적 예시이다! 언더 샘플링은 높은 비율을 차지하던 클래스의 데이터 셋의 개수를 줄이는 방법으로 데이터 불균형을 해소하는 아이디어이다. 하지만 학습에 사용되는 데이터 수가 줄어들기 때문에 학습의 성능이 줄 수 있으므로 주의해야한다. 오버 샘플링은 낮은 비율 클래스의 데이터를 증식하여 학습을 위한 충분한 데이터를 확..

Data Science/etc

[R] R에서 Relative Frequency 막대그래프 그려보기

케이스: 일주일에 한 번씩 6개의 로또 번호가 당첨된다. Lotto.csv 데이터 파일에는 각 주마다 당첨된 여섯개의 번호 정보와 상품 정보가 담겨있다. 로또 번호는 1~45 사이의 번호로 이루어져 있으며 분석을 통해 한 번호가 당첨되기까지에는 총 몇번의 라운드를 거쳐야 하는지 알아볼 것이다. 1. Lotto.csv 데이터를 불러와준다. lotto = read.csv("Lotto.csv", header = T) head(lotto) Output: 2. 사용하고 싶은 칼럼만 가져와서 새로운 변수에 저장해준다. X1~X6까지의 column만 가져와준다. cbind = column을 한개씩 가져와 다시 새로운 데이터 프레임을 만들어주는 함수 WN = cbind(lotto$X1, lotto$X2, lotto$X..

Data Science/ML&AI

[Classification] 오차행렬, 재현율, 정밀도와 F1 Score

분류 학습을 할 때 자주 등장하는 여러 통계학적 지표에 대해 알아보았다! Confusion Matrix (오차행렬) 🌟 오차행렬이란?: test data set에 대한 분류기(classifier) 즉, 분류의 성능을 평가하는 행렬 학습된 분류 모델이 예측을 수행하면서 얼마나 헷갈리고 있는지도 함께 보여주는 지표. 어떠한 유형의 예측 오류가 발생하는지 확인할 수 있다 # real = 실제 값, prediction = 예측한 값 from sklearn.metrics import confusion_matrix confusion_matrix(real, prediction) #confusion matrix 표시 from sklearn.metrics import precision_score, recall_score..

so.py
'Data Science' 카테고리의 글 목록 (3 Page)