○ 언더 샘플링과 오버 샘플링 레이블( 결정 값 )이 불균형한 분포를 가진 데이터 세트를 학습시킬 때 예측 성능의 문제가 발생할 수 있다. 이는 이상 레이블을 가지는 데이터 건수가 정상 레이블을 가진 데이터 건수에 비해 너무 적기 때문에 발생한다. ● 언더 샘플링 많은 데이터 세트를 적은 데이터 세트 수준으로 감소 시키는 방식이다. 즉 정상 레이블을 가진 데이터가 10,000건, 이상 레이블을 가진 데이터가 100건이 있으면 정상 레이블 데이터를 100건으로 줄이는 것을 의미한다. ● 오버 샘플링 이상 데이터와 같이 적은 데이터 세트를 증식하여 학습을 위한 충분한 데이터를 확보하는 방법이다. 동일한 데이터를 단순히 증식하는 방법은 과적합이 되기 때문에 의미가 없으므로, 원본 데이터의 피처 값들을 아주 약..
[ML] 머신러닝 - 앙상블 ( 보팅, 배깅 ) [ML] 머신러닝 - 앙상블 ( 보팅, 배깅 ) [machine learning] - 머신러닝 - 스태킹 앙상블 머신러닝 - 스태킹 앙상블 파이썬 머신러닝 가이드 책을 참고하였습니다. ● 스태킹 개별적인 여러 알고리즘을 서로 결합해 예측 결과를 도출한다는 kylo8.tistory.com 파이썬 머신러닝 가이드 책을 참고하였습니다. 목차 1. 부스팅이란 2. GBM 3. XGBoost 4. LightGBM (1) 부스팅이란 여러 개의 약한 학습기를 순차적으로 학습-예측하면서 잘못 예측한 데이터에 가중치 부여를 통해 오류를 개선해 나가면서 학습하는 방식을 말합니다. * 첫 번째 약한 학습기가 +, - 로 분류를 하며 잘못 분류된 오류 데이터에는 가중치를 부여한..
[machine learning] - 머신러닝 - 스태킹 앙상블 머신러닝 - 스태킹 앙상블파이썬 머신러닝 가이드 책을 참고하였습니다. ● 스태킹 개별적인 여러 알고리즘을 서로 결합해 예측 결과를 도출한다는 점에서 배깅 및 부스팅과 공통점을 가지고 있다. 하지만 스태킹은 개kylo8.tistory.com목차1. 앙상블이란2. 보팅3. 배깅 (1) 앙상블( Ensemble Learning) 이란여러 개의 분류기(Classifier)를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법-> 어려운 문제의 결론을 내기 위해 여러 명의 전문가의 의견을 수렴해 결정하는 것과 비슷하다. 앙상블의 유형으로는 보팅, 배깅, 부스팅 방법이 있습니다. 순서대로 정리해보겠습니다. (2) 보팅 : 서로 다른..
파이썬 머신러닝 완벽 가이드 책을 참고하였습니다. (1) DecisionTreeClassifier, DecisionTreeRegressor 결정 트리 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내 트리 기반의 분류 규칙을 만든다. 일반적으로 if, else를 자동으로 찾아내 예측을 위한 규칙을 만드는 알고리즘이라고도 할 수 있다. * 규칙 노드 : 규칙 조건을 의미 * 리프 노드 : 결정된 클래스 값 * 서브 트리 : 새로운 규칙마다 생겨나는 트리를 의미 장점 1. 직관적으로 이해하기 쉬운 알고리즘이다. 2. 피처의 스케일링이나 정규화 등의 사전 가공 영향도가 크지 않다. 단점 1. 많은 규칙이 있으면 분류를 결정하는 방식이 복잡해진다. -> 과적합으로 이어지기 쉽다. 이를 극복하기 위해 트리의 크기..