파이썬 머신러닝 완벽 가이드 책을 참고하였습니다. (1) DecisionTreeClassifier, DecisionTreeRegressor 결정 트리 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내 트리 기반의 분류 규칙을 만든다. 일반적으로 if, else를 자동으로 찾아내 예측을 위한 규칙을 만드는 알고리즘이라고도 할 수 있다. * 규칙 노드 : 규칙 조건을 의미 * 리프 노드 : 결정된 클래스 값 * 서브 트리 : 새로운 규칙마다 생겨나는 트리를 의미 장점 1. 직관적으로 이해하기 쉬운 알고리즘이다. 2. 피처의 스케일링이나 정규화 등의 사전 가공 영향도가 크지 않다. 단점 1. 많은 규칙이 있으면 분류를 결정하는 방식이 복잡해진다. -> 과적합으로 이어지기 쉽다. 이를 극복하기 위해 트리의 크기..
목차 1. 오차 행렬 2. 정확도 3. 정밀도 4. 재현율 (1) 오차 행렬 : 이진 분류에서 성능 지표로 활용되며, 학습된 분류 모델이 예측을 수행하면서 얼마나 헷갈리고 있는지도 함께 보여주는 지표이다. * TN는 예측값을 Negative 값 0으로 예측했고 실제 값 역시 Negative 값 0 * FP는 예측값을 Positive 값 1로 예측했는데 실제 값은 Negative 값 0 * FN은 예측값을 Negative 값 0으로 예측했는데 실제 값은 Positive 값 1 * TP는 예측값을 Positive 값 1로 예측했는데 실제 값 Positive 값 1 # 오차 행렬 구해보기 from sklearn.metrics import confusion_matrix print(confusion_matrix(..
파이썬 머신러닝 가이드 책을 참고하였습니다. ● 붓꽃 데이터 로딩하기 import pandas as pd from sklearn.datasets import load_iris # 붓꽃 데이터 불러오기 iris = load_iris() # iris.data는 데이터 세트에서 피처만으로 된 데이터를 NUMPY로 가지고 있음 iris_data = iris.data # iris.target은 데이터 세트에서 레이블 데이터를 NUMPY로 가지고 있음 iris_label = iris.label iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names) iris_df['label'] = iris.target 추가적으로 * iris.target_names는 ..