-
사용된 ML 모델 : Logistic Regression, Random Forest(Feature Importance, SHAP Value, Permutation Importance), K-NN, XGBoost
-
평가 지표 : Accuracy, Precision, Recall, F1-Score, AUC-ROC Score
➡️ 성능 비교 결과
- 팀원들과의 논의를 통해 다양한 모델의 성능을 비교한 결과, XGBoost가 가장 높은 정확도를 보였습니다.
- XGBoost 모델의 성능을 더욱 향상시키기 위해 다양한 오버샘플링 기법을 적용하였고, 이를 통해 모델의 예측 성능을 최적화했습니다.
-
오버샘플링 : Random Over-sampling, SMOTE, Borderline-SMOTE, ADASYN
➡️ 성능 비교 결과
- Precision과 Recall을 결과를 비교하고, Random Over-sampling은 SMOTE보다 랜덤성이 강하고 과적합의 우려가 있었습니다. 따라서 최종적으로 F1-score를 기준으로 SMOTE를 선정하여 모델의 성능을 최적화했습니다.