Core Concepts
유방암 진단을 위해 AdaBoost, XGBoost, CatBoost, LightGBM 등의 그래디언트 부스팅 알고리즘을 활용하여 모델의 성능을 최적화하고, SHAP 기법을 통해 모델의 설명가능성을 높였다.
Abstract
이 연구는 유방암 진단을 위해 다양한 그래디언트 부스팅 알고리즘을 활용하고 최적화하는 것을 목표로 한다.
데이터 전처리 단계에서는 UCI 유방암 데이터셋을 활용하였으며, 정규화 등의 추가적인 전처리는 필요하지 않았다.
모델 평가 지표로는 정확도, 재현율, ROC-AUC 등을 사용하였으며, 특히 재현율 최적화에 초점을 맞추었다.
베이스라인 모델 구축 후 Optuna를 활용하여 하이퍼파라미터를 튜닝하였고, 그 결과 AdaBoost, XGBoost, CatBoost, LightGBM 모두 99% 이상의 AUC 성능을 달성하였다.
특히 LightGBM 모델은 100% 재현율을 보여 거짓 음성을 완전히 제거할 수 있었다.
마지막으로 SHAP 기법을 활용하여 각 모델의 설명가능성을 높였으며, 이를 통해 모델의 예측 과정을 이해하고 신뢰할 수 있게 되었다.
Stats
유방암 진단 데이터셋에는 569개의 인스턴스가 있으며, 이 중 357개는 양성, 212개는 악성 사례이다.
데이터셋에는 31개의 속성이 포함되어 있으며, 이는 평균 반경, 평균 질감, 평균 둘레, 평균 면적, 평균 매끄러움, 평균 압축성, 평균 오목성, 평균 오목점, 평균 대칭성, 평균 프랙탈 차원, 반경 오차, 질감 오차, 둘레 오차, 면적 오차, 매끄러움 오차, 압축성 오차, 오목성 오차, 오목점 오차, 대칭성 오차, 프랙탈 차원 오차, 최악의 반경, 최악의 질감, 최악의 둘레, 최악의 면적, 최악의 매끄러움, 최악의 압축성, 최악의 오목성, 최악의 오목점, 최악의 대칭성, 최악의 프랙탈 차원 등이다.
Quotes
"유방암은 여성에게 가장 많은 사망을 초래하는 질병 중 하나이며, 조기 발견과 조기 치료를 통해 예방할 수 있다."
"정확도만으로는 신뢰할 수 있는 지표가 되지 않을 수 있으며, 거짓 음성을 줄이는 것이 중요하다."
"SHAP 기법을 통해 모델의 설명가능성을 높이고 예측 과정을 이해할 수 있다."