-
[논문 리뷰] Improving Imbalanced Classification by Anomaly DetectionAI, DataScience 2023. 8. 22. 19:56728x90
Kong, J., Kowalczyk, W., Menzel, S., & Bäck, T. (2020, August). Improving imbalanced classification by anomaly detection. In International Conference on Parallel Problem Solving from Nature (pp. 512-523). Cham: Springer International Publishing.
https://link.springer.com/chapter/10.1007/978-3-030-58112-1_35
"불균형한 데이터 분류"를 "이상치 탐지" 알고리즘을 이용하면 성능이 올라간다!?
outlier score(이상치 점수)를 추가 속성으로 넣으면 모델의 성능이 올라간다!!?
outlier score뿐만 아니라 four types of samples (safe, borderline, rare and outlier)도 넣는다.
LOF outlier score는 LOF(Local Outlier Factor)를 사용하였다.
LOF는 Algorithm 1에 설명되어있다.
four types of samples (safe, borderline, rare and outlier)는 잘 모르겠다. 논문을 읽어보자.
벤치마크 성능 시각화 이상치 점수와 를 속성에 추가한 "Add = yes" 가 거의 모든 경우에서 "Add = no"보다 성능이 뛰어나다
변수 중요도 Feature importance에서 추가 속성(add1, add2)이 크게 두드러진다.
이는 이상치 점수가 데이터 분류에 큰 영향을 주었다는 뜻이다.
결론 간단하다
- In most cases, introducing these two additional attributes can improve the class imbalance classification performance. For some datasets, only introducing additional attributes gives better classification results than only performing resampling techniques. (대부분의 경우 이러한 두 가지 추가 속성을 도입하면 클래스 불균형 분류 성능을 향상시킬 수 있습니다.일부 데이터 세트의 경우 추가 속성만 도입하면 재샘플링 기술을 수행하는 것보다 더 나은 분류 결과를 얻을 수 있습니다.)
- An analysis of the experimental results also illustrates that the proposed method has a better ability to handle samples in the overlapping region. (실험 결과를 분석한 결과 제안된 방법이 중복 영역에서 샘플을 처리하는 능력이 더 우수하다는 것도 보여줍니다.)
[1]Napierala, K., Stefanowski, J.: Types of minority class examples and their influence on learning classifiers from imbalanced data. J. Intell. Inf. Syst. 46(3), 563–597 (2015). https://doi.org/10.1007/s10844-015-0368-1
[2]Skryjomski, P., Krawczyk, B.: Influence of minority class instance types on SMOTE imbalanced data oversampling. In: First International Workshop on Learning with Imbalanced Domains: Theory and Applications, pp. 7–21 (2017)
----- 작성 중 ----
728x90'AI, DataScience' 카테고리의 다른 글
음성 신호와 DCGAN | 대한민국 입시의 현실 (0) 2023.09.14 [Pandas] IndexingError: Unalignable boolean Series provided as indexer (index of the boolean Series and of the indexed object do not match). 해결법 (0) 2023.08.24 [NumPy] np.all, np.any 실전 사용예시 (0) 2023.06.26 ChatGPT 탈옥 : AntiGPT 체험기 (0) 2023.03.28 관절 각도 기반 Pose Estimation 설명 (0) 2023.01.31