(1) 도입부(서론)
(2) 본론
데이터 소개
: RAW DATA SET 설명
데이터 정제 과정
: CUST 기준으로 CLAIM과 CNTT, FPINFO 나누어서 정제
: 각각의 데이터 SET를 다중회귀분석과 상관분석을 통해서 각 데이터 변수의 유믜한 변수 및 상관성 도출
: 각 데이터에서 가장 유의미한 변수만을 추출하여 하나의 테이블 완성
데이터 분석 과정
: 임의로 여러 머신러닝 모델을 돌린 결과 데이터의 과적합 발생
: 과적합 문제를 해결하기 위해 샘플링 기법을 바꿔 과적합 문제를 어느 정도 해결 → SVMSMOTE
: 머신러닝에 적합한 모델 3가지(로짓, SVM, 랜덤포레스트)를 테스트하였지만, 성능의 큰 차이가 없었지만, 로지스틱이 프로젝트 목표에 가장 부합하여 로지스틱 모델 선택
데이터 결과 분석
: SVMSMOTE - Logistic Regression → confusion matrix & 정확도(강조), AUC&ROC(강조)
(3) 결론
활용방안 및 기대효과
: 보험사기 여부로만 판단하기에는 억울한 사람이 발생하거나 예측 오류가 발생할 수 있다.
: 보험사기예측율 확률로써 고객을 분류하고 각 분류별로 주의 정도를 차등 부여하여 고객을 효과적으로 관리할 수 있다.
: 회사 입장에서는 인건비 및 시간을 절약하 수 있으며, 고객의 입장에서는 보험금을 낮출수 있다.
아쉬운 점
: 개인정보로 인한 고객정보 수집의 한계
(보험회사의 고객정보로만 예측하기엔 사기여부를 예측하기엔 다소 무리)
예측서비스 현황
문제점(보험사기 예측시스템과 같은 예측 시스템의 문제점)