<aside> 💡 CUST_CLAIM_DATA를 이용한 데이터 분석

</aside>

1. 목적 요약

본 주차 프로젝트의 진행 목적은 CLAIM, CUST의 각 테이블 간 인과 및 상관관계를 가진다고 판단되는 변수들의 추출하여, 분석 알고리즘을 통해 모델에 적용하기 위한 데이터 셋의 제작에 있다.
본래 빅데이터 분석이란 분류, 예측, 모델 선택, 알고리즘 선택의 과정을 포함하나, 본 주차에서 정의하는 분석이란 Target Variable인 SIU_CUST_YN에 유의미한 영향을 끼치는 변수를 추출하는 데 한정한다.
위 이유로 인하여, 본 과정은 데이터셋의 확보를 위한 데이터의 전처리, 정제 과정이 포함된다.

2. 컬럼 분석 알고리즘 선택

선형회귀모델은 Target data와 각 feature들 간의 유의성을 확인하는 데에는 의미가 있고, p-value를 통한 귀무가설 기각에 이용되므로 채택한다.

Random Forest의 경우, Decision Tree에서의 overfitting 문제를 완화해주어 보다 정확한 변수 중요도를 산출할 수 있으므로 채택한다.

위의 이유로 컬럼을 분석하는 방법은 다음과 같다.

→ Random Forest 모델 예측 결과를 통해 각 DT의 VOTING결과를 확인하고, 변수중요도를 산출한다. 이 변수 중요도 정보와 선형회귀분석 결과표를 대비 분석하여, 어떤 컬럼이 최종 데이터셋의 Feature로 기용될 것인지를 정한다.

Multi Linear Regression (P-VALUE를 이용한 각 변수의 유의 정도 파악)

cust_claim_multireg.ipynb
Simple Linear Regression (SIN_CUST_YN : EXTRA에 대한 피어슨 계수 파악)

claim_corr.ipynb
Random Forest (다중 DT의 voting 결과에 의한 feature importance 파악)

cust_claim_randomforest.ipynb

1차 분석 결과

세 가지 알고리즘에 관하여 모두 뚜렷한 유의 결과를 낸 것들은 다음과 같다. 이들은 2차 데이터셋에 잔류한다.

CHME_LICE_COUNT
HOSP_VARIES
TOTAL_VLID_HOST_OTDA
HOST_DVSN_VARIES
CLAIM_CNT