<aside> 💡 CUST_CLAIM_DATA를 이용한 데이터 분석

</aside>

1. 목적 요약

2. 컬럼 분석 알고리즘 선택

선형회귀모델은 Target data와 각 feature들 간의 유의성을 확인하는 데에는 의미가 있고, p-value를 통한 귀무가설 기각에 이용되므로 채택한다.

Random Forest의 경우, Decision Tree에서의 overfitting 문제를 완화해주어 보다 정확한 변수 중요도를 산출할 수 있으므로 채택한다.

위의 이유로 컬럼을 분석하는 방법은 다음과 같다.

→ Random Forest 모델 예측 결과를 통해 각 DT의 VOTING결과를 확인하고, 변수중요도를 산출한다. 이 변수 중요도 정보와 선형회귀분석 결과표를 대비 분석하여, 어떤 컬럼이 최종 데이터셋의 Feature로 기용될 것인지를 정한다.

1차 분석 결과

  1. CHME_LICE_COUNT
  2. HOSP_VARIES
  3. TOTAL_VLID_HOST_OTDA
  4. HOST_DVSN_VARIES
  5. CLAIM_CNT