<aside> 💡 CUST_CLAIM_DATA를 이용한 데이터 분석
</aside>
선형회귀모델은 Target data와 각 feature들 간의 유의성을 확인하는 데에는 의미가 있고, p-value를 통한 귀무가설 기각에 이용되므로 채택한다.
Random Forest의 경우, Decision Tree에서의 overfitting 문제를 완화해주어 보다 정확한 변수 중요도를 산출할 수 있으므로 채택한다.
위의 이유로 컬럼을 분석하는 방법은 다음과 같다.
→ Random Forest 모델 예측 결과를 통해 각 DT의 VOTING결과를 확인하고, 변수중요도를 산출한다. 이 변수 중요도 정보와 선형회귀분석 결과표를 대비 분석하여, 어떤 컬럼이 최종 데이터셋의 Feature로 기용될 것인지를 정한다.
Multi Linear Regression (P-VALUE를 이용한 각 변수의 유의 정도 파악)
Simple Linear Regression (SIN_CUST_YN : EXTRA에 대한 피어슨 계수 파악)
Random Forest (다중 DT의 voting 결과에 의한 feature importance 파악)