본문 바로가기

데이터분석 & 엔지니어링 부트캠프

캐글/ 데이터 분석,시각화를 통한 실습

캐글에 있는 데이터를 탐색하여 자료를 분석하는 실습을 진행

(내가 다 한건 아니고 팀원들의 도움을 많이 받았씁니다 ㅎ헿)

이 데이터셋에서 train_data 를 분석하기로 함 (은행 데이터인듯) 

 

대략 이런 데이터이다. 탐색적 데이터분석 및 시각화를 통해 이탈율과 관계성이 있는 변수를 알아내고 이를 통해

이탈율 방지를 위한 간단한 분석을 진행 

1차적으로 상관분석  진행 , 상관 분석코드(2-6)
상관 분석은 두 변수 간의 관계나 의존성을 통계적으로 분석하는 것입니다. 상관은 두 변수 집합 간의 관계의 강도와 방향을 동시에 연구할 수 있게 합니다. 

이탈율과 가장 관계의 강도가 높은 4가지의 독립변수를 추려서 회귀분석을 진행합니다. 

나이, 잔액, 상품가입수, 활성멤버여부 

독립변수가 여러개니까 다중회귀분석 최소제곱법.ols 코드를 이용하겠습니다.

 

결정계수(Adj.R-squared) : 0.193

 p-value값은 모두 0.05미만으로 통계적으로 유의하다

즉 네 개의 독립변수 모두 상관계수, 회귀분석결과
Age,  Balance, NumOfProducts, IsActiveMember 네가지 독립변수 모두

종속변수  Exited와 관계가 있다.

 

시각화해서도 살펴보기로 하자. 정말 통계에 나온대로 독립변수들이 관계가 있고 여기서부터 

인사이트를 캐기 위한 노력을 기울일 여지가 많은가? 

 

Exited를 종속변수로 둔 그래프들을 그려보자 

1. 30대후반과 40대의 이탈율이 가장 높은것을 확인.

 

1. 이탈한고객들을 살펴보자 

이탈한 고객들의 데이터를 따로 만들고

 이탈고객은 보유기간과 상관없이 상품가입수가 1개인 고객이 많다.

 

=> 상품 1개를 사용하던 고객들의 이탈률이 많다. 제공하는 1개의 상품도 고객들에게 서비스 이용에 만족을 주지 못했다고 추정. 우리 은행에 고객이 장기적인 이용을 하기에 적합하거나 다양한 상품이 없거나 필요한 게 아닐까 

 

이번엔 이탈하지 않은 고객을 살펴보자 

이탈하지 않은 고객들의 데이터를 만들고 

이탈하지 않은 고객도 Age 30대 후반-40대의 고객이 많다, 

유지 고객 대부분이 상품가입수가 2개~3개이다.

유지 고객은 보유기간과 상관없이 상품가입수가 2개~3개 인 고객이 많다.

 

정리하면

1. Age는 이탈고객, 유지고객 모두 30대 후반-40대가 많다.

     => Age와 Exited 사이의 유의미한 관계성은 확인되지 않는다.

2. NumOfProducts (상품가입수) 는 이탈고객은 1개, 유지고객은 2개~3개이다.

     => NumOfProducts (상품가입수)와 Exited사이의 유의미한 관계성을 확인할 수 있다. 

 

유지고객들은 이용하고 이탈고객은 이용하지 않았던 상품의 특징이 무엇이고 이탈고객들의 특징을 파악후 

접목시켜 마케팅을 해야하나? 라는 방향의 생각이 살짝 개인적으로 들었다.

 

Exited와 Age, Numofproducts와의 관계를 시각화해서 살펴봤다.

 

2. 이제 Exited와 isactiveMember와의 관게도 시각화를 통해 살펴보겠다.

 이탈고객은 비활성상태의 고객의 비중(70.5%)이 많고, 유지고객은 비활성상태의 고객의 비중(44.8%)이  상대적으로 적다.

 

정리하면

1. IsActiveMember 는 이탈고객과 유지고객의 비중이 다르다.

     => IsActiveMember와 Exited 사이의 유의미한 관계성을 확인할 수 있다. 

 

당연한 이야기이지만 비활성고객들을 활성고객으로 만드는 쪽의 기획을 하면 이탈율을 방지하는 데 기여할 것이라 사료됨.

 

3. 이제 Exited와 잔액(Balance)과의 관계도 시각화를 통해 살펴보겠다.

잔액이 0원인 사람이 가장 많고 절대적으로도 절반을 차지하고 있어 따로 확인해볼 필요성이 느껴진다. 

잔액이 0인 사람들과 

잔액이 0이 아닌 사람들의 그래프를 나누었다. 

 

그러나 Balance != 0 인 데이터에서는 이탈고객, 유지고객 비중이 비슷하다.

     => Balance !=0 와 Exited 사이의 유의미한 관계성은 확인되지 않는다.

 3-1. Balance = 0 인 고객의 Exited IsActiveMember 관계 확인

잔액이 0원인데 활성멤버 비율은 대략 절반 

--> 전체데이터의 활성/비활성멤버 비율과 비슷함 

 

잔액이 0원이어도 83.8% 가 이탈하지 않음 

--> 전체데이터의 이탈유무 비율과 비슷함

 

잔액이 0인 데이터는 전체 데이터 중 54.3%,  Balance=0이 아닌 데이터는 전체 데이터 중 45.7%이다

     

=> Balance와 Exited사이의 유의미한 관계성은 확인되지 않는다.

 

 

 

최종 정리

설정한 종속변수 Exited와 상관계수가 높은 변수(Age,  Balance, NumOfProducts, IsActiveMember)를 독립변수로 하여 회귀 분석했을때 각각의 변수 모두 p-value < 0.05 의 값을 가짐으로 통계적으로 유의미하다고 판단했다. 

 

하지만 그래프로 시각화해서 살펴보니 

유의할 것이란 독립변수들 중

Age(나이)와 Balance(잔액)는 종속변수 Exited와 유의한 상관이 없고 

IsActiveMember(활성), NumofProducts(상품가입수)는 유의한 상관이 있다고 보여졌다.

 

비활성멤버를 활성으로 전환할만한 이벤트기획이나 방안제시 및 

상품의 대한 장기적인 이용 만족도 조사 및 개선할 필요가 있지 않을까하는 제안정도를 해볼 수 있지 않을까 생각한다.