들어가며
지도 시각화한 결과를 바탕으로 변수 선정 후 클러스터링을 진행하는 단계이다. 어떤 법정동들이 선정되었는지, 그리고 타당하게 선정되었는지도 함께 알아보자.
클러스터링
클러스터링은 서로 유사한 속성을 갖는 데이터를 같은 군집으로 묶어주는 작업이다. 클러스터링에는 다양한 종류가 있는데, 여러 레퍼런스를 참고해서 총 4개의 클러스터링 모델을 선정했다.
K-Means | 클러스터 중심(centroid)을 이용해 데이터를 클러스터링 |
K-Medoids | K-Means와 유사하지만, 클러스 중심으로 중심점이 아닌 실제 데이터 포인트를 선택 |
Hierarchical Clustering | 데이터를 계층적으로 클러스터링하는 방법으로, 주로 병합적 방법이 사용됨 |
Gaussian Model Mixure | 데이터가 여러 개의 가우시안 분포로부터 생성되었다고 가정하고 클러스터링 수행 |
클러스터링 변수 선정
클러스터링 변수를 선정하기 위해서는 서로 밀접한 상관관계를 갖는 독립변수를 제외해야한다. 이를 다중공선성이라고 하는데, 히트맵을 통해서 그 정도를 확인해보았다.
대개 0.8이상이면 다중공선성이 높다고 판단한다. 따라서 우리는 다중공선성에 해당하지 않으면서 법정동 선정에 중요하다고 생각한 `일별예상쓰레기발생량`, `상권수`를 선택했다.
클러스터링 결과
각 클러스터링 모델 별로 진행한 결과이다. 위에는 군집된 그룹을 법정동마다 색으로 구분해준 결과이고, 아래는 선택한 변수에 따라서 군집된 그룹을 그래프로 나타낸 것이다. Elbow기법을 통해 최적의 k값은 모두 3으로 지정했다. GMM은 각 클러스터를 정규분포로 모델링함으로써 분포 모양이 대칭적이기 때문에 그룹 경계가 원형을 띠고 있다.
1차 수요 법정동 선정 - Hard Voting
Hard voting이란 각각의 모델들이 결과를 예측하면 단순하게 가장 많이 표를 얻은 결과를 선택하는 것을 말한다. 각 클러스터링 모델마다 가장 많은 법정동들로 군집화된 그룹을 추려냈다.
K-Means | Cluster 0 |
K-Medoids | Cluster 0 |
Hierarchical Clustering | Cluster 2 |
Gaussian Model Mixture | Cluster 0 |
이제 각 모델마다 추려진 그룹에 가장 많이 해당되는 법정동들을 선정한다.
- 봉명동
- 상대동
- 장대동
- 지족동
- 전민동
- 관평동
총 6개의 법정동이 4개의 클러스터에 모두 해당됨으로써 1차 수요 법정동으로 선정되었다. 선정된 법정동과 그렇지 않은 법정동들의 변수 데이터를 비교해보면 확연한 차이를 확인할 수 있다.
마무리
다양한 클러스터링 모델을 사용했기 때문에 Hard voting의 장점이 잘 작용했던 것 같다. 이제 1차적인 법정동들을 선정했으니 다음 2차 법정동 선정을 통해 최종적인 입지까지 선정해보자.
'ABC부트캠프 테크노트' 카테고리의 다른 글
[35일차] ABC부트캠프 : 최종 프로젝트(5) (0) | 2024.08.24 |
---|---|
[34일차] ABC부트캠프 : 최종 프로젝트(4) (0) | 2024.08.24 |
[32일차] ABC부트캠프 : 최종 프로젝트(2) (0) | 2024.08.24 |
[31일차] ABC부트캠프 : 최종 프로젝트(1) (0) | 2024.08.18 |
[30일차] ABC부트캠프 : IS프로젝트 교육(발표 요령) (0) | 2024.08.14 |