[ 빅데이터, Tableau ]
행정동 군집분석을 Tableau로 어떻게 했을까?
① 기초통계량
저희 블로그에서는 <대한민국 행정동 군집분석 시리즈>를 통해 행정동 군집분석의 결과와 의미에 대해 소개해 드렸습니다. 그 후속편으로, 태블로를 이용해 어떻게 군집분석을 수행했는지 소개해드리려 합니다.
리포트에서 사용한 데이터에 대한 설명과 주거지 분석의 방법과 과정, 또 이것을 태블로 리포트에 어떻게 시각화했는지 그 결과까지 전반적으로 살펴보겠습니다.
- 군집분석의 목적
행정동 군집분석 태블로 리포트는 궁극적으로 군집분석을 통해 대한민국 내의 지역적 특성을 분석하려고 했습니다.
대한민국의 지역적인 분포를 행정구역으로 보면, 17개 광역시도, 226개 시군구, 3,559개 행정동으로 이루어져 있습니다. (2024년 7월 기준)
대한민국의 시민들이 지역적으로 어떻게 분포되어 있는 가를 보기 위해서는 가장 최소 수준인 행정동 수준에서 보아야 하고, 전국적으로 약 3천 5백여 개의 행정동이 있습니다.
하지만 이렇게 많은 행정동을 개별적으로 분석하면, 직관적으로 이해하기에는 너무 어렵습니다.
이럴 때 좋은 방법이 군집분석입니다. 유사한 특성을 가진 행정동끼리 묶어 군집을 형성하는 것입니다.
저희 지디에스케이는 전국의 행정동을 총 13개의 군집으로 분류했습니다. 그래서 대한민국의 지역적 분포를 보다 쉽게 파악할 수 있게 됐고, 지역별 특성도 한눈에 볼 수 있게 되었습니다.
이렇게 군집을 이용해서 주거지를 분석하면, 지역별 특성을 파악하고 실무적으로 활용하는 데에 큰 도움을 줄 수 있습니다. 이것이 바로 행정동 군집분석을 수행하는 목적이자 의의라고 할 수 있습니다.
- 데이터 소개
저희는 대한민국 시민들이 행정동 수준에서 인구적 및 사회경제적 측면에서 어떻게 분포되어 있는지를 중점적으로 분석하고자 했습니다.
인구적 특성은 지역을 이해하는 데 있어 기본적인 요소입니다.
도시화, 고령화, 저출산, 산업발전의 지역적 불균형 등에 따라 인구구조가 지역마다 차별적으로 형성된다는 가설을 바탕으로 인구 특성을 군집화 분류 변수에 포함시켰습니다.
사회경제적인 측면에 있어서는, 자본주의의 발전과 계급 양극화가 심화됨에 따라 사회경제적인 지위의 지리적 구조화가 심화된다는 가설에 따라 중요한 속성인 가구소득을 분류 변수에 넣었습니다.
이러한 사회경제적 변수들은 지역별 특성을 이해하는 데 매우 중요한 역할을 합니다.
그러면, 가구소득을 어떻게 파악할 수 있을까요?
이 리포트에서는 저희 GDSK의 ECI, 즉 소득추정솔루션을 기반으로 가구소득 데이터를 추출했습니다.
ECI(Estimated Customer Income)는 고객의 주소를 기반으로 소득을 추정하는 모델입니다.
<그림1> 지디에스케이의 ECI를 소개하는 국내 언론의 기사
지디에스케이이의 ECI는 금융감독원의 T/F에서도 선진 사례로 소개된 검증된 솔루션으로, 모델의 지속적인 업데이트를 통해 현행화를 해오고 있습니다.
이외에도 2024년도 7월 최신의 인구, 가구시세, 가구평형, 지하철과 고속도로 정보 등 다양한 지디에스케이 데이터를 함께 활용해 분석의 시의성과 정밀도를 높였습니다.
- 데이터 소개
군집분석을 진행하기 전에, 먼저 리포트에서 사용한 데이터의 기초통계량을 살펴보았습니다.
기초통계량을 확인하는 것은 EDA(Exploratory Data Analysis)의 중요한 단계 중 하나로, 데이터를 분석하기 전에 다양한 각도에서 데이터를 관찰하고 이해하는 과정입니다. 이를 통해 데이터를 직관적으로 파악하고, 특정 패턴이나 이상치를 찾아낼 수 있습니다.
주로 확인하는 기초통계량으로는 평균, 중앙값, 최소값, 최대값, 그리고 표준편차 등이 있습니다.
이러한 통계량을 통해 데이터의 분포와 변동성을 보다 명확하게 파악할 수 있습니다.
또한, 이 기초통계량을 시각적으로 표현하기 위해 박스 플롯을 활용했습니다.
박스 플롯은 기초통계량을 한눈에 볼 수 있게 해주는 대표적인 도구로, 데이터의 분포와 변동성을 효과적으로 나타냅니다.
<그림2> 박스플럿
박스 플롯의 구성 요소를 간단하게 설명하자면, 상자 가운데 위치한 선은 데이터의 중앙값을 나타내며, 상자의 상단과 하단은 각각 1사분위수와 3사분위수를 나타냅니다.
또한, 상자 위아래의 선은 데이터의 최대값과 최소값을 나타내어 데이터의 범위를 시각적으로 파악할 수 있습니다.
이처럼 박스 플롯을 통해 주요 기초통계량을 시각화 하면 데이터의 특성을 한눈에 확인할 수 있습니다.
이번 리포트에서는 기초통계량을 아래 그림과 같이 시각화했습니다.
<그림3> 행정동 군집분석 리포트의 기초통계량 페이지 (made by Tableau) * 그림을 클릭하면 Tableau Public으로 연결됩니다.
왼쪽의 시트에서는 소득, 주택 시세, 인구 등 주요 지표 각각의 평균값, 표준편차, 중앙값, 최소값, 최대값을 확인할 수 있습니다.
이 시트를 보면, 대한민국 평균 가구 소득은 약 6,497만원이고, 평균 주택 시세는 약 3억 4천 244만원이라는 것을 쉽게 확인할 수 있습니다.
기초통계량 페이지에서 3 개의 창(시트, 지도, 박스플롯)은 서로 연동되어 있습니다.
왼쪽의 시트에서 소득을 클릭하면, 오른쪽의 지도가 평균 가구 소득 기준으로 바뀝니다. 색상이 진할수록 소득이 높은 지역을 의미합니다. 또한, 지도로 표시되는 지역(행정동) 위에 마우스를 가져다 대면, 이 지역(행정동)의 정보가 바로 표시됩니다.
예를 들어, 서울에서 가장 진한 구역에 마우스를 가져다 대면, 아래 그림과 같이 ‘압구정동’이라는 표시와 함께 정보가 표출됩니다.
<그림4> 평균가구소득 지도(서울) (made by Tableau) * 그림을 클릭하면 Tableau Public으로 연결됩니다.
<그림5> 평균가구소득 박스플럿 (made by Tableau) * 그림을 클릭하면 Tableau Public으로 연결됩니다.
(다음 글에서 계속 이어집니다.)
본 포스트에서 다루는 <행정동군집분석 Report>는 Tableau Public에 게시되어 있습니다.
https://public.tableau.com/app/profile/heejo.shin/viz/_17300903403820/01_