Skip links

[GDSK x Tableau] 행정동 군집분석을 Tableau로 어떻게 했을까? ②

[ 빅데이터, Tableau ]

행정동 군집분석을 Tableau로 어떻게 했을까?
② 상관분석

행정동 군집분석 Tableau Report의 두 번째 페이지는 소득, 주택 시세, 인구 등 주요 지표들 사이의 상관분석에 관한 내용입니다.

기초통계량 확인을 통해서 각 변수의 개별 특성을 이해했다면, 상관분석은 변수 간의 관계를 파악하는 단계입니다.

상관분석을 통해 두 변수 간의 선형 관계를 확인할 수 있으며, 이를 통해 데이터에 대해 다차원적으로 이해할 수 있습니다.

아래 그림에서 볼 수 있는 것처럼, 상관계수를 시각화하여 변수 간의 관계를 직관적으로 파악할 수 있도록 했습니다.

<그림1>  행정동 군집분석 태블로 리포트에서의 상관분석 페이지 (made by Tableau)                                          * 그림을 클릭하면 Tableau Public으로 연결됩니다.

상관계수의 크기를 원의 크기와 색의 농도로 나타냈으며, 상관계수의 부호는 색상으로 구분했습니다.

표의 위쪽과 오른쪽으로 만들어지는 삼각형의 영역에는 상관계수라는 수치가 있고, 왼쪽과 아래쪽으로 만들어지는 영역에는 이 수치를 시각화한 원들이 있습니다.

상관계수는 1에 가까울수록 양의 상관관계가 있음을 의미합니다. 이 리포트에서는 원의 파란색이 진하고 클수록 두 변수 간에 양의 상관관계가 크다는 것을 시각적으로 보여줍니다.

반대로, 상관계수가 마이너스 1에 가까워질수록 음의 상관관계가 있다는 의미입니다. 원의 붉은색이 진하고 클수록 음의 상관관계가 강하다는 것을 보여줍니다.

이러한 시각화를 통해 변수 간의 관계를 쉽게 확인하고, 군집분석에 있어 중요한 변수 간의 연관성을 보다 명확히 이해할 수 있습니다.

인구 비율과 소득의 상관관계를 보면, 미취학 아동, 초중고 학생, 그리고 40대의 원이 다른 연령층보다 파란색이 짙고 큽니다. 이것은 어린 자녀를 둔 중년층, 40대 가구가 많은 지역일수록 소득이 높은 경향이 있다는 것을 보여줍니다. (그림2 참조)

<그림2>  인구 비율과 소득의 상관관계

반대로, 60세 이상의 비율이 높은 행정동은 전체 소득이 낮다는 것을 알 수 있습니다.

또한, 상관계수가 0에 가까우면 두 변수 간에는 상관관계가 거의 없다는 의미입니다. 이 경우, 원은 색이 희미하고 작게 표시됩니다. 위의 그림에서 남녀 비율과 소득의 상관관계를 보면 0.261로, 거의 상관관계가 없는 것으로 나타납니다.

특이한 점은 50대 인구의 비율입니다. 아래의 그림에서 보듯이, 50대 인구의 비율은 다른 지표들과 상관관계가 극히 적은 것으로 나타납니다. (그림3 참조)

<그림3> 인구비율과 다른 지표들과의 관계

상관분석 페이지에서는 두 지표 사이의 관계만을 시각적으로 확인하기 좋도록 페이지 아래에 산점도 그래프를 배치했습니다.

<그림4> 산점도

위의 그림은 소득과 다른 지표와의 관계를 보여주는 예시입니다. 상관분석 페이지의 차트에서 ‘소득>전체’ 지표를 선택한 경우, 아래 그래프에서는 ‘소득 전체’ 지표와 다른 지표와의 관계를 산점도로 보여줍니다.

이렇듯, 상관분석을 통해 다양한 변수들이 서로 어떤 관계를 갖고 있는지 쉽게 파악할 수 있습니다.

(다음 글에서 계속 이어집니다.)

본 포스트에서 다루는 <행정동군집분석 Report>는 Tableau Public에 게시되어 있습니다.

https://public.tableau.com/app/profile/heejo.shin/viz/_17300903403820/01_

[GDSK x Tableau] Part 1. 소득과 인구를 활용한 대한민국 주거지 군집분석

[GDSK x Tableau] Part 2. 군집분석, 그리고 교통망과의 관계