통계적 추론(Statistical inference) [DATA Talk]

[ 용어해설 ]

인간은 실재를 인식할 수 있는가? 참(truth)을 알 수 있는가? 이것은 철학의 인식론에서 다루는 문제이다. 근대과학적 지식의 문제는 근대 인식론 철학에 그 기반을 두고 있다. ‘모든 까마귀는 까맣다’라는 명제는 참인가? 이를 위해서는 이 세상의 모든 까마귀를 관찰해야 한다. 그래서 관찰을 해본다. 크레타섬의 첫 번째 까마귀는 까맣다. 두 번째 까마귀도 까맣다. … 오백 번째 까마귀도 까맣다. 그러면 ‘모든 까마귀는 까맣다’라는 명제가 참이라고 할 수 있나? 만약 이러한 관찰값을 바탕으로 ‘모든 까마귀는 까맣다’라고 결론 짓는 것은 흄(Hume)이 말한 ‘논리적 비약(logical leap)’을 범한 것이다. 오백 첫 번째 까마귀가 까맣지 않을 수 있지 않은가? 그렇다고 이 세상의 모든 까마귀를 관찰하고 결론을 내릴 수는 없다.

이것이 통계적 추론이 필요한 이유이다. 그래서 우리는 제한된 경험적 관찰을 통해 확보된 사실을 바탕으로 제한된 결론을 내릴수 밖에 없다. 필연적 판단이 아니라 개연적 판단 확률적 판단으로 제한된 결론을 내리는 통계적 방법이 통계적 추론이다.

통계적 추론이란 실재를 나타내는 일부에 대한 관찰치를 대상으로 제한된 방법으로 실재를 표현하는 것이라고 할 수 있다. 여기서 실재를 통계학 용어로 번역하면 모집단의 모수치 혹은 검정된 가설이라고 할 수 있고, 일부는 표본집단, 관찰치는 표본관측치라고 할 수 있다. 제한된 방법은 통계적 추론방법이라고 할 수 있다. 통계적 추론의 방법은 통계적 추론의 대상에 따라 다르다. 통계적 추론의 대상은 첫째, 모집단의 모수치와 둘째, 모집단에 대한 가설적 명제로 크게 나눌 수 있다. 모집단의 모수치로는 예를 들어 ‘2021년 대한민국 국민의 평균소득’같은 것이다. 가설적 명제는 예를 들어 위에서 언급한 ‘모든 까마귀는 까맣다’ 혹은 ‘고등교육을 받을수록 소득이 높아진다’ 등 ‘A이면 B이다’의 형태로 참과 거짓의 판단대상이 될 수 있는 진술로서의 명제이다.

통계적 추론방법은 크게 추정(estimation)과 가설검정(hypothesis test)으로 나눌 수 있다. 추정(estimation)은 추론의 대상이 모집단의 모수치인 경우의 통계적 추론방법이다. 추정은 표본을 통해 모집단의 모수치가 어떠한가에 대해 추측하는 과정이다. 표본평균 계산을 통해 모집단평균(점추정)을 추측해보거나, 모집단 평균에 대한 95% 신뢰구간의 계산 과정(구간추정)을 나타낸다. 즉, 앞에서 예로 든 2021년 대한민국 국민의 평균소득이라는 모수치를 표본조사를 통해 파악하고 그 가능한 오차를 제시하는 것이다. 표본이 모집단을 대표할수록 표본의 크기가 모집단의 크기에 가까울 만큼 클수록 오차는 줄어들 것이다. 즉 실재에 가까울 것이다. 적은 표본으로 오차를 줄이고 모수치를 가장 잘 파악하는 것이 통계적 추론의 과제이다. 이를 위해 통계적 방법이 발달되어 왔다.

또 다른 통계적 추론방법인 가설검정(hypothesis test))은 추론의 대상이 가설적 명제인 경우에 적용되는 통계적 추론방법이다. 이것은 모집단 실제값에 대한 가설적 명제에 대해 표본이 가지고 있는 정보를 이용하여 가설의 진위를 판정하는 방법이다. 가설검증은 기본적으로 검정하고자 하는 가설인 귀무가설(혹은 영가설)에 대해 대립가설을 설정하고 대립가설이 참이 아님을 증명하는 방식으로 수행된다. 예를 들어 ‘까마귀는 까맣다’가 귀무가설이라면 ‘까마귀는 까맣지 않다’가 대립가설이다. 그래서 대립가설에 대해 표본을 대상으로 관찰하여 대립가설을 기각함으로써 귀무가설을 증명하는 방식이다. 즉 ‘까마귀가 까맣다’는 것은 증명하기 불가능하지만 ‘까마귀가 까맣지 않은 것은 아니다’는 증명할 수 있기 때문이다. 이는 귀무가설이 참이라는 것을 증명하기 위해서는 논리적 비약이 존재하기 때문에 제한된 인식능력을 가진 인간이 할 수 있는 것은 귀무가설의 반대되는 관찰치를 제시함으로써만 가능하다는 인식론적 논의에 기반하고 있는 것이다.

그렇다면 모집단을 표본이라는 소량의 일부 데이터가 아니라 모집단 전체를 포함할만큼 방대한 빅데이터의 시대에서는 통계적 추론이 필요 없을 않느냐라는 의문이 제기될 수 있다. 그러나 여기에서도 빅데이터가 모집단을 대표할 수 있는가라는 빅데이터의 모집단 대표성 문제는 그대로 남아있다. 우리나라의 국민 소비성향을 파악하는데 기존의 표본조사인 통계청의 ‘가계동향조사’ 데이터를 이용하지 않고 신용카드사의 빅데이터를 활용하면 모집단인 국민소비성향을 파악할 수 있는가? 신용카드 사용자가 모든 국민을 대표할 수 없기 때문에 빅데이터를 활용한다 하더라도 통계적 추론의 문제는 여전히 남는다. 물론 빅데이터를 활용하면 추론의 오차는 더욱 작아질 수 있다.

한편으로는 다양한 빅데이터를 수집하고 융합하고 다른 한편으로는 모집단의 특성을 잘 파악하여 그것에 적합한 통계적 추론을 적용한다면, 우리는 실재에 즉 진실에 더욱 다가갈 수 있을 것이다. GDSK는 빅데이터와 통계적 추론방법을 적절히 적용하여 시장이 필요로 하는 모집단의 실재적 진실을 나타내는 데이터를 생산하여 공급하는데 지속적으로 노력할 것이다.

회사소개

서비스&솔루션

활용사례

문의하기

블로그

통계적 추론(Statistical inference) [DATA Talk]