[ 통계, 혼돈과 질서의 만남 ]
2. 무작위와 난수
2.8 난수열에 관한 오류
힌두교의 신에 관한 개념과 같이, 난수들은 아무런 패턴이 없음에도 불구하고 그 속에는 모든 패턴을 다 지니고 있다는 것입니다. 다시 말하면, 만약 우리가 엄격하게 난수들을 계속 만들어내면 언젠가는 어떤 일정한 패턴을 접하게 된 다는 것입니다.
그러므로 만약 우리가 계속하여 동전을 던질 경우 어떤 단계에 가서는 동전의 앞면이 계속하여 1,000번이 나올 수도 있다는 것입니다. 그래서 우리는 원숭이로 하여금 계속하여 타자를 치도록 할 경우 비록 긴 시간 이후의 일이겠지만 그 원숭이는 언젠가는 완벽한 셰익스피어 작품들을 쳐 낼 수 있는 것입니다. (27,000개의 문자와 스페이스로 구성된 “햄릿”을 쳐낼 수 있는 확률은 1/1041600이 됩니다. 이 수치는 이러한 진귀한 현상을 목격하려면 우리가 얼마나 기다려야 하는가를 보여주고 있습니다.)
패턴이 있는 것 같으면서도 패턴이 없는 이러한 난수열의 특성은 철학자들의 수준에서조차 오해를 불러 일으켰습니다. 폴리아Polya에 의하여 예시된 일명 “도박사의 오류”라고 불리는 의사에 관한 이야기는 다음과 같습니다. 의사는 그의 환자를 안심시키기 위하여 다음과 같이 말했습니다.
이러한 견해는 독일의 철학자 마르베Karl Marbe(1916)에 의하여 심각하게 제시되었는데 그는 바바리아Bavaria의 4개 마을에서 구한 200,000명의 신생아 출생 표를 토대로 다음과 같은 결론을 내렸습니다. 즉, 최근 며칠 사이 상대적으로 많은 수의 여자아이들이 태어났다면 현재 출산을 앞둔 부부는 남자아이를 가질 가능성이 높다는 것입니다.
마르베의 통계적 안정이론과 쌍벽을 이루는 또 다른 이론은 철학자 스테징어 O.Sterzinger(1911)에 의하여 제시된 “축적 이론”입니다. 이 이론은 생물학자인 카메러Paul Kammerer(1919)가 제안한, 단기간에 발생하는 같은 사건들의 경향에 대해 다룬 “시리즈 법칙”에 기초를 제공하였습니다. 속담에 “시련은 홀로 오지 않는다”라는 말이 있는데 사람들은 이 말을 진지하게 받아들이고 모든 종류의 사건에 적용시킵니다.
날리카J.Narlikar(1982) 교수는 제16회 인도통계연구원 총회연설에서 이와 같은 오류로부터 발생하는 것으로서 호일 Fred Hoyle과 라일Matin Ryle 사이의 논쟁에 대하여 언급하였습니다. 날리 카 교수는 그의 몬테카를로 실험결과 안정적이며 동질적인 체제도 일정빈도로 부분적인 이질성을 보일 수 있으며, 이러한 관점에서 라일이 전파밀도에서 발견한 이질성은 호일이 주장한 우주의 안정현상이론에 위배되지 않는다고 말하였습니다.
또 다른 예를 살펴보겠습니다. 대부분의 경우 동물들의 모집단 크기는 대략 3년 주기를 나타냅니다. 즉, 동물의 모집단 크기가 정점에 이르는 두 시점 사이의 간격이 대략 3년입니다. (여기서 정점이란 바로 뒤의 연도 또는 바로 다음 연도보다도 동물의 모집단 크기가 많은 연도를 말합니다.)
이러한 현상은 일단의 사람들로 하여금 발견되지 않은 또 다른 자연의 법칙이 있다고 믿게 만들었습니다. 그러나 만약 우리가 난수들을 일정하게 기입해 간다면 정점 사이의 평균 간격은 기입되는 난수들이 증가됨에 따라 점점 3에 근접해 간다는 사실이 밝혀짐으로써 새로운 자연의 법칙에 대한 기대는 허물어졌습니다. 사실 이러한 경향은 3개의 난수 중 중간 숫자가 나머지 숫자들보다도 더 클 확률이 1/3이라는 사실을 이용함으로써 쉽게 증명할 수 있습니다. 즉, 이것은 정점들 사이의 기간이 평균 3년이라는 사실을 암시하는 것입니다
2.9 민감한 질문의 처리방법
무작위에 관한 또 다른 흥미로운 응용분야는 민감한 질문들에 대하여 응답을 유도하는 것입니다. 만약 우리가 “당신은 마리화나를 피웁니까?”라고 묻는다면 정확한 답을 얻기가 힘들 것입니다. 그러나 이와는 달리 우리는 2개의 질문을 나열할 수 있습니다. (그중 하나는 민감하지 않은 질문입니다.)
그리고 응답자에게 동전을 던진 후 만약 앞면이 나오면 S의 질문에 대하여 올바르게 답변하고, 뒷면이 나오면 T의 질문에 올바르게 답변하라고 요구합니다. 질문자는 응답자가 어떤 질문에 응답하는지 알지 못하므로 정보의 비밀은 유지될 것입니다. 이러한 응답으로부터 개인의 마리화나 흡입비율을 아래와 같이 추정할 수 있습니다.