[ 용어해설 ]
데이터 사이언스(Data science)
데이터 사이언스의 어원을 보면 1940년대부터 1960년대 사이로 거슬러 올라가게 된다. 제프우는 1997년에 ‘Statistics = Data Science?’라는 물음표를 던졌다. 시기는 딱 데이터 사이언스가 사람들에게 알려지기 시작한 때와 맞물렸다. 사람들은 대부분 2008년부터 파틸과 해머바처가 자신들의 링크드인과 페이스북 직책란에 ‘데이터 사이언티스트’라고 기재했을 때부터 데이터 사이언스가 업계에서 유행하기 시작했다고 생각한다.
구체적인 데이터 사이언스의 의미를 보면 다음 그림에 정확히 묘사했다. 데이터 사이언스는 통계학, 컴퓨터 사이언스, 그리고 특정 분야 지식의 융합이다. 만약 통계학과 특정 분야의 지식만 있다면 전통적인 데이터 분석이 된다. 보통은 간단한 도구를 사용해 적은 양의 표본을 처리한다. 만약 컴퓨터 사이언스와 특정분야의 지식만 있다면 업계에서 자주 사용하는 비즈니스 인텔리전스(BI가 된다.
매스 데이터 시대는 주로 방대한 데이터를 고성능으로 처리하는 데 집중했다. 그러나 빅데이터 시대에는 데이터가 ‘크다’에 데이터 리소스의 다양화도 포함되어 있다. 전통적인 데이터 웨어하우스의 구조화 데이터 외에도 각종 텍스트, 이미지, 음성 등의 데이터 역시 분석 대상이 되었다. 신속한 분석 역시 중요한 목표가 되었으며, 특히 인터넷의 발전으로 각종 실시간 계산과 실시간 분석 역시 빅데이터 시대의 기본 옵션이 되었다.
만약 수학과 통계학 지식이 없다면 직접 도구를 사용할 때 쉽게 오류를 범하게 된다. 빅데이터 오류에 관한 각종 예제는 사실 모두 데이터와 방법에 대한 이해가 부족하여 발생하는 것이다. 만약 통계학과 컴퓨터 사이언스만 있다면 연구 방법 자체가 된다. 현재 가장 핫한 머신러닝이 바로 여기에 속한다. 세 가지를 모두 결합했을 때 비로소 데이터 사이언스가 될 수 있으며, 빅데이터의 진정한 솔루션이 될 수 있다.
데이터 사이언스는 주로 사람의 관점에서 시작하는데, 데이터 사이언티스트가 관건이다. 다양한 이론과 기술을 결합하여 빅데이터를 토대로 과학 방법을 활용해 데이터에서 지식을 얻을 수 있어야 한다. 데이터 엑세스는 컴퓨터 기술이 쌓아 올림 클라우드 컴퓨팅 플랫폼 등을 이용하면 된다. 데이터 분석 분야에서는 통계와 컴퓨터 기술을 결합하여 다양한 고성능 분석 모델을 구현할 수 있다.
데이터 응용분야에서는 구체적인 분야의 요구, 규칙, 데이터 특징을 기반으로 적합한 소프트웨어와 하드웨어 아키텍처 및 분석 모델을 설계하여 데이터의 가치를 실현시킬 수 있다. 이는 데이터 사이언티스트의 직무이자 사람들이 빅데이터에 거는 기대다.
(위 글은 ‘<통계의 아름다움> 2020년 김슬기 옮김,/주식회사 제이펌’에서 발췌한 것임을 밝힙니다)