[ 용어해설 ]
빅데이터(Big data) 시대의 신기원
빅데이터라는 단어는 1990년부터 사용되기 시작했고, 2012년 <뉴욕타임스>에 ‘빅데이터 시대는 이미 도래했다’라는 칼럼이 실리고 난 뒤 빅데이터 열풍이 불기 시작했다. 최근 몇 년 새 뜨거운 ‘인공지능 시대’ 역시 빅데이터 시대의 연성이다. 왜냐하면 업계 인사들은 모두 오늘날 AI의 성공은 사실 딥러닝과 데이터 증가의 성공이라고 생각하고 있기 때문이다.
빅데이터의 표면적 의미는 대량의 데이터인데, 이는 그 전의 매스 데이터와 크게 다를 바 없어 보인다. 그러나 사람들은 빅데이터에 더 많은 의미를 부여했고, 오늘날 빅데이터를 논하려면 5개의 V를 기억해야 한다. 큰 볼륨volume, 다양화Variety, 신속한 분석Velocity, 큰 가치Value, 높은 신뢰도Veracity가 바로 5개의 V다.
매스 데이터 시대는 주로 방대한 데이터를 고성능으로 처리하는 데 집중했다. 그러나 빅데이터 시대에는 데이터가 ‘크다’에 데이터 리소스의 다양화도 포함되어 있다. 전통적인 데이터 웨어하우스의 구조화 데이터 외에도 각종 텍스트, 이미지, 음성 등의 데이터 역시 분석 대상이 되었다. 신속한 분석 역시 중요한 목표가 되었으며, 특히 인터넷의 발전으로 각종 실시간 계산과 실시간 분석 역시 빅데이터 시대의 기본 옵션이 되었다.
그 외에도 데이터의 크기는 양이 ‘많다’라는 의미 외에도 주로 ‘막대한 가치를 창출한다’라는 의미가 내포되어 있어 빅데이터는 중요한 리소스가 되었다. 그리고 또 신뢰도가 높다. 많은 부분의 데이터는 사실대로 기록되기 때문에 과거에 기술제한으로 인해 완전하지 않았던 데이터를 저장할 수밖에 없는 문제점을 해결했다.
이 5가지 빅데이터의 특징을 종합해보면 빅데이터 시대의 데이터는 완전 다른 지위를 가지게 되었다는 것을 알 수 있다.
(위 글은 ‘<통계의 아름다움> 2020년 김슬기 옮김,/주식회사 제이펌’에서 발췌한 것임을 밝힙니다.)