[ 인공지능 알고리듬의 이해 ]
[인공지능 알고리듬의 이해] “제4회: 인공지능과 머신러닝”
정보통신정책연구원 ICT데이터사이언스연구본부장
정용찬
인공지능이란?
인공지능(AI, Artificial Intelligence)이란 인간처럼 생각하고 판단하는 컴퓨터를 말한다. 단순히 주어진 규칙대로 판단하는 능력을 넘어서서 사람처럼 생각하고 학습하고 자기 개발을 할 수 있는 능력을 지닌 기술을 말한다(정용찬, 2018)
인공지능은 ‘약한 인공지능(Weak AI)’과 ‘강한 인공지능(Strong AI)’으로 구분한다. 약한 인공지능은 특정 분야의 문제를 해결할 수 있는 기술이다. 자율주행자동차 같이 특정 분야의 일은 스스로 처리하는 것을 말한다. 강한 인공지능은 사람처럼 어떤 유형의 문제가 주어져도 스스로 판단해서 해결할 수 있는 인공지능을 말한다. 영화 <터미네이터>의 ‘스카이넷’이나 <블레이드 러너>의 복제인간 로이가 강한 인공지능의 예다.
아직 데이빗 같은 사람을 닮은 인공지능은 나타나지 않았지만 특정 분야에서 사람과 유사하거나 오히려 사람의 능력을 뛰어 넘는 인공지능이 현실화되고 있다. 이세돌 9단을 이긴 알파고가 대표적인 사례다.
인공지능이란 용어는 1956년 다트머스대학에서 열린 콘퍼런스에서 존 매카시(John McCarthy) 교수가 처음 사용했다. 당시 인간 같은 기계가 빠른 시간 안에 구현될 것을 보고 대규모 연구비 지원이 이뤄졌지만 성과는 저조했다. 투자는 사라지고 침체기를 맞는다 1980년대 들어 특정한 범주 안에서 문제를 해결해주는 ‘전문가 시스템(Expert System)’이 등장하면서 AI 분야는 또 한 차례 주목을 받는다. 하지만 다시 투자가 끊겨 두 번째 암흑기를 맞이한다.
1990년대 이후 인공지능 분야의 괄목할만한 사건이 등장한다. 1997년 5월 IBM의 딥블루는 세계 체스 챔피언인 게리 카스파로프와 대결을 벌여 2승 1패 3무의 성적을 거둔다. 2011년에는 IBM의 슈퍼컴퓨터 왓슨이 미국 TV퀴즈쇼에 출연하여 두 명의 인간 퀴즈 챔피언과 대결을 벌여 압도적인 점수 차로 이긴다.
인공지능이 전 세계 사람들의 주목을 받은 계기는 이세돌 기사와 알파고의 바둑 대국이다. 많은 사람들의 예상과 달리 알파고는 4승 1패로 압도적으로 인간 기사를 물리친다. 이후 성능을 더 향상시킨 알파고는 커제, 국내 1위 박정환 9단 등 세계 최고서와 30판의 대국을 두어 전승을 거둔다. 이후 알파고는 법률과 의료 분야에 진출해서 현재 법률자료 분석, 종양 진단 등에 활용되고 있다.
머신러닝(Machine Learning)
머신러닝(Machine Learning)은 IBM의 인공지능 연구원인 아서 새뮤얼(Arthur Samuel)이 1959년 체커 게임 논문을 발표하면서 처음 사용했다(김의중, 2018). 머신러닝이란 인공지능의 한 분야로, 사람이 학습하듯이 컴퓨터에 데이터를 제공해서 학습하게 함으로써 새로운 지식을 얻어내게 하는 방법이다(정용찬, 2018).
머신러닝은 지도학습(supervised learning)과 비지도학습(unsupervised learning)으로 구분한다. 지도학습이란 기계가 학습을 할 데이터에 사람들이 미리 정의해 놓은 정보가 포함되어 있는 경우를 말한다. 즉 개와 고양이를 찍은 사진으로 구성된 학습 데이터가 ‘개’와 ‘고양이’라는 정의를 포함하고 있다면 지도학습이다. 컴퓨터의 입장에서는 정의가 포함된 데이터로 학습을 하면서 개와 고양이를 구분하는 최적의 알고리즘을 찾아 나가므로 마치 컴퓨터가 사람에게 지도를 받은 것과 같기 때문이다. 비지도학습은 학습용 데이터에 동물의 정의가 포함되어 있지 않다. 따라서 컴퓨터가 사물에 대한 개념 정의를 모르는 상태에서 개와 고양이를 식별하는 알고리즘을 구현한다.
강화학습(Reinforcement learning)
구글의 브레인팀이 연구와 제품 개발을 목적으로 만든 기계학습(Machine Learning)용 소프트웨어 라이브러리다. 라이브러리란 도서관을 의미한다. 도서관의 서가에 다양한 주제의 책이 모여있는 것처럼 자주 사용되는 프로그램은 미리 만들어서 저장해 놓은 후 프로그래머가 약속된 이름만 불러 쓰면 되는 방식이다.
강화학습(Reinforcement learning)은 머신러닝의 한 분야로 컴퓨터가 주어진 상태(state)에 대해 최적의 행동(action)을 선택하는 학습 방법을 말한다(IT용어사전). 지도학습이 정의가 포함된 학습 데이터를 제공한다면 강화학습은 컴퓨터가 판단한 결과에 대해 보상(reward)을 주는 방식으로 성능을 향상시킨다.
알파고의 핵심 알고리즘도 강화학습을 기반으로 한다(김의중, 2018). 바둑은 두어야 할 경우의 수가 너무 많아 시합이 종료되면 컴퓨터가 둔 수가 좋았는지 나빴는지를 알려주는 방식으로 학습을 진행한다. 이러한 학습 방식을 보상 또는 강화라고 한다.
강화학습은 행동심리학에 뿌리를 두고 있다. 즉 동물실험을 통해 반복된 시행 과정에서 점점 착오적 반응을 줄이고 문제를 해결해 가는 과정을 ‘시행착오(trial and error) 학습’으로 정의했다. 이러한 시행착오 이론을 컴퓨터 공학에 적용시킨 결과가 강화학습이다.
강화학습은 시행착오를 통해서 스스로 학습하기 때문에 사람의 학습방식과 매우 유사하며 이러한 이유로 강화학습을 인공지능의 핵심이라고 표현한다(김의중, 2018).
참고문헌
김의중(2018). 인공지능, 머신러닝, 딥러닝. 위키북스.
정용찬(2018). 생각이 크는 인문학, 빅데이터. 을파소.
위키백과, https://ko.wikipedia.org/wiki/
피터 플래치(2016). 머신러닝, 데이터를 이해하는 알고리즘의 예술과 과학. 비제이퍼블릭.
Wikipedia, https://en.wikipedia.org/wiki/