[인공지능 알고리듬의 이해] “제7회: 텍스트 마이닝”

[ 인공지능 알고리듬의 이해 ]

[인공지능 알고리듬의 이해] “제7회: 텍스트 마이닝”

정보통신정책연구원 ICT데이터사이언스연구본부장

정용찬

* 이 글은 저자의 “인공지능 알고리듬의 이해”에서

주요 내용을 요약, 발췌하였습니다.

텍스트 마이닝

워드클라우드(word cloud)란 글 속에 나오는 단어들을 빈도수에 비례해서 글자의 크기로 나타낸 것으로 마치 단어로 형성된 구름처럼 생겼다고 해서 붙여진 이름이다. 특정 기간(2018.9.13.∼2019.9.13) 동안 우리나라 신문에 나타난 ‘인공지능’과 관련된 단어를 워드클라우드로 나타내면 그림 7-1과 같다. 에이아이란 단어가 인공지능과 가장 관련이 깊고 빅데이터와 같은 단어도 보이고 구글, LG전자와 같은 기업명과 딥러닝과 같은 방법론, 광주시와 같은 지역명도 보인다.

이러한 단어 구름은 문서에 사용된 단어의 빈도를 계산해서 시각적으로 표현하는 것을 말하는데, 많이 나오는 단어는 크게 표시되기 때문에 한눈에 문서의 핵심 내용을 파악할 수 있다(정용찬, 2013).

출처: https://www.bigkinds.or.kr/v2/news/index.do

워드클라우드처럼 단어를 대상으로 한 분석 방법론을 텍스트 마이닝이라고 한다. 텍스트 마이닝(text mining)이란 대규모 문서(text)에서 의미 있는 정보를 추출하는 것을 말한다(정용찬, 2013). 텍스트 마이닝은 정보 검색, 데이터 마이닝(data mining), 기계 학습(machine learning), 통계학, 컴퓨터언어학(computational linguistics) 등이 결합된 학제적(interdisciplinary) 분야다(Han et al, 2011).

텍스트 마이닝은 문서 분류(document classification), 문서 군집(document clustering) 등으로 구분하기도 한다(Witten et al., 2011). 문서 분류는 도서관에서 주제별로 책을 분류하듯이 문서의 내용에 따라 분류하는 것을 말하며, 문서 군집은 성격이 비슷한 문서끼리 같은 군집으로 묶어주는 방법이다(정용찬, 2013).

텍스트 마이닝에서 가장 기초적인 방법은 단어의 빈도를 측정하는 방법이다. 단순히 문서에서 출현하는 단어의 빈도만으로는 중요도를 측정하는 데 한계가 있다. 접속사라든지 일반명사는 문장에서 자주 등장하지만 중요한 단어는 아니기 때문이다. 이를 보완하기 위한 개념이 역문헌빈도(IDF, Inverse Document Frequency)다. 주어진 문헌에서 특정 단어가 공통적으로 출현하는 빈도를 문헌빈도라고 하는데, 역문헌빈도는 문헌빈도의 역수에 로그변환을 한 값이다.

단어빈도와 역문헌빈도를 곱한 TF-IDF는 특정 문서에서는 단어빈도가 높고 전체 문서에서는 그 단어를 포함한 문서가 적을수록 큰 값을 갖는다. 이 값을 활용하면 모든 문서에서 자주 나타나는 흔한 단어는 제외하고 특정 문서에서 빈도가 높은 중요한 단어를 찾는 데 유용하다.

토픽모델링

토픽모델링(Topic Modeling)은 구조화되지 않은 방대한 문헌집단에서 주제를 찾아내기 위한 알고리즘으로 맥락과 관련된 단서들을 이용하여 유사한 의미를 가진 단어들을 군집화하는 방식으로 주제를 추론하는 모델이다(송민, 2017).

토픽모델링은 사람들이 글을 쓸 때 주제를 정하고 이를 잘 표현해 내는 단어를 선택해서 문장을 만들어 나가는 방식을 알고리즘으로 구현한 것이다. 즉 문헌을 다양한 주제(topic)가 혼합되어 표현된 것으로 보고, 문헌에 나오는 첫 번째 용어는 여러 주제로부터 하나의 주제가 선택된 후, 선택된 주제를 표현하는 여러 용어들 중 하나가 선택된 것이며 이 과정이 반복되어 하나의 문헌이 생성된다는 것이다(송민, 2017).

예를 들어 신문의 사설에 토픽모델링을 적용한 결과 딥러닝, 머신러닝, 기계학습 등으로 구성된 단어군과 산업, 정부, 진흥 등의 단어로 구성된 두 개의 단어군으로 구분된다면 이 문서는 ‘인공지능’이라는 주제와 ‘산업진흥’이라는 두 개의 주제로 구성된 문서라고 판단할 수 있다.

토픽모델링을 적용한 실제 분석에서는 토픽의 개수를 몇 개로 할 것인지와 구성된 단어군에 어떤 토픽의 이름을 붙일지를 고민해야 한다. 이는 마치 통계학의 분석방법인 인자분석(factor analysis)에서 인자의 수를 결정하는 것과 인자의 이름을 붙이는 것이 쉽지 않는 것과 유사하다. 또한 토픽모델링은 확률 이론에 기반을 두고 있기 때문에 동일한 문서 데이터를 대상으로 하더라도 분석할 때마다 결과가 달라질 수 있으므로 여러 번 분석하여 어떤 결과가 가장 합리적으로 설명 가능한지를 판단해야 한다.

자연어처리

텍스트 분석을 잘 수행하기 위해서는 사람들이 사용하는 언어를 기계적으로 잘 분석하도록 만들어야 한다. 이러한 과정을 자연어 처리라고 한다.

자연어처리(natural language processing)란 컴퓨터를 이용해서 사람의 언어를 분석하고 처리하는 기술이다. 다른 말로 하면 사람의 언어를 컴퓨터가 이해하도록 만드는 기술이다. 자연어처리의 대상은 문서와 음성이 될 수 있다. 구글이나 네이버의 자동번역이나 금융기관 등에서 상담에 활용하는 챗봇(Chatbot)은 이를 활용한 서비스다.

자연어(natural language)란 사람들이 일상생활에서 사용하는 언어를 말한다. 동물과 달리 인간만이 가지고 있는 언어는 의사소통을 위해 자연스럽게 생겨났다는 의미에서 이런 이름을 붙였다. 컴퓨터에서 사용하는 프로그램 언어를 기계어(machine language)라고 표현하는데 이는 자연어와 대비되는 개념이다.

자연어처리 과정은 언어학의 이론 분류체계에 따라 형태소분석, 구문분석(syntax analysis), 의미분석, 담론분석으로 나눌 수 있다(박대민 외, 2015). 형태소(morpheme)란 더 이상 분석 불가능한 가장 작은 의미 요소를 말한다(송민, 2017). 예를 들어 ‘자연스럽다’는 ‘자연+스럽+다’와 같이 어간과 어미로 구분하게 된다.

한글은 명사나 동사 등의 어간에 어미가 붙는 교착어로 이러한 특성을 감안하여 형태소 분석이 이루어져야 한다. ‘나는’이란 단어는 ‘나(대명사)+는(조사)’일 수도 있지만 ‘날다’라는 동사에서 파생된 ‘날(용언)+는(어미)’일 수 있기 때문에 문맥이다. 또 어간과 어미를 분리하는 규칙이 형태소 분석기에 따라 달라지기 때문에 통일된 기준이 필요하다(송민, 2017).

구문분석(syntactical analysis)은 자연어 파싱(natural language parsing)이라고도 하는데 인간이 문장의 구조를 이해하여 의미를 파악하는 절차를 컴퓨터가 이해하도록 구현하는 것을 말한다(송민, 2017). 의미분석은 구문분석 결과를 해석해서 문장의 의미를 분석하는 것이며, 담론분석은 문장이 현실 속에서 어떤 의미를 갖고 어떤 의도를 갖는지를 분석한다(박대민, 2015).

대부분의 자연어 처리 알고리즘은 단어 수준의 텍스트 분석을 적용한다. 단어 분석은 구문분석이나 담론분석을 가능하게 하는 출발점이기 때문이다. 단어를 식별하는 것을 ‘토큰화(tokenization)’라고 표현하는데 문서를 ‘토큰(token)’이라고 부르는 용어 단위로 조각낸다는 의미다. 이 과정에서는 조각난 단어에 품사 정보를 붙여주는 ‘품사 태깅(part-of-speech tagging)’과 영어의 ‘the’와 같은 정관사나 우리말의 ‘또는’과 같은 접속사처럼 문장 분석에 도움을 주지 않는 단어를 불용어라고 하는데 이를 제거하는 작업도 거친다.

인간은 대화를 통해 맥락을 이해하며 자연스럽게 자연어를 처리하지만 기계가 이렇게 처리하도록 만들기 위해서는 많은 노력이 필요하다. 기가지니와 누구 등과 같은 인공지능 스피커나 아이폰의 시리 기능이 저대로 작동하지 않는 것도 이러한 기술적인 어려움이 존재하기 때문이다.

참고문헌

박대민 ‧ 김선호 ‧ 백영민(2015). 󰡔뉴스 빅데이터 분석시스템 연구󰡕. 한국언론진흥재단.

송민(2017). 󰡔텍스트마이닝󰡕. 청람.

정용찬(2013). 󰡔빅데이터󰡕. 커뮤니케이션북스.

Han, Jiawei, Kamber, Micheline & Pei, Jian(2011). “Data Mining: Concepts and Techniques(Third Edition)”. Burlington, MA: Morgan Kaufmann.

Witten, Ian H., Frank, Eibe, Hall, Mark A.(2011). “Data mining: practical machine learning tools and techniques.” Burlington, MA: Morgan Kaufmann.

언론진흥재단 빅카인즈(BIG KINDS)

https://www.bigkinds.or.kr

회사소개

서비스&솔루션

활용사례

문의하기

블로그

[인공지능 알고리듬의 이해] “제7회: 텍스트 마이닝”

[인공지능 알고리듬의 이해] “제7회: 텍스트 마이닝”

텍스트 마이닝