관리 메뉴

VivaButton

텍스트마이닝(Text Mining)이란? 본문

IT/자연어처리

텍스트마이닝(Text Mining)이란?

비바버튼 2018. 9. 27. 19:24
728x90

텍스트 마이닝(Text Mining)

텍스트 마이닝 기술은 자연언어처리(Natural Language Processing)기술에 기반하고 있다. 인간의 말은 각 언어별로 어휘적, 문법적

독특성이 있을뿐 아니라, 그 표현의 현태가 매우 다양하고 복잡하여 일괄된 규칙으로 규정하기 힘든 경우가 많으며, 언어가 사용되는 환경에 따라 끊임없이 변화하는 특성을 지니고 있다. 인간 언어 중 문자로 표현된 언어를 컴퓨터로 분석 처리하고 그 구조와 의미를 이해하고자 하는 기술이 바로 자연언어처리 기술이다. 컴퓨터가 개발되면서부터 끊임없이 연구되어 온 분야지만, 언어가 가진 복잡성 때문에 아직도 도전적 목표가 많이 남아 있는 기술 분야로 손 꼽힌다.


텍스트 마이닝은 한마디로 비정형 텍스트 데이터에서 가치와 의미가 있는 정보를 찾아내는(Mining) 기술이라고 할 수 있다. 사용자는 텍스트마이닝 기술을 통해 방대한 정보 뭉치에서 의미있는 정보를 추출해 내고, 다른 정보와의 연계성을 파악하며, 텍스트가 가진 카테고리를 찾아내는 등, 단순한 정보 검색 그 이상의 결과를 얻어낼 수 있다. 컴퓨터가 인간이 사용하는 언어로 기술된 정보를 깊이 분석하고 그 안에 숨겨진 정보를 발굴해 내기 위해서는 대용량 언어자원과 복잡한 통계적, 규칙적 알고리즘이 적용되어야만 한다.


텍스트마이닝에서 현재 다뤄지고 있는 주요 기술분야를 언급하면 다음과 같다.


문서분류(Document Classification)

문서분류를 다루어 온 가장 오래된 학문 중하나가 바로 서지학(bibliography)이다. 도서관에서는 수 많은 도서의 관리를 위해 사서가 각 도서의 내용을 일일이 파악해 정해진 분류체계에 따라 수작업으로 분류를 해 왔다. 그라나 디지털 기술의 발전과 인터넷 활성화는 엄청난 정보의 생산과 유통을 가능케 했으며, 기존의 방식으로 조직 내외부의 방대한 정보를 분류, 관리하기란 거의 불가능에 가까워졌다. 특히, 조직 내부에 분산되어 있는 수 많은 정보가 상호 복잡하게 연계되어 있고, 이질적 목적과 형태를 지닌 지식 콘텐트의 자동 분류 기술 구현은 최근까지도 매우 어려운 과제로 인식되어 왔다.


문서 군집(Document Clustering)

문서군집은 각 지식 콘텐트의 특성을 파악해 그 내용 혹은 형태가 유사하거나 상호 관련성이 높은 콘텐트들을 군집시켜 주는 기술이다. 사용자는 문서 군집 기술을 통해, 관심 있는 문서들을 그 관련도 순으로 한꺼번에 묶어서 효과적으로 검토해 볼 수 있을 뿐만 아니라, 예제 기반 질의를 통해, 방대한 문서 속에서 숨겨져 있는 정보에 매우 빠르고 쉽게 접근하는 것이 가능해진다. 통상의 문서군집 기술은 대상 문서의 언어학적 분석을 통해 차별화된 중요 특성들을 추출해 내고, 이를 다른 문서의 특성들과의 비교(유사도 계산)하여 그 유사도가 높은 문서들을 상호 묶어주는 방식으로 구현된다. 정확한 유사도의 계산과 효과적인 군집을 위해 다양한 통계기반, 규칙기반 알고리즘들이 연구되어 왔다.


정보 추출(Infomation Extraction)

정보추출은 텍스트 문서내에서 중요한 의미를 가지는 정보들을 자동으로 추출해 주는 기술이다. 사용자는 정보추출 기술을 통해, 비정형 문서에서 중요 키워드, 핵심 개념, 특정 사건, 인명, 지명, 날짜, 상황 및 조건, 결론 등의 다양한 정형 정보를 추출하여 활용 할 수 있도록 돕는다. 키워드와 같은 기본적인 정보는 자동 분류, 군집 등에 직접적으로 활용되는 중요 요소가 되고, 그 외의 다양한 상세 정보들은 자동 요약에 있어서 매우 중요한 문장 구성 요소가 된다. 최근 들어서, 정보추출 기술은 경쟁자 정보 분석, 조직 내의 위험 관리 시스템 개발, 온톨로지에 기반한 시멘틱 웹 기술을 구현할 때, 비정형 텍스트 문서에 의미 정보를 부착하는 기술의 개발 그리고 기존 정보 시스템의 성능을 개선하여 효과적인 정보 접슨 및 관리를 가능하게 하는 기술로 각광을 받고 있다.


문서요약(Document Summarization) 

자동문서요약 기술은 문서가 담고 있는 핵심 의미를 유지하면서 그 복잡도와 길이를 효과적으로 줄여주어 각 사용자가 짧고 간단한 요약 문장을 파악함으로서 빠르게 정보를 이해하고 활용 할 수 있도록 돕기 위한 기술이다. 자동 요약 시스템은 특성 추출 및 정보 추출 기술에 기반하고 있으며, 텍스트 전체에서 그 문서를 대표할만한 문장을 추출하여 재구성하는 추출 요약 방식과 추출한 중요 정보들을 활용하여 문장을 생성해내는, 생성 요약 방식으로 구별해 볼 수 있다.


텍스트마이닝은 데이터마이닝(Data Mining)과는 다른 분야이다. 데이터마이닝은 구조화되고 사실적인 방대한 데이터베이스에서 관심있는 패턴을 찾아내는 기술분야라고 본다면, 텍스트마이닝은 구조화되지 않고 자연어로 이루어진 텍스트에서 의미를 찾아내는 기술 분야이다. 

데이터마이닝의 전형적인 사례는 "특정 물건을 선반의 어느 위치에 진영할 때 가장 많이 팔리는가" 등의 소비자 패턴 조사 등에서 흔히 볼 수 있다. 데이터 분석가들은 수 많은 카드 사용자들의 기록을 가지고 사용자들의 일반적인 카드 사용패턴을 찾아내기도 한다.


출처 :: http://smartdata.saltlux.com/%ED%85%8D%EC%8A%A4%ED%8A%B8%EB%A7%88%EC%9D%B4%EB%8B%9D%EC%9D%B4%EB%9E%80/

'IT > 자연어처리' 카테고리의 다른 글

자연어 처리의 개념  (0) 2018.09.27
형태소 분석의 이해 - 기초  (0) 2018.09.27