관리 메뉴

VivaButton

형태소 분석의 이해 - 기초 본문

IT/자연어처리

형태소 분석의 이해 - 기초

비바버튼 2018. 9. 27. 11:27
728x90

형태소 분석의 정의

- 의미가 있는 최소의 단위(minimally meaningful unit)

- 문법적, 관계적인 뜻을 나타내는 단어 또는 단어의 부분

- 일정한 범위 안에서 쓰이는 낱말의 총체

- 어떤 갈래의 낱말을 간단한 풀이를 붙여 차례대로 벌여 놓은 낱말의 집단


언어별 형태소 분석의 문제(예시)


영어

- 사전 참조 및 품사 인식

- 예

-- to : 전치사, to-부정사

-- study : 명사, 동사


중국어, 일본어

- Word segmentation과 복합적인 문제


한국어 형태소 분석(예시)


형태소의 분리 기준

형태소 사전에 수록된 어휘를 기준으로 분석

사랑하다 = 사랑 + 하 + 다, 사랑하 + 다

알뜰하다 = 알뜰 + 하 + 다, 알뜰하 + 다


- 애매한 경우

군고구마 = 군 + 고구마

산골짜기 = 산 + 골짜기, 산골 + 짜기

여닫다 = 열 + 닫 + 다

국민대학교 = 국민 + 대학교, 국민대 + 학교

서울시청 = 서울 + 시청, 서울시 + 청


형태소 분석 관련 어절 특성

1. 형태소 분석의 처리 단위는 띄어쓰기 및 문장부호에 의해 구별되는 문자열(어절)이다.

2. 입력 문자열은 하나 혹은 둘 이상의 형태소로 이루어진다.

3. 형태소는 형태론적 변형 규칙에 따라 변형이 일이 이루어진다.

4. 분석 알고리즘은 형태소 사전과 분석 규칙을 기반으로 한다.

5. 중의성이 있는 어절에 대해 가능한 모든 분석 결과를 생성한다.


형태소 분석이란..

형태소 사전과 결합제약 규칙에 의해

1. 형태소 분리

2. 원형 복원

3. 각 형태소의 품사 인식


형태소 분석 결과(예시)

원문 : 미래의 응용 소프트웨어는 사용자들의 습성과 특성을 알아내 쉽게 사용될 수 있도록 개발될 것이다

형태소 분석 결과 : 
        (N "미래")<N:20> + (j "의")
        (N "응용")<N:20>
        (N "소프트웨어")<N:20> + (j "는")<1>
        (N "사용자")<N:20> + (s "들") + (j "의")
        (N "습성")<N:20> + (j "과")
        (N "특성")<N:20> + (j "을")
        (V "알아내")<T:24> + (e "어")<5>
        (V "쉽")<Jb:20> + (e "게")
        (N "사용")<N:29> + (t "되") + (e "ㄹ")<13>
        (N "수")<NX:27>
        (V "있")<KIgVJ:20> + (e "도록")
        (N "개발")<N:29> + (t "되") + (e "ㄹ")<13>
        (N "것")<X:22> + (c "이") + (e "다")
        (N "것")<X:27> + (j "이다")



한국어 형태소 분석기의 기능


* 조사/어미의 분리

- '아/어' 의 변이체 문제

- 생략된 서술격 조사 복원

* 선어말어미

- '시/았/었/겠' 분리

- 어말어미가 발견된 경우에만

* 접미사 분리 : '하/되'스럽' , 'ㅁ/기' 등

* 불규칙 원형 복원

* 체언/용언/독립언 인식

* 복합어 및 미등록어 인식

* 준말 처리, 영문자, 숫자 처리, 수사 처리 등


형태소 분석 방법론

* 언어 독립적 방법론

- Two-level 모델

* 사전 기반 형태소 분석

- 규칙 대신 사전에 많은 정보를 수록

- 예시) 불규칙 어간 or 어미

* 규칙 기반 형태소 분석

- 가급적 규칙으로 처리, 사전 최소화

* 기분석 어절 사전 : 고빈도 어절






'IT > 자연어처리' 카테고리의 다른 글

텍스트마이닝(Text Mining)이란?  (0) 2018.09.27
자연어 처리의 개념  (0) 2018.09.27