메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

배장성 (강원대학교, 강원대학교 대학원)

지도교수
이창기
발행연도
2022
저작권
강원대학교 논문은 저작권에 의해 보호받습니다.

이용수33

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (9)

초록· 키워드

오류제보하기
의미역 결정(semantic role labeling)은 자연어 문장에서 “누가, 무엇을, 어떻게, 왜” 등의 의미적 관계를 분석하는 자연어 처리의 한 응용이다. 의미역 결정은 자연어 처리의 의미 분석 단계에 해당하며 질의 응답과 정보 추출과 같은 다른 자연어 처리 응용의 주요 자질로 활용되고 있다. 최근 수년간 인터넷의 발달로 온라인 및 모바일 생활이 증가하며 기존 사람이 수행하던 고객 서비스를 비롯한 다양한 업무들이 자연어 처리 기반의 인공 지능 시스템으로 빠르게 대체되고 있으며 그 중요도가 날로 높아지고 있다. 이에 따라 의미역 결정 연구의 필요성 또한 날로 커져가고 있다.
과거 의미역 결정 연구는 구문 분석 정보와 얕은 기계 학습 모델을 이용한 연구가 많이 수행되었으나, 최근에는 뉴럴 네트워크(neural network)와 대량의 말뭉치(corpus)를 이용한 연구가 많이 수행되고 있다. 구문 분석 정보는 의미역 결정과 매우 밀접한 연관이 있어 지금까지도 많은 의미역 결정 연구에 사용되고 있지만 구문 분석 단계에서 발생할 수 있는 오류가 전파되는 문제점과 의미역 결정을 수행하기 이전에 구문 분석이 수행되어야 하는 문제점이 있다. 따라서 본 논문에서는 구문 분석 정보를 사용하지 않는 뉴럴 네트워크 기반 한국어 의미역 결정 모델을 제안하고 구문 분석 정보 없이도 한국어 의미역 결정을 잘 수행할 수 있음을 보인다.
언어 모델을 통해 학습되는 단어 임베딩(word embedding)은 자연어 문장을 컴퓨터가 계산할 수 있는 형태로 표현해주는 것으로 각 자연어 처리 응용 성능에 많은 영향을 미치게 된다. 최근 Bidirectional Encoder Representations from Transformer(BERT)라는 언어 모델이 등장하여 기존 언어 모델을 앞서는 성능을 보이고 있다. 이 모델은 적용되는 각 자연어 처리 응용에 따라 한 개 또는 두 개의 문장을 모델의 입력으로 사용한다. BERT 모델을 의미역 결정에 적용하는 여러 연구들은 이 모델의 입력으로 의미역을 결정할 한 개의 문장만을 모델의 입력으로 사용하고 그 외의 자질 정보는 BERT 모델의 출력과 함께 연결하여 다른 뉴럴 네트워크 모델의 입력으로 사용한다. 본 논문에서는 기존 연구들과 달리 두 개의 입력 문장 모두를 의미역 결정에 활용하는 방법을 제안한다. 제안된 방법은 BERT 모델의 두번째 입력 열에 격틀 사전(case-frame) 기반 의미 정보를 추가하여 기존 모델의 복잡도에 영향을 주지 않으며, 동시에 의미역 결정에서 가장 중요한 정보로 볼 수 있는 의미 정보를 모델의 입력으로 추가하여 의미역 결정 성능 향상이 가능하다. 실험을 통해 확인한 결과 제안된 방법은 한국어 의미역 결정과 영어 의미역 결정 모두에서 최신 기술보다 우수한 성능을 보였다.
뉴럴 네트워크와 같은 기계 학습을 이용한 의미역 결정 모델의 성능은 학습 말뭉치의 양에 의해 좌우된다. 그러나 한국어 의미역 말뭉치의 양은 영어 학습 말뭉치의 약 1/10에 불과하고 이로 인해 다소 낮은 성능을 보이고 있다. 이러한 문제점을 해결하기 위해 학습 말뭉치를 새로 만들 수 있지만, 이는 많은 비용과 시간이 필요한 문제점이 있다. 본 논문에서는 언어 모델을 활용해 자동으로 의미역 학습 말뭉치를 증강할 수 있는 방법을 제안한다. 제안한 방법은 시소러스(thesaurus)와 같은 외부 지식을 활용하는 기존 데이터 증강 방법보다 더 자연스러운 문장을 생성할 뿐만 아니라 의미역 결정에서 더 높은 성능 향상을 보였다. 결과적으로, 본 논문에서 제안한 한국어 의미역 결정 모델과 데이터 증강 방법이 의미역 결정 성능 향상에 큰 기여를 하고 있음을 알 수 있었다.

목차

I. 서 론 1
II. 연구 배경 6
2.1 의미역 결정 기존 연구 6
2.2 뉴럴 네트워크 기반 의미역 결정 연구 9
2.3 단어 임베딩 10
2.4 구문 분석 자질 11
III. LSTM RNN 기반 한국어 의미역 결정 14
3.1 LSTM RNN-CRFs 모델 14
3.2 Stacked Bidirectional LSTM RNN-CRFs 모델 18
3.3 Highway Bidirectional LSTM RNN-CRFs 모델 19
IV. BERT 기반 한국어 의미역 결정 21
4.1 Transformer 모델 21
4.2 BERT 모델 25
4.3 BERT 기반 한국어 의미역 결정 모델 28
4.4 격틀 사전 기반 의미 정보가 결합된 한국어 의미역 결정 모델 29
V. 한국어 의미역 말뭉치 증강 연구 35
5.1 데이터 증강 필요성 및 기존 연구 35
5.2 기존 데이터 증강 연구의 문제점 39
5.3 한국어 의미역 말뭉치 증강 기법 41
VI. 실험 평가 45
6.1 의미역 결정 태스크 정의 45
6.2 한국어 의미역 결정 학습 데이터 46
6.3 한국어 의미역 결정 모델 입력 자질 48
6.4 실험 결과 54
VII. 결 론 61
참고문헌 63
Abstract 70

최근 본 자료

전체보기

댓글(0)

0