의미역 결정(semantic role labeling)은 자연어 문장에서 “누가, 무엇을, 어떻게, 왜” 등의 의미적 관계를 분석하는 자연어 처리의 한 응용이다. 의미역 결정은 자연어 처리의 의미 분석 단계에 해당하며 질의 응답과 정보 추출과 같은 다른 자연어 처리 응용의 주요 자질로 활용되고 있다. 최근 수년간 인터넷의 발달로 온라인 및 모바일 생활이 증가하며 기존 사람이 수행하던 고객 서비스를 비롯한 다양한 업무들이 자연어 처리 기반의 인공 지능 시스템으로 빠르게 대체되고 있으며 그 중요도가 날로 높아지고 있다. 이에 따라 의미역 결정 연구의 필요성 또한 날로 커져가고 있다. 과거 의미역 결정 연구는 구문 분석 정보와 얕은 기계 학습 모델을 이용한 연구가 많이 수행되었으나, 최근에는 뉴럴 네트워크(neural network)와 대량의 말뭉치(corpus)를 이용한 연구가 많이 수행되고 있다. 구문 분석 정보는 의미역 결정과 매우 밀접한 연관이 있어 지금까지도 많은 의미역 결정 연구에 사용되고 있지만 구문 분석 단계에서 발생할 수 있는 오류가 전파되는 문제점과 의미역 결정을 수행하기 이전에 구문 분석이 수행되어야 하는 문제점이 있다. 따라서 본 논문에서는 구문 분석 정보를 사용하지 않는 뉴럴 네트워크 기반 한국어 의미역 결정 모델을 제안하고 구문 분석 정보 없이도 한국어 의미역 결정을 잘 수행할 수 있음을 보인다. 언어 모델을 통해 학습되는 단어 임베딩(word embedding)은 자연어 문장을 컴퓨터가 계산할 수 있는 형태로 표현해주는 것으로 각 자연어 처리 응용 성능에 많은 영향을 미치게 된다. 최근 Bidirectional Encoder Representations from Transformer(BERT)라는 언어 모델이 등장하여 기존 언어 모델을 앞서는 성능을 보이고 있다. 이 모델은 적용되는 각 자연어 처리 응용에 따라 한 개 또는 두 개의 문장을 모델의 입력으로 사용한다. BERT 모델을 의미역 결정에 적용하는 여러 연구들은 이 모델의 입력으로 의미역을 결정할 한 개의 문장만을 모델의 입력으로 사용하고 그 외의 자질 정보는 BERT 모델의 출력과 함께 연결하여 다른 뉴럴 네트워크 모델의 입력으로 사용한다. 본 논문에서는 기존 연구들과 달리 두 개의 입력 문장 모두를 의미역 결정에 활용하는 방법을 제안한다. 제안된 방법은 BERT 모델의 두번째 입력 열에 격틀 사전(case-frame) 기반 의미 정보를 추가하여 기존 모델의 복잡도에 영향을 주지 않으며, 동시에 의미역 결정에서 가장 중요한 정보로 볼 수 있는 의미 정보를 모델의 입력으로 추가하여 의미역 결정 성능 향상이 가능하다. 실험을 통해 확인한 결과 제안된 방법은 한국어 의미역 결정과 영어 의미역 결정 모두에서 최신 기술보다 우수한 성능을 보였다. 뉴럴 네트워크와 같은 기계 학습을 이용한 의미역 결정 모델의 성능은 학습 말뭉치의 양에 의해 좌우된다. 그러나 한국어 의미역 말뭉치의 양은 영어 학습 말뭉치의 약 1/10에 불과하고 이로 인해 다소 낮은 성능을 보이고 있다. 이러한 문제점을 해결하기 위해 학습 말뭉치를 새로 만들 수 있지만, 이는 많은 비용과 시간이 필요한 문제점이 있다. 본 논문에서는 언어 모델을 활용해 자동으로 의미역 학습 말뭉치를 증강할 수 있는 방법을 제안한다. 제안한 방법은 시소러스(thesaurus)와 같은 외부 지식을 활용하는 기존 데이터 증강 방법보다 더 자연스러운 문장을 생성할 뿐만 아니라 의미역 결정에서 더 높은 성능 향상을 보였다. 결과적으로, 본 논문에서 제안한 한국어 의미역 결정 모델과 데이터 증강 방법이 의미역 결정 성능 향상에 큰 기여를 하고 있음을 알 수 있었다.
Semantic role labeling (SRL) is an application of natural language processing that analyzes semantic relationships such as “who, what, how, and why” in natural language sentences. SRL corresponds to the semantic analysis stage of natural language processing, and is used as a key feature of other natural language processing applications such as question answering and information extraction. With the development of the Internet in recent years, online and mobile life has increased, and various tasks, including customer service, that were previously performed by humans are rapidly being replaced by Artificial Intelligence systems based on natural language processing, and their importance is increasing day by day. Accordingly, the need for SRL study is also increasing day by day. In the past, many studies have been conducted using syntax analysis information and shallow machine learning models, but recently, many studies have been conducted using neural networks and large corpus. Syntax analysis information is very closely related to SRL, so it is still used in many SRL studies, but there are problems in that errors that may occur in the parsing stage are propagated and that syntax parsing must be performed before SRL is performed. Therefore, in this paper, we propose a neural network-based Korean SRL baseline model that does not use syntax analysis information and show that Korean SRL can be performed well without syntax analysis information. Word embedding, which is learned through a language model, expresses natural language sentences in a form that can be calculated by a computer, which greatly affects the performance of each natural language processing application. Recently, a language model called Bidirectional Encoder Representations from Transformer (BERT) has emerged, surpassing the existing language model. This model uses one or two sentences as input to the model according to each natural language processing application applied. Several studies that apply the BERT model to SRL use only one sentence to determine the semantic role as the input of this model, and other feature information is connected with the output of the BERT model as the input of another neural network model. In this paper, unlike previous studies, we propose a method using two input sentences. The proposed method does not affect the complexity of the existing model by adding case-frame-based semantic information to the second input column of the BERT model. By adding it as an input, it is possible to improve the SRL performance. The proposed method showed better performance than the state-of-the-art in both Korean and English SRL. The performance of SRL models using machine learning such as neural networks depends on the amount of training corpus. However, the amount of corpus in the Korean semantic role is only about 1/10 of the English training corpus, which shows somewhat low performance. In order to solve these problems, a new training corpus can be created, but this has a problem that requires a lot of cost and time. In this paper, we propose a method for automatically augmenting a semantic training corpus using a language model. The proposed method not only generates more natural sentences than the existing data augmentation method that utilizes external knowledge such as thesaurus, but also shows a higher performance improvement in SRL.
I. 서 론 1II. 연구 배경 62.1 의미역 결정 기존 연구 62.2 뉴럴 네트워크 기반 의미역 결정 연구 92.3 단어 임베딩 102.4 구문 분석 자질 11III. LSTM RNN 기반 한국어 의미역 결정 143.1 LSTM RNN-CRFs 모델 143.2 Stacked Bidirectional LSTM RNN-CRFs 모델 183.3 Highway Bidirectional LSTM RNN-CRFs 모델 19IV. BERT 기반 한국어 의미역 결정 214.1 Transformer 모델 214.2 BERT 모델 254.3 BERT 기반 한국어 의미역 결정 모델 284.4 격틀 사전 기반 의미 정보가 결합된 한국어 의미역 결정 모델 29V. 한국어 의미역 말뭉치 증강 연구 355.1 데이터 증강 필요성 및 기존 연구 355.2 기존 데이터 증강 연구의 문제점 395.3 한국어 의미역 말뭉치 증강 기법 41VI. 실험 평가 456.1 의미역 결정 태스크 정의 456.2 한국어 의미역 결정 학습 데이터 466.3 한국어 의미역 결정 모델 입력 자질 486.4 실험 결과 54VII. 결 론 61참고문헌 63Abstract 70