뉴럴 네트워크를 이용한 한국어 의미역 결정 :Korean Semantic Role Labeling with Neural Networks

배장성

추천

검색

자료유형: 학위논문

저자정보: 배장성 (강원대학교, 강원대학교 대학원)

지도교수: 이창기

발행연도: 2022

저작권: 강원대학교 논문은 저작권에 의해 보호받습니다.

이용수33

이 논문의 연구 히스토리 (9)

2022

뉴럴 네트워크를 이용한 한국어 의미역 결정

배장성 컴퓨터 2022.01 학위논문

2020

한국어 의미역 결정을 위한 BERT 기반 데이터 증축 기법

배장성 , 이창기 , 임준호 외 1명 한국정보과학회 학술발표논문집 2020.07 학술대회자료

2019

격틀 사전과 BERT를 이용한 한국어 의미역 결정

배장성 , 이창기 한국정보과학회 학술발표논문집 2019.12 학술대회자료

BERT를 이용한 한국어 의미역 결정

배장성 , 이창기 , 임수종 외 1명 한국정보과학회 학술발표논문집 2019.06 학술대회자료

2017

Highway BiLSTM-CRFs 모델을 이용한 한국어 의미역 결정

배장성 , 이창기 , 김현기 한국어정보학회 학술대회 2017.01 학술대회자료

2016

딥 러닝을 이용한 한국어 의미역 결정

배장성 컴퓨터과학과 2016.01 학위논문

Input-feeding RNN Search 모델과 CopyNet을 이용한 한국어 의미역 결정

배장성 , 이창기 한국어정보학회 학술대회 2016.01 학술대회자료

2015

Bidirectional LSTM CRF를 이용한 End-to-end 한국어 의미역 결정

배장성 , 이창기 한국정보과학회 학술발표논문집 2015.12 학술대회자료

딥 러닝을 이용한 한국어 의미역 결정

배장성 , 이창기 , 임수종 한국정보과학회 학술발표논문집 2015.06 학술대회자료

이 논문의 후속연구가 궁금하신가요?
연관 학술논문 또는 학술발표를 통해 보다 발전된 연구결과를 확인하실 수 있습니다.
이 논문의 연구 히스토리 확인하기

초록· 키워드

오류제보하기

의미역 결정(semantic role labeling)은 자연어 문장에서 “누가, 무엇을, 어떻게, 왜” 등의 의미적 관계를 분석하는 자연어 처리의 한 응용이다. 의미역 결정은 자연어 처리의 의미 분석 단계에 해당하며 질의 응답과 정보 추출과 같은 다른 자연어 처리 응용의 주요 자질로 활용되고 있다. 최근 수년간 인터넷의 발달로 온라인 및 모바일 생활이 증가하며 기존 사람이 수행하던 고객 서비스를 비롯한 다양한 업무들이 자연어 처리 기반의 인공 지능 시스템으로 빠르게 대체되고 있으며 그 중요도가 날로 높아지고 있다. 이에 따라 의미역 결정 연구의 필요성 또한 날로 커져가고 있다.
과거 의미역 결정 연구는 구문 분석 정보와 얕은 기계 학습 모델을 이용한 연구가 많이 수행되었으나, 최근에는 뉴럴 네트워크(neural network)와 대량의 말뭉치(corpus)를 이용한 연구가 많이 수행되고 있다. 구문 분석 정보는 의미역 결정과 매우 밀접한 연관이 있어 지금까지도 많은 의미역 결정 연구에 사용되고 있지만 구문 분석 단계에서 발생할 수 있는 오류가 전파되는 문제점과 의미역 결정을 수행하기 이전에 구문 분석이 수행되어야 하는 문제점이 있다. 따라서 본 논문에서는 구문 분석 정보를 사용하지 않는 뉴럴 네트워크 기반 한국어 의미역 결정 모델을 제안하고 구문 분석 정보 없이도 한국어 의미역 결정을 잘 수행할 수 있음을 보인다.
언어 모델을 통해 학습되는 단어 임베딩(word embedding)은 자연어 문장을 컴퓨터가 계산할 수 있는 형태로 표현해주는 것으로 각 자연어 처리 응용 성능에 많은 영향을 미치게 된다. 최근 Bidirectional Encoder Representations from Transformer(BERT)라는 언어 모델이 등장하여 기존 언어 모델을 앞서는 성능을 보이고 있다. 이 모델은 적용되는 각 자연어 처리 응용에 따라 한 개 또는 두 개의 문장을 모델의 입력으로 사용한다. BERT 모델을 의미역 결정에 적용하는 여러 연구들은 이 모델의 입력으로 의미역을 결정할 한 개의 문장만을 모델의 입력으로 사용하고 그 외의 자질 정보는 BERT 모델의 출력과 함께 연결하여 다른 뉴럴 네트워크 모델의 입력으로 사용한다. 본 논문에서는 기존 연구들과 달리 두 개의 입력 문장 모두를 의미역 결정에 활용하는 방법을 제안한다. 제안된 방법은 BERT 모델의 두번째 입력 열에 격틀 사전(case-frame) 기반 의미 정보를 추가하여 기존 모델의 복잡도에 영향을 주지 않으며, 동시에 의미역 결정에서 가장 중요한 정보로 볼 수 있는 의미 정보를 모델의 입력으로 추가하여 의미역 결정 성능 향상이 가능하다. 실험을 통해 확인한 결과 제안된 방법은 한국어 의미역 결정과 영어 의미역 결정 모두에서 최신 기술보다 우수한 성능을 보였다.
뉴럴 네트워크와 같은 기계 학습을 이용한 의미역 결정 모델의 성능은 학습 말뭉치의 양에 의해 좌우된다. 그러나 한국어 의미역 말뭉치의 양은 영어 학습 말뭉치의 약 1/10에 불과하고 이로 인해 다소 낮은 성능을 보이고 있다. 이러한 문제점을 해결하기 위해 학습 말뭉치를 새로 만들 수 있지만, 이는 많은 비용과 시간이 필요한 문제점이 있다. 본 논문에서는 언어 모델을 활용해 자동으로 의미역 학습 말뭉치를 증강할 수 있는 방법을 제안한다. 제안한 방법은 시소러스(thesaurus)와 같은 외부 지식을 활용하는 기존 데이터 증강 방법보다 더 자연스러운 문장을 생성할 뿐만 아니라 의미역 결정에서 더 높은 성능 향상을 보였다. 결과적으로, 본 논문에서 제안한 한국어 의미역 결정 모델과 데이터 증강 방법이 의미역 결정 성능 향상에 큰 기여를 하고 있음을 알 수 있었다.

Semantic role labeling (SRL) is an application of natural language processing that analyzes semantic relationships such as “who, what, how, and why” in natural language sentences. SRL corresponds to the semantic analysis stage of natural language processing, and is used as a key feature of other natural language processing applications such as question answering and information extraction. With the development of the Internet in recent years, online and mobile life has increased, and various tasks, including customer service, that were previously performed by humans are rapidly being replaced by Artificial Intelligence systems based on natural language processing, and their importance is increasing day by day. Accordingly, the need for SRL study is also increasing day by day.
In the past, many studies have been conducted using syntax analysis information and shallow machine learning models, but recently, many studies have been conducted using neural networks and large corpus. Syntax analysis information is very closely related to SRL, so it is still used in many SRL studies, but there are problems in that errors that may occur in the parsing stage are propagated and that syntax parsing must be performed before SRL is performed. Therefore, in this paper, we propose a neural network-based Korean SRL baseline model that does not use syntax analysis information and show that Korean SRL can be performed well without syntax analysis information.
Word embedding, which is learned through a language model, expresses natural language sentences in a form that can be calculated by a computer, which greatly affects the performance of each natural language processing application. Recently, a language model called Bidirectional Encoder Representations from Transformer (BERT) has emerged, surpassing the existing language model. This model uses one or two sentences as input to the model according to each natural language processing application applied. Several studies that apply the BERT model to SRL use only one sentence to determine the semantic role as the input of this model, and other feature information is connected with the output of the BERT model as the input of another neural network model. In this paper, unlike previous studies, we propose a method using two input sentences. The proposed method does not affect the complexity of the existing model by adding case-frame-based semantic information to the second input column of the BERT model. By adding it as an input, it is possible to improve the SRL performance. The proposed method showed better performance than the state-of-the-art in both Korean and English SRL.
The performance of SRL models using machine learning such as neural networks depends on the amount of training corpus. However, the amount of corpus in the Korean semantic role is only about 1/10 of the English training corpus, which shows somewhat low performance. In order to solve these problems, a new training corpus can be created, but this has a problem that requires a lot of cost and time. In this paper, we propose a method for automatically augmenting a semantic training corpus using a language model. The proposed method not only generates more natural sentences than the existing data augmentation method that utilizes external knowledge such as thesaurus, but also shows a higher performance improvement in SRL.

#의미역 결정 #한국어 의미역 결정 #뉴럴 네트워크 #딥러닝 #BERT #격틀 사전 #데이터 증강

I. 서 론 1
II. 연구 배경 6
2.1 의미역 결정 기존 연구 6
2.2 뉴럴 네트워크 기반 의미역 결정 연구 9
2.3 단어 임베딩 10
2.4 구문 분석 자질 11
III. LSTM RNN 기반 한국어 의미역 결정 14
3.1 LSTM RNN-CRFs 모델 14
3.2 Stacked Bidirectional LSTM RNN-CRFs 모델 18
3.3 Highway Bidirectional LSTM RNN-CRFs 모델 19
IV. BERT 기반 한국어 의미역 결정 21
4.1 Transformer 모델 21
4.2 BERT 모델 25
4.3 BERT 기반 한국어 의미역 결정 모델 28
4.4 격틀 사전 기반 의미 정보가 결합된 한국어 의미역 결정 모델 29
V. 한국어 의미역 말뭉치 증강 연구 35
5.1 데이터 증강 필요성 및 기존 연구 35
5.2 기존 데이터 증강 연구의 문제점 39
5.3 한국어 의미역 말뭉치 증강 기법 41
VI. 실험 평가 45
6.1 의미역 결정 태스크 정의 45
6.2 한국어 의미역 결정 학습 데이터 46
6.3 한국어 의미역 결정 모델 입력 자질 48
6.4 실험 결과 54
VII. 결 론 61
참고문헌 63
Abstract 70

최근 본 자료

전체보기

구분	그룹	데이터 항목
AI 학습용 데이터	원문	원문 PDF 파일
AI 학습용 데이터	원문 + 메타 (기본/상세)	원문 PDF 파일 및 서지정보 CSV
대량 구매용 데이터	B2B 구독 방식	특정 자료 한정으로 원문 접근 권한 부여
대량 구매용 데이터	URL 전달 방식	바로 PDF 뷰어를 열람할 수 있는 URL 제공

구분	그룹	데이터 항목
AI 학습용 데이터	기본 메타	발행기관명, 간행물명, 권호명, 권(vol), 호(issue), 통권, 발행연도, 발행월, 논문명, 저자명, 시작페이지, 종료페이지, 전체페이지, 상세페이지URL
상세 메타 데이터	발행기관 메타	발행기관 이명, 영문명, 창립연도, 홈페이지URL, 발행기관 소개
	간행물 메타	부제목, 간행물 유형, ISSN, ISBN, 최초발행연도, 폐간연도, 간행빈도, 발행주기, 등재사항, 이용수, 피인용수, 권호수, 논문수, 표지이미지
	논문 메타	작성 언어, 부제목, 대등제목, 목차, 키워드, 초록, 이미지, 참고문헌, 이용수, 피인용수, 논문활용도, DBpia통합주제분류, KDC분류, DDC분류, 한국연구재단분류, UCI, DOI
	저자 메타	소속기관, 소속부서, 직급, 연구분야, 연구키워드, 이용수, 피인용수, 저자 논문활용도

구분	그룹	데이터 항목
※ 결합형/맞춤형 메타 데이터는 신청 내용에 따라 다양하게 제공 가능
이용순위 정보	주제분야별 많이 이용된 논문	“인문학”에서 많이 이용된 논문 TOP100
	이용기관별 많이 이용된 논문	“중고등학교”에서 많이 이용된 논문 TOP100
	세부기관별 많이 이용된 논문	“서울대학교”에서 많이 이용된 논문 TOP100
	키워드별 많이 이용된 논문	“Chat GPT”에서 많이 이용된 논문 TOP100
키워드 정보	많이 이용된 키워드	특정기간/분야/저널 내 많이 이용된 키워드
	많이 발행된 키워드	특정기간/분야/저널 내 많이 발행된 키워드
	많이 검색된 키워드	특정기간/분야/저널 내 많이 검색된 키워드
	연구 트렌드 키워드	특정 키워드 연관 연구동향 분석 데이터 키워드

논문 기본 정보

이 논문의 연구 히스토리 (9)

초록· 키워드

목차

최근 본 자료

댓글(0)