메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

원혜진 (국민대학교, 국민대학교 일반대학원)

지도교수
강승식
발행연도
2022
저작권
국민대학교 논문은 저작권에 의해 보호받습니다.

이용수16

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (4)

초록· 키워드

오류제보하기
최근 자연어 처리는 대규모의 학습 말뭉치와 대용량 모델을 기반으로 하는 다양한 연구들이 제안되고 있다. 자연어 처리 모델의 일반화 성능을 향상하기 위해서 대용량의 학습 말뭉치가 필요하기 때문에 학습 말뭉치 및 데이터에 대한 필요성과 수요가 날로 증가하고 있다. 하지만 학습 말뭉치의 규모와 더불어 잘못된 라벨링이나 오탈자처럼 데이터의 질 또한 학습 모델에 주요한 영향을 끼칠 수 있다는 연구들이 발표되면서 학습 데이터의 질에 대한 연구의 필요성이 요구되고 있다.
본 논문에서는 Multi-Pass 기반의 한국어 철자 오류 탐지 및 교정 방법을 제안하고 다양한 교정 방법들을 복합적으로 사용한 모델의 성능을 비교 및 분석하였다. 제안하는 탐지 및 교정 방법은 기존의 교정 방법들과 달리 입력 문장에서 철자 오류를 우선으로 탐지하고 탐지된 철자 오류에 대해 음절, 어절, 문맥 수준의 철자 교정 방법을 적용한다. 철자 오류 탐지에는 한국어 인코딩을 이용한 방법과 저빈도 음절 탐지 방법을 활용하였다. 음절, 어절, 문맥 수준의 철자 교정을 위해 각각 Trigram 언어 모델, Word2Vec, Copy Mechanism을 적용한 트랜스포머를 사용하였으며 각 수준의 모델들 조합을 통해 복합 교정 모델로 철자 교정을 수행하였다.
학습이나 검증에 사용되는 공개된 한국어 철자 교정 말뭉치가 없기 때문에 단일 및 복합 교정 모델의 성능을 평가하기 위해 KCC150에서 철자 오류가 의심되는 1,000개의 문장을 추출하여 학습 말뭉치를 구축하고 학습 및 검증에 사용하였다. 또한 단일 및 복합 교정 모델들의 성능을 비교 및 분석하기 위하여 혼동 행렬을 사용하였으며 정밀도, 재현율 , F1 점수를 이용해 성능을 측정하였다.
단일 및 복합 교정 모델의 비교 및 분석 결과, 교정 모델을 복합적으로 사용하는 경우 모델들 간의 간섭이 생길 수 있음을 확인하였으며 문맥 수준의 교정 모델이 전반적으로 철자 오류 교정 모델의 성능 향상에 도움을 줄 수 있음을 확인하였다.

목차

제 1장 서론 1
제 2장 관련 연구 10
2.1 사전 · 통계 기반 10
2.1.1 사전 기반 10
2.1.2 N-gram 11
2.2 딥러닝 기반 14
제 3장 철자교정 모델 17
3.1 철자 오류 탐지 18
3.1.1 인코딩 기반 탐지 18
3.1.2 음절 빈도 기반 탐지 19
3.2 철자 오류 교정 모델 20
3.2.1 후보어 생성 20
3.2.2 음절 수준 교정 23
3.2.3 어절 수준 교정 24
3.2.4 문맥 기반 교정 26
제 4장 실험 환경 및 데이터 31
4.1 실험 환경 31
4.2 학습 말뭉치 31
4.3 평가 말뭉치 35
4.4 성능 평가 지표 36
제 5장 실험 결과 및 분석 39
5.1 딥러닝 성능 평가 및 분석 39
5.2 Multi-Pass 성능 평가 및 분석 46
제 6장 결론 54
참 고 문 헌 56
Abstract 62

최근 본 자료

전체보기

댓글(0)

0