메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

유수정 (숭실대학교, 숭실대학교 대학원)

지도교수
황규백
발행연도
2019
저작권
숭실대학교 논문은 저작권에 의해 보호받습니다.

이용수4

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
세포 내 모든 단백질을 연구하는 분야인 단백체학은 질병 진단 및 치료와 같은 많은 생의학 연구에서 활용되고 있다. 단백질은 그 구조에 따라 다양한 기능을 하는 것이 알려져 있으며, 이러한 단백질의 구조는 단백질을 구성하는 서열에 따라 결정된다. 그렇기 때문에 단백질의 서열을 아는 것은 단백체학 연구 전반에 중요하며, 단백질 서열 확인 방법으로 현재까지 단백질 이중질량분석 스펙트럼(MS/MS, tandem-MS)을 이용한 방법이 많이 사용되고 있다. 단백질의 작은 조각인 펩타이드는 MS/MS를 통해 대량의 스펙트럼을 생성하게 되고, 스펙트럼 매칭 과정을 거치며 각 스펙트럼에 해당하는 펩타이드 서열을 찾는다. 이 때 일반적으로 데이터베이스 검색을 통해 스펙트럼 매칭을 진행하게 되는데, 통계적인 방법이나 딥러닝을 이용한 정확한 스펙트럼 매칭 방법이 제시되어 왔다.
이러한 데이터베이스 검색 소프트웨어에서 더 많은 PSM (Peptide Spectrum Match, PSM)을 얻기 위해서는 최적의 검색 매개변수를 사용하는 것이 중요하다. 따라서 만일 스펙트럼 필터링 과정을 통해 양질의 스펙트럼만을 여과하여 최적의 검색 소프트웨어 매개변수의 학습에 사용할 수 있다면, 동일한 실험 과정으로 보다 정확하고 더 많은 PSM을 얻을 수 있을 것이다. 이외에도 스펙트럼 필터링은 펩타이드 동정의 시간적 효율성을 높일 수 있다. 일반적으로 데이터베이스 검색 소프트웨어에서 확인되는 질량 스펙트럼은 전체의 15∼40%정도만 동정되고 있기 때문에, 미리 여과된 양질의 스펙트럼만을 펩타이드 동정에 사용할 수 있다면, 단위 시간당 분석 가능한 데이터 수를 향상시킬 수 있으며, 전체적인 펩타이드 동정 파이프라인의 시간적 효율성을 높일 수 있다.
본 논문은 이러한 양질의 스펙트럼을 여과하기 위한 목적으로, LSTM (Long Short-Term Memory) 오토인코더를 활용한 스펙트럼의 특징(feature)추출을 연구하였다. 전체 791,364개의 스펙트럼 데이터를 실험에 사용하였고, 긴 시간 단계의 시계열 분석에 적합한 LSTM 및 BiLSTM (Bidirectional Long Short-Term Memory) 셀을 이용한 여러 가지 오토인코더 모델에 대해서 실험을 진행하였다. 결과적으로, 가변 길이 오토인코더를 사용했을 때 스펙트럼의 특징 추출이 고정 길이 오토인코더를 사용했을 때에 비해 좀 더 좋은 성능을 보였으며, LSTM에 비해 BiLSTM을 이용한 모델에서 성능이 더 우수했다. 본 논문의 결과는 오토인코더를 이용한 스펙트럼 특징 추출의 가능성을 제시한다.

목차

국문초록 ⅴ
영문초록 ⅶ
제 1 장 서 론 1
1.1 단백체학 1
1.2 펩타이드 동정 1
1.3 스펙트럼 필터링 3
1.4 연구 목적 4
제 2 장 관련 연구 5
제 3 장 오토인코더를 활용한 스펙트럼의 특징 추출 7
3.1 순환 신경망 셀 7
3.1.1 Long Short-Term Memory (LSTM) 7
3.1.2 Bidirectional Long Short-Term Memory (BiLSTM) 13
3.2 오토인코더 14
3.3 모델 구조 16
3.3.1 LSTM encoder-decoder network 16
3.3.2 LSTM encoder-decoder network의 변형 모델 17
3.3.3 BiLSTM Autoencoder 17
3.3.4 BiLSTM encoder-decoder network 19
3.4 가변 길이 모델 및 고정 길이 모델 20
3.4.1 가변 길이 모델 20
3.4.2 고정 길이 모델 21
제 4 장 실험 결과 22
4.1 실험 데이터 22
4.2 데이터 전처리 및 실험 설정 22
4.3 고정 길이 모델과 가변 길이 모델의 성능 비교 24
4.3.1 가변 길이 모델의 데이터 순서에 따른 성능 비교 24
4.3.2 고정 길이 모델과 가변 길이 모델의 성능 비교 25
4.4 BiLSTM encoder-decoder network의 구조별 성능 비교 분석 28
제 5 장 결 론 31
참고문헌 33

최근 본 자료

전체보기

댓글(0)

0