메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

장병용 (충북대학교, 충북대학교 대학원)

지도교수
권오욱
발행연도
2020
저작권
충북대학교 논문은 저작권에 의해 보호받습니다.

이용수6

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
In this paper, we propose a deep learning-based system for music detection and speech detection from broadcast contents. In addition, we propose a convolutional neural network to improve the performance of music detection and speech detection.
First, we analyze the characteristics of speech and music in broadcast contents. In the time domain, music has little change, but speech has large change. Accordingly, in the spectral domain, music shows straight horizontal lines but speech shows straight vertical lines. From this observation, we propose a convolutional neural network considering the characteristics of speech and music.
We propose a convolutional layer with Mel-scale kernel for music detection from broadcast contents. The Mel-scale changes the kernel size and the backpropagation algorithm trains the kernel shape. In order to verify the performance of the proposed model, we implement a comparison model. Our proposed model shows the best performance with F-score 89.9% in Korean broadcast data. In addition, our proposed model shows the best performance with 88.9% F-score in Spanish broadcast data, and 86.5% F-score in British broadcast data.
We propose a multi-scale time-dilated convolutional layer for speech detection from broadcast contents. Our proposed model is designed to learn the temporal changes of feature vectors. We implement a comparison model of convolutional neural network (CNN), recurrent neural network (RNN), convolutional recurrent neural network (CRNN), and ResNet architecture for performance comparison with the proposed model. Our proposed model shows the best performance with 91.7% F-score in Korean broadcast data. In addition, our model shows the best performance with 89.3% and 93.1% F-score in the British and Spanish broadcast data, respectively.
These experimental results show that the proposed convolutional neural networks contribute to the improvement of music detection and speech detection performance.

목차

Ⅰ. 서 론 1
1.1 연구 배경 1
1.2 기존 연구 2
1.3 연구 목표 4
1.4 논문 구성 5
Ⅱ. 배 경 이 론 7
2.1 오디오 신호의 특징 추출 7
2.2 오디오 검출 접근법 10
2.3 심층 학습 모델 구조 12
2.3.1 합성곱 신경망 12
2.3.2 순환 신경망 14
2.3.3 확장 합성곱 신경망 17
2.4 음악/음성 검출 결과의 성능 측정 18
Ⅲ. 방송 콘텐츠 데이터 22
3.1 방송 콘텐츠 데이터 구성 22
3.2 방송 콘텐츠에서의 음악과 음성 특성 분석 25
Ⅳ. 멜스케일 합성곱 신경망을 이용한 음악 검출 29
4.1 제안 알고리듬 29
4.1.1 음악 검출을 위한 구조도 31
4.1.2 학습 데이터 준비를 위한 데이터 혼합 32
4.1.3 특징 추출 34
4.1.4 멜스케일 합성곱 필터 34
4.1.5 멜스케일 합성곱 신경망 37
4.1.6 사후 처리 38
4.2 실험 방법 및 결과 40
4.2.1 학습 데이터와 검증 데이터 40
4.2.2 비교모델 43
4.2.3 모델 학습 및 선택 49
4.2.4 실험 결과 및 토의 51
Ⅴ. 시간 확장 합성곱 신경망을 이용한 음성 검출 65
5.1 제안 알고리듬 65
5.1.1 음성 검출을 위한 구조도 66
5.1.2 특징 추출 68
5.1.3 시간 확장 합성곱 69
5.1.4 다중 스케일 시간 합성곱 신경망 72
5.1.5 제안하는 모델 74
5.1.6 사후처리 76
5.2 실험 방법 및 결과 77
5.2.1 학습 데이터와 검증 데이터 77
5.2.2 비교모델 80
5.2.3 모델 학습 및 선정 88
5.2.4 실험 결과 및 토의 90
Ⅵ. 결 론 98
6.1 연구내용 요약 98
6.2 향후 연구과제 100
부록 A. MIREX 2018 음악 검출 경진 대회 101
부록 B. Residual network 105
참고문헌 107
감사의 글 115

최근 본 자료

전체보기

댓글(0)

0