반응형
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 회귀
- 시그모이드 함수
- iris
- sklearn
- 논리 회귀
- 요약
- RL
- CNN
- Logistic regression
- Sigmoid Function
- Gradient descent algorithm
- 정리
- Kaggle
- convolutional neural network
- Deep learning
- machine learning
- 비용 함수
- 강화학습
- 선형 회귀
- Neural network
- 딥 러닝
- cost function
- regression
- Logistic
- reinforcement learning
- data
- Q-Learning
- 합성곱 신경망
- 기울기 감소 알고리즘
- csv
Archives
- Today
- Total
컴공돌이의 스터디 블로그
[논문 리뷰] Improving Acoustic Model for English ASR System using Deep Neural Network 본문
논문 Study/논문 리뷰
[논문 리뷰] Improving Acoustic Model for English ASR System using Deep Neural Network
제갈초아 2020. 12. 6. 12:50제목: Improving Acoustic Model for English ASR System using Deep Neural Network
저자: Quoc Bao Nguyen, Tat Thang Vu, and Chi Mai Luong
논문 출처: The 2015 IEEE RIVF International Conference on Computing & Communication Technologies-Research, Innovation, and Vision for Future (RIVF)
초록
- In this paper, a method based on deep learning is applied to improve acoustic model for English Automatic Speech Recognition (ASR) system using two main approaches of deep neural network (Hybrid and bottleneck feature).
- 본 논문에서는 심층 신경망의 두가지 주요 접근 방식을 사용하여 영어 자동 음성 인식 시스템의 음향 모델을 개선시키기 위한 딥러닝 기반의 방법을 적용합니다.
- Deep neural networks systems are able to achieve significant improvements over a number of last year system.
- 심층 신경망 시스템은 지난 해의 시스템보다 상당한 개선을 달성할 수 있었습니다.
- The experiments are carried out on the dataset containing speeches on Technology, Entertainment, and Design (TED) Talks.
- 실험은 기술, 엔터테인먼트 및 디자인 (TED) 이야기에 대한 연설이 포함된 데이터셋에 대하여 수행되었습니다.
- The results show that applying Deep neural network decrease the relative error rate by 33% compared to the MFCC baseline system.
- 결과는 심층 신경망을 적용하면 MFCC 기준 시스템과 비교할 때 상대적 오류율이 33% 감소한다는 것을 보여줍니다.
용어 정리
- Acoustic Model: 음향 모델
- Automatic Speech Recognition(ASR): 자동음성인식
- Hidden Markov Model(HMM): 은닉 마르코프 모델
- Gaussian Mixture Model(GMM): 가우시안 혼합 모델
- Artificial Neural Network(ANN): 인공 신경망
- Emission Probability: 출력 확률
- Denoising AutoEncoder(DAE): 잡음제거 오토인코더
- Transition Probability: 전환 확률
- Hidden Layer: 은닉 층
- Restricted Boltzmann Machine(RBM): 제한된 볼츠만 머신
- Bottleneck: 병목
- Overfitting: 과적합
- Back Propagation: 역 전파
- Mel-Frequency Cepstral Coefficient(MFCC): 멜-주파수 셉트럴 계수
- Linear Discriminant Analysis(LDA): 선형 판별 분석
- Maximum Likelihood Linear Transformation(MLLT): 최대 우도 선형 변환
요점 정리
1. Introduction
- Acoustic Model은 ASR 시스템에서 중요한 구성요소
- 최근 음성인식 분야에 사용하는 Acoustic Model에는 HMM, GMM 등이 있음
- HMM, GMM은 음성 특징 벡터들이 주변 프레임들과는 상관없이 추출된다는 한계점이 존재
- 한계점을 극복하기 위하여 ANN을 HMM, GMM과 함께 사용
- ANN을 Acoustic Model에 통합하는 방법은 크게 hybrid system과 tandem system 2가지가 존재
- Hybrid system은 HMM의 Emmision Probability를 추정하기 위하여 신경망을 사용
- Tandem system은 GMM과 HMM 조합의 입력값을 생성하기 위하여 신경망을 사용
- DAE 기반 심층 신경망의 두가지 접근법을 사용하여 영어 ASR 시스템 Acoustic Model의 성능 향상을 연구
2. Acoustic Model in Speech Recognition
- 최근 Acoustic Model에서 HMM을 주로 사용되며 HMM은 이산 시계열 데이터 처리에 유용
- HMM은 State와 Transition 으로 구성되며 Transition은 Transition Probability로 지정됨
- 각각의 State들은 GMM으로 표현
3. Deep Neural Networks for Acoustic Modeling
- 심층 신경망은 네트워크가 분류작업을 할 수 있도록 적당한 수의 Hidden Layer로 구성됨
- 심층 신경망의 Hidden Layer들은 RBM을 사용하여 사전학습함으로써 Overfitting을 방지
- RBM을 통하여 실제 데이터를 구하는 것이 아니라 실제 데이터가 나올 확률을 구함
- DAE가 음성데이터에도 적합하기 때문에 이를 사용하여 Hidden Layer를 재구성하여 복원
- 모델은 Back Propagation을 통해 가중치들이 조정됨
- Hybrid DNN/HMM은 전화 상태의 후천적 Emission Probability를 계산
- Bottleneck 특징을 위한 심층 신경망에서 Bottleneck Layer에서 나온 결과를 GMM 모델에 사용하기 때문에 마지막 두 Layer는 폐기가 가능함
4. English ASR Systems
4.1. Training Corpus
- 920개의 Ted 강의를 Acoustic Model의 학습 데이터로 사용함
- 약 220시간의 데이터에서 음악과 박수소리들을 필터링하여 약 175시간의 데이터를 추출함
4.2. Baseline Systems
- 기준 HBB/GMM 시스템은 존스 홉킨스 대학에서 개발한 Kaldi로 수행됨
- MFCC, LDA, MLLT등의 기법을 사용함
- 모델에는 5,500개의 상태와 96,000개의 가우스 혼합 성분을 사용함
4.3. Network Training
- MFCC를 심층 신경망의 입력으로 사용
- 40 차원의 Splicing speaker-adapted features 형태로 전처리를 한 후 사용
5. Decoding Strategy and Results
- International Workshop on Spoken Language Translation(IWSLT)의 2012 development set과 2013 test set을 사용하여 시스템을 평가함
- 특징 추출 후, 기준 시스템으로 Decoding하고, Tandem 과 Hybrid Acoustic Model을 학습한 결과를 결함
- 다양한 Acoustic Model을 사용하여 영어 ASR 시스템의 성능을 도출한 결과 Deep BottleNeck Feature(DBNF)와 Hybrid 시스템을 결합하였을 때 성능이 가장 좋음을 확인
6. Conclusion
- In this work, we have shown the ways to improve acoustic model for English ASR systems using deep neural network.
- 이 작업에서 우리는 심층 신경망을 사용하여 영어 ASR 시스템의 Acoustic Model을 향상시키는 방법을 보여주었습니다.
- It was shown that applying both approaches of deep neural network increased the relative improvement in word error rate 15% over the best system using state-of-the art techniques for acoustic model.
- 심층 신경망의 두 접근방식을 모두 적용하면 최신 기술을 사용하였을 때보다 단어 오류율이 15% 이상 향상되는 것을 보였습니다.
- Our systems were tuned on a medium sized TED talk speech corpus, which increased the relative improvement in word error rate over the MFCC baseline to 33.3%.
- 우리의 시스템은 중간 사이즈의 TED 연설 자료를 사용하여 조정되었는데, MFCC 기준에 비해 단어 오류율이 33.3% 향상되었습니다.
- In the future, we intend to improve language model using deep neural network as in [8] as well as apply a hybrid DNN on top of deep bottleneck features [16] and multi-lingual network training approaches [17] to improve acoustic model for the systems.
- 향후, [8]과 같이 심층 신경망을 이용한 언어 모델을 개선하고, DBNF 보다 성능이 좋은 hybrid 심층 신경망, 다국어 네트워크 학습 방법을 적용하여 Acoustic Model의 성능을 개선하고자 합니다.
반응형
'논문 Study > 논문 리뷰' 카테고리의 다른 글
[논문 리뷰] User Interest and Social Influence Based Emotion Prediction for Individuals (0) | 2021.01.06 |
---|
Comments