컴공돌이의 스터디 블로그

[논문 리뷰] Improving Acoustic Model for English ASR System using Deep Neural Network 본문

논문 Study/논문 리뷰

[논문 리뷰] Improving Acoustic Model for English ASR System using Deep Neural Network

제갈초아 2020. 12. 6. 12:50

제목: Improving Acoustic Model for English ASR System using Deep Neural Network

 

저자: Quoc Bao Nguyen, Tat Thang Vu, and Chi Mai Luong

 

논문 출처: The 2015 IEEE RIVF International Conference on Computing & Communication Technologies-Research, Innovation, and Vision for Future (RIVF)

 

 

초록

  • In this paper, a method based on deep learning is applied to improve acoustic model for English Automatic Speech Recognition (ASR) system using two main approaches of deep neural network (Hybrid and bottleneck feature).
  • 본 논문에서는 심층 신경망의 두가지 주요 접근 방식을 사용하여 영어 자동 음성 인식 시스템의 음향 모델을 개선시키기 위한 딥러닝 기반의 방법을 적용합니다.

 

  • Deep neural networks systems are able to achieve significant improvements over a number of last year system.
  • 심층 신경망 시스템은 지난 해의 시스템보다 상당한 개선을 달성할 수 있었습니다.

 

  • The experiments are carried out on the dataset containing speeches on Technology, Entertainment, and Design (TED) Talks.
  • 실험은 기술, 엔터테인먼트 및 디자인 (TED) 이야기에 대한 연설이 포함된 데이터셋에 대하여 수행되었습니다.

 

  • The results show that applying Deep neural network decrease the relative error rate by 33% compared to the MFCC baseline system.
  • 결과는 심층 신경망을 적용하면 MFCC 기준 시스템과 비교할 때 상대적 오류율이 33% 감소한다는 것을 보여줍니다.

용어 정리

  1. Acoustic Model: 음향 모델
  2. Automatic Speech Recognition(ASR): 자동음성인식
  3. Hidden Markov Model(HMM): 은닉 마르코프 모델
  4. Gaussian Mixture Model(GMM): 가우시안 혼합 모델
  5. Artificial Neural Network(ANN): 인공 신경망
  6. Emission Probability: 출력 확률
  7. Denoising AutoEncoder(DAE): 잡음제거 오토인코더
  8. Transition Probability: 전환 확률
  9. Hidden Layer: 은닉 층
  10. Restricted Boltzmann Machine(RBM): 제한된 볼츠만 머신
  11. Bottleneck: 병목
  12. Overfitting: 과적합
  13. Back Propagation: 역 전파
  14. Mel-Frequency Cepstral Coefficient(MFCC): 멜-주파수 셉트럴 계수
  15. Linear Discriminant Analysis(LDA): 선형 판별 분석
  16. Maximum Likelihood Linear Transformation(MLLT): 최대 우도 선형 변환

 

요점 정리

 

1. Introduction

  • Acoustic Model은 ASR 시스템에서 중요한 구성요소
  • 최근 음성인식 분야에 사용하는 Acoustic Model에는 HMM, GMM 등이 있음
  • HMM, GMM은 음성 특징 벡터들이 주변 프레임들과는 상관없이 추출된다는 한계점이 존재
  • 한계점을 극복하기 위하여 ANN을 HMM, GMM과 함께 사용
  • ANN을 Acoustic Model에 통합하는 방법은 크게 hybrid system과 tandem system 2가지가 존재
  • Hybrid system은 HMM의 Emmision Probability를 추정하기 위하여 신경망을 사용
  • Tandem system은 GMM과 HMM 조합의 입력값을 생성하기 위하여 신경망을 사용
  • DAE 기반 심층 신경망의 두가지 접근법을 사용하여 영어 ASR 시스템 Acoustic Model의 성능 향상을 연구

 

2. Acoustic Model in Speech Recognition

  • 최근 Acoustic Model에서 HMM을 주로 사용되며 HMM은 이산 시계열 데이터 처리에 유용
  • HMM은 State와 Transition 으로 구성되며 Transition은 Transition Probability로 지정됨

HMM 모델

  • 각각의 State들은 GMM으로 표현

GMM 수식 (1)
GMM 수식 (2)

 

3. Deep Neural Networks for Acoustic Modeling

  • 심층 신경망은 네트워크가 분류작업을 할 수 있도록 적당한 수의 Hidden Layer로 구성됨

Hybrid HMM/GMM을 위한 심층 신경망 구조
Bottleneck 특징을 위한 심층 신경망 구조

  • 심층 신경망의 Hidden Layer들은 RBM을 사용하여 사전학습함으로써 Overfitting을 방지
  • RBM을 통하여 실제 데이터를 구하는 것이 아니라 실제 데이터가 나올 확률을 구함
  • DAE가 음성데이터에도 적합하기 때문에 이를 사용하여 Hidden Layer를 재구성하여 복원
  • 모델은 Back Propagation을 통해 가중치들이 조정됨
  • Hybrid DNN/HMM은 전화 상태의 후천적 Emission Probability를 계산

Emission Probability 수식

  • Bottleneck 특징을 위한 심층 신경망에서 Bottleneck Layer에서 나온 결과를 GMM 모델에 사용하기 때문에 마지막 두 Layer는 폐기가 가능함

 

4. English ASR Systems

4.1. Training Corpus

  • 920개의 Ted 강의를 Acoustic Model의 학습 데이터로 사용함
  • 약 220시간의 데이터에서 음악과 박수소리들을 필터링하여 약 175시간의 데이터를 추출함

4.2. Baseline Systems

  • 기준 HBB/GMM 시스템은 존스 홉킨스 대학에서 개발한 Kaldi로 수행됨
  • MFCC, LDA, MLLT등의 기법을 사용함
  • 모델에는 5,500개의 상태와 96,000개의 가우스 혼합 성분을 사용함

4.3. Network Training

  • MFCC를 심층 신경망의 입력으로 사용
  • 40 차원의 Splicing speaker-adapted features 형태로 전처리를 한 후 사용

 

5. Decoding Strategy and Results

  • International Workshop on Spoken Language Translation(IWSLT)의 2012 development set과 2013 test set을 사용하여 시스템을 평가함
  • 특징 추출 후, 기준 시스템으로 Decoding하고, Tandem 과 Hybrid Acoustic Model을 학습한 결과를 결함

Decoding 구조

  • 다양한 Acoustic Model을 사용하여 영어 ASR 시스템의 성능을 도출한 결과 Deep BottleNeck Feature(DBNF)와 Hybrid 시스템을 결합하였을 때 성능이 가장 좋음을 확인

Acoustic Model들의 영어 ASR 결과

 

6. Conclusion

  • In this work, we have shown the ways to improve acoustic model for English ASR systems using deep neural network. 
  • 이 작업에서 우리는 심층 신경망을 사용하여 영어 ASR 시스템의 Acoustic Model을 향상시키는 방법을 보여주었습니다.

 

  • It was shown that applying both approaches of deep neural network increased the relative improvement in word error rate 15% over the best system using state-of-the art techniques for acoustic model.
  • 심층 신경망의 두 접근방식을 모두 적용하면 최신 기술을 사용하였을 때보다 단어 오류율이 15% 이상 향상되는 것을 보였습니다.

 

  • Our systems were tuned on a medium sized TED talk speech corpus, which increased the relative improvement in word error rate over the MFCC baseline to 33.3%.
  • 우리의 시스템은 중간 사이즈의 TED 연설 자료를 사용하여 조정되었는데, MFCC 기준에 비해 단어 오류율이 33.3% 향상되었습니다.

 

  • In the future, we intend to improve language model using deep neural network as in [8] as well as apply a hybrid DNN on top of deep bottleneck features [16] and multi-lingual network training approaches [17] to improve acoustic model for the systems.
  • 향후, [8]과 같이 심층 신경망을 이용한 언어 모델을 개선하고, DBNF 보다 성능이 좋은 hybrid 심층 신경망, 다국어 네트워크 학습 방법을 적용하여 Acoustic Model의 성능을 개선하고자 합니다.
반응형
Comments