[논문 리뷰] Improving Acoustic Model for English ASR System using Deep Neural Network

Notice

Recent Posts

Recent Comments

Link

« 2024/05 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

컴공돌이의 스터디 블로그

[논문 리뷰] Improving Acoustic Model for English ASR System using Deep Neural Network 본문

논문 Study/논문 리뷰

[논문 리뷰] Improving Acoustic Model for English ASR System using Deep Neural Network

제갈초아 2020. 12. 6. 12:50

제목: Improving Acoustic Model for English ASR System using Deep Neural Network

저자: Quoc Bao Nguyen, Tat Thang Vu, and Chi Mai Luong

논문 출처: The 2015 IEEE RIVF International Conference on Computing & Communication Technologies-Research, Innovation, and Vision for Future (RIVF)

초록

In this paper, a method based on deep learning is applied to improve acoustic model for English Automatic Speech Recognition (ASR) system using two main approaches of deep neural network (Hybrid and bottleneck feature).
본 논문에서는 심층 신경망의 두가지 주요 접근 방식을 사용하여 영어 자동 음성 인식 시스템의 음향 모델을 개선시키기 위한 딥러닝 기반의 방법을 적용합니다.

Deep neural networks systems are able to achieve significant improvements over a number of last year system.
심층 신경망 시스템은 지난 해의 시스템보다 상당한 개선을 달성할 수 있었습니다.

The experiments are carried out on the dataset containing speeches on Technology, Entertainment, and Design (TED) Talks.
실험은 기술, 엔터테인먼트 및 디자인 (TED) 이야기에 대한 연설이 포함된 데이터셋에 대하여 수행되었습니다.

The results show that applying Deep neural network decrease the relative error rate by 33% compared to the MFCC baseline system.
결과는 심층 신경망을 적용하면 MFCC 기준 시스템과 비교할 때 상대적 오류율이 33% 감소한다는 것을 보여줍니다.

용어 정리

Acoustic Model: 음향 모델
Automatic Speech Recognition(ASR): 자동음성인식
Hidden Markov Model(HMM): 은닉 마르코프 모델
Gaussian Mixture Model(GMM): 가우시안 혼합 모델
Artificial Neural Network(ANN): 인공 신경망
Emission Probability: 출력 확률
Denoising AutoEncoder(DAE): 잡음제거 오토인코더
Transition Probability: 전환 확률
Hidden Layer: 은닉 층
Restricted Boltzmann Machine(RBM): 제한된 볼츠만 머신
Bottleneck: 병목
Overfitting: 과적합
Back Propagation: 역 전파
Mel-Frequency Cepstral Coefficient(MFCC): 멜-주파수 셉트럴 계수
Linear Discriminant Analysis(LDA): 선형 판별 분석
Maximum Likelihood Linear Transformation(MLLT): 최대 우도 선형 변환

요점 정리

1. Introduction

Acoustic Model은 ASR 시스템에서 중요한 구성요소
최근 음성인식 분야에 사용하는 Acoustic Model에는 HMM, GMM 등이 있음
HMM, GMM은 음성 특징 벡터들이 주변 프레임들과는 상관없이 추출된다는 한계점이 존재
한계점을 극복하기 위하여 ANN을 HMM, GMM과 함께 사용
ANN을 Acoustic Model에 통합하는 방법은 크게 hybrid system과 tandem system 2가지가 존재
Hybrid system은 HMM의 Emmision Probability를 추정하기 위하여 신경망을 사용
Tandem system은 GMM과 HMM 조합의 입력값을 생성하기 위하여 신경망을 사용
DAE 기반 심층 신경망의 두가지 접근법을 사용하여 영어 ASR 시스템 Acoustic Model의 성능 향상을 연구

2. Acoustic Model in Speech Recognition

최근 Acoustic Model에서 HMM을 주로 사용되며 HMM은 이산 시계열 데이터 처리에 유용
HMM은 State와 Transition 으로 구성되며 Transition은 Transition Probability로 지정됨

각각의 State들은 GMM으로 표현

3. Deep Neural Networks for Acoustic Modeling

심층 신경망은 네트워크가 분류작업을 할 수 있도록 적당한 수의 Hidden Layer로 구성됨

심층 신경망의 Hidden Layer들은 RBM을 사용하여 사전학습함으로써 Overfitting을 방지
RBM을 통하여 실제 데이터를 구하는 것이 아니라 실제 데이터가 나올 확률을 구함
DAE가 음성데이터에도 적합하기 때문에 이를 사용하여 Hidden Layer를 재구성하여 복원
모델은 Back Propagation을 통해 가중치들이 조정됨
Hybrid DNN/HMM은 전화 상태의 후천적 Emission Probability를 계산

Bottleneck 특징을 위한 심층 신경망에서 Bottleneck Layer에서 나온 결과를 GMM 모델에 사용하기 때문에 마지막 두 Layer는 폐기가 가능함

4. English ASR Systems

4.1. Training Corpus

920개의 Ted 강의를 Acoustic Model의 학습 데이터로 사용함
약 220시간의 데이터에서 음악과 박수소리들을 필터링하여 약 175시간의 데이터를 추출함

4.2. Baseline Systems

기준 HBB/GMM 시스템은 존스 홉킨스 대학에서 개발한 Kaldi로 수행됨
MFCC, LDA, MLLT등의 기법을 사용함
모델에는 5,500개의 상태와 96,000개의 가우스 혼합 성분을 사용함

4.3. Network Training

MFCC를 심층 신경망의 입력으로 사용
40 차원의 Splicing speaker-adapted features 형태로 전처리를 한 후 사용

5. Decoding Strategy and Results

International Workshop on Spoken Language Translation(IWSLT)의 2012 development set과 2013 test set을 사용하여 시스템을 평가함
특징 추출 후, 기준 시스템으로 Decoding하고, Tandem 과 Hybrid Acoustic Model을 학습한 결과를 결함

다양한 Acoustic Model을 사용하여 영어 ASR 시스템의 성능을 도출한 결과 Deep BottleNeck Feature(DBNF)와 Hybrid 시스템을 결합하였을 때 성능이 가장 좋음을 확인

6. Conclusion

In this work, we have shown the ways to improve acoustic model for English ASR systems using deep neural network.
이 작업에서 우리는 심층 신경망을 사용하여 영어 ASR 시스템의 Acoustic Model을 향상시키는 방법을 보여주었습니다.

It was shown that applying both approaches of deep neural network increased the relative improvement in word error rate 15% over the best system using state-of-the art techniques for acoustic model.
심층 신경망의 두 접근방식을 모두 적용하면 최신 기술을 사용하였을 때보다 단어 오류율이 15% 이상 향상되는 것을 보였습니다.

Our systems were tuned on a medium sized TED talk speech corpus, which increased the relative improvement in word error rate over the MFCC baseline to 33.3%.
우리의 시스템은 중간 사이즈의 TED 연설 자료를 사용하여 조정되었는데, MFCC 기준에 비해 단어 오류율이 33.3% 향상되었습니다.

In the future, we intend to improve language model using deep neural network as in [8] as well as apply a hybrid DNN on top of deep bottleneck features [16] and multi-lingual network training approaches [17] to improve acoustic model for the systems.
향후, [8]과 같이 심층 신경망을 이용한 언어 모델을 개선하고, DBNF 보다 성능이 좋은 hybrid 심층 신경망, 다국어 네트워크 학습 방법을 적용하여 Acoustic Model의 성능을 개선하고자 합니다.

저작자표시 비영리 변경금지

'논문 Study > 논문 리뷰' 카테고리의 다른 글

[논문 리뷰] User Interest and Social Influence Based Emotion Prediction for Individuals (0)	2021.01.06

'논문 Study/논문 리뷰' Related Articles

[논문 리뷰] User Interest and Social Influence Based Emotion Prediction for Individuals 2021.01.06

Comments

컴공돌이의 스터디 블로그

[논문 리뷰] Improving Acoustic Model for English ASR System using Deep Neural Network 본문

[논문 리뷰] Improving Acoustic Model for English ASR System using Deep Neural Network

'논문 Study > 논문 리뷰' 카테고리의 다른 글

티스토리툴바