Pengembangan Model Akustik dengan Deep Neural Network untuk Sistem Pengenalan Wicara Bahasa Indonesia Berbasis Kaldi
Abstract
Penelitian ini berfokus pada pengembangan model akustik untuk pengenalan wicara bahasa Indonesia dengan menggunakan pendekatan Deep Neural Network (DNN). Teknologi pengenalan wicara bertujuan untuk mengubah ucapan manusia menjadi teks atau perintah yang dapat dipahami oleh komputer. Studi ini mengevaluasi tiga varian DNN populer, yaitu Time-Delay Neural Network (TDNN), Long Short-Term Memory (LSTM), dan kombinasi hibrida TDNN-LSTM untuk meningkatkan akurasi pengenalan wicara dalam bahasa Indonesia.
Tujuan penelitian ini adalah untuk membandingkan efektivitas model TDNN, LSTM, dan hibrida TDNN-LSTM dalam pengenalan wicara bahasa Indonesia. Penelitian menggunakan data wicara KDW-BPPT-50K-ASR1 dengan durasi lebih dari 92 jam, yang mencakup berbagai dialek utama di Indonesia. Data ini digunakan untuk melatih model akustik dan dilakukan eksperimen untuk menganalisis kinerja model tersebut. Eksperimen dilakukan dengan menggunakan toolkit Kaldi, yang menyediakan alat untuk melatih dan mengoptimalkan model DNN dengan efisien.
Dalam eksperimen, model TDNN diuji dengan enam variasi arsitektur berbeda, model LSTM diuji dengan empat variasi jumlah lapisan, dan model hibrida TDNN-LSTM diuji dengan dua ukuran model dan tiga nilai epoch yang berbeda. Hasil penelitian menunjukkan bahwa model hibrida TDNN-LSTM menghasilkan kinerja terbaik dengan Word Error Rate (WER) sebesar 9,67%, mengungguli TDNN dengan WER 12,16% dan LSTM dengan WER 10,6%. Model hibrida ini mampu mengintegrasikan kekuatan TDNN dalam menangani variabilitas waktu dan LSTM dalam memproses dependensi jangka panjang.
Penelitian ini memberikan kontribusi signifikan dalam pengembangan sistem pengenalan wicara bahasa Indonesia yang lebih akurat dan efisien. Hasil penelitian menunjukkan bahwa penggunaan model hibrida TDNN-LSTM dapat meningkatkan akurasi pengenalan wicara dibandingkan dengan penggunaan model TDNN atau LSTM secara terpisah. Temuan ini membuka peluang untuk pengembangan lebih lanjut dalam teknologi pengenalan wicara bahasa Indonesia dengan mengoptimalkan arsitektur model dan menguji model pada dataset yang lebih besar atau berbagai jenis tugas pengenalan wicara. This research focuses on developing acoustic models for Indonesian speech recognition using the Deep Neural Network (DNN) approach. Speech recognition technology aims to convert human speech into text or commands that computers can understand. This study evaluates three popular DNN variants, namely Time-Delay Neural Network (TDNN), Long Short-Term Memory (LSTM), and a hybrid TDNN-LSTM combination to improve the accuracy of Indonesian speech recognition.
This research aims to compare the effectiveness of TDNN, LSTM, and hybrid TDNN-LSTM models in Indonesian speech recognition. The research uses the KDW-BPPT-50K-ASR1 speech data for more than 92 hours, covering various major dialects in Indonesia. This data is used to train acoustic models, and experiments are conducted to analyze their performance. Experiments are performed using the Kaldi toolkit, which provides tools for efficiently training and optimizing DNN models.
In the experiments, the TDNN model is tested with six different architecture variations, the LSTM model is tested with four variations of the number of layers, and the hybrid TDNN-LSTM model is tested with two model sizes and three different epoch values. The results show that the hybrid TDNN-LSTM model achieves the best performance with a Word Error Rate (WER) of 9.67%, outperforming TDNN with a WER of 12.16% and LSTM with a WER of 10.6%. This hybrid model is able to integrate the strengths of TDNN in handling time variability and LSTM in processing long-term dependencies.
This research makes a significant contribution to the development of more accurate and efficient Indonesian speech recognition systems. The results show that using a hybrid TDNN-LSTM model can improve speech recognition accuracy compared to using TDNN or LSTM models separately. These findings open up opportunities for further development in Indonesian speech recognition technology by optimizing model architectures and testing models on larger datasets or different types of speech recognition tasks.
