Pendekatan berbasis Deep Neural Network (DNN) menawarkan akurasi yang lebih tinggi dibandingkan dengan metode tradisional seperti Hidden Markov Model (HMM)-Gaussian Mixture Model (GMM) dalam pengembangan model akustik. Dalam penelitian ini, tiga varian DNN populer dievaluasi: Time-Delay Neural Network (TDNN), Long Short-Term Memory (LSTM), dan kombinasi hibrid TDNN-LSTM untuk pengembangan model akustik dalam pengenalan wicara bahasa Indonesia. Data wicara yang digunakan adalah KDW-BPPT-50K-ASR1 dengan durasi lebih dari 92 jam, model akustik dilatih dan eksperimen dilakukan untuk menganalisis kinerjanya. Hasil penelitian menunjukkan bahwa model hibrid TDNN-LSTM mencapai kinerja terbaik dengan Word Error Rate (WER) sebesar 9,67%, mengungguli TDNN dengan WER 12,16% dan LSTM dengan WER 10,6%. Penemuan ini menegaskan bahwa model hibrid mampu meningkatkan akurasi pengenalan wicara bahasa Indonesia dibandingkan dengan penggunaan TDNN atau LSTM secara terpisah. Hasil ini memberikan kontribusi penting bagi pengembangan sistem pengenalan wicara yang lebih akurat dan efisien.