selamat datang di blog kecerdasan buatan

welcome to my blog

tugas ke 5

a. Makalah Aplikasi JST

APLIKASI JARINGAN SYARAF TIRUAN UNTUK PENGENALAN
SUARA PADA LINGKUNGAN BERDERAU
 
Hesti Susilawati, Thomas Sri Widodo, dan Adhi Susanto

Abstract
This research was aimed at supporting a system which is capable of recognizing speech by Indonesian speakers in clean speech and noisy speech, so the network can recognize the words in noisy environment. The speech to be recognize was specifically on the following words: “ibu”, “campur”, “daftar”, “janji”, “kantor”. Training samples were taken from adult speakers of different sexes. The method used for speech recognition was based on “backpropagation’. The patterns of speech were be recognized after some feature extraction processes and classifications are carried out. A neural network system will be able to recognize input patterns, which have certain similarities with those given in the training process. During the training period the network carried out the feature extraction processes followed by classifications in which similar input patterns were classified into one class. The trained network was then tested. For a given input vector the network gave an output vector according to the class of the input pattern. The test results gave 80,8 % fidelity for independent speech recognition in clean speech. Meanwhile, the tests in noisy speech for the words “ibu” gave 87 % successes for SNR = 36 and the network couldn’t recognize noisy speech with SNR = 0,01.

Keywords: backpropagation, neural network, clean speech, noisy speech, SNR (Signal to Noise Ratio)




Pendahuluan

Latar Belakang Masalah
Pengenalan suara dalam lingkungan berderau ini terkait dengan proses pengenalan suara tanpa derau. Masalah pengenalan ucapan ini menarik dan penting karena adanya permasalahan dalam identifikasi pembicara karena variasi pengucapan setiap suku kata, apalagi bila ditumpangi dengan derau. Perbedaan tersebut dapat disebabkan oleh gaya bicara, warna suara, kondisi emosional pembicara, jenis kelamin, umur dan sebagainya. Dari permasalahan tersebut muncul pertanyaan bagaimana memperoleh cara yang terbaik dan efektif di dalam mengenali suatu sinyal ucapan. Dan bagaimana supaya pola yang terbaik tersebut dapat dipakai untuk memisahkan derau dari sinyal suara. Untuk menjawab pertanyaan tersebut di atas, penulis mencoba memilih Jaringan syaraf tiruan dengan metode back propagation.

Tinjauan Pustaka
Penelitian mengenai pengenalan suara juga sudah berlangsung sejak tahun 1980-an. Namun tidak terlalu berkembang, karena tidak efisiennya perangkat keras. Kemudian pada tahun 1990-an penelitian tentang pola tutur muncul setelah munculnya jaringan syaraf tiruan untuk pengenalan pola [Kosko, 1992]. Dalam penelitian ini akan dikembangkan lagi pengenalan pola suara yang ditumpangi derau, dan kemudian menjadi masalah yang penting mengingat keterbatasan yang dimiliki oleh tapis-tapis digital yang membutuhkan waktu komputasi dan parameter yang cukup rumit [Kohonen, 1988]. Penelitian untuk menghasilkan sebuah perkiraan bersih dari suara dilakukan dengan pemodelan statistik yang biasa adalah Hidden Markov Models, dan Artificials Neural Network, [Moreno, 1996]. Dilatih dengan menggunakan suara yang bersih, dengan parameter model kemudian disesuaikan untuk mengakomodasi suara berderau.

Landasan Teori
Karakteristik yang sangat spesifik suatu sinyal suara diakibatkan oleh adanya perbedaan struktur fisiologi dan aspek-aspek pembawaan (behavior) di dalam masing-masing individu. Sinyal suara yang diperoleh dari hasil perekaman, diolah oleh komputer dengan algoritma FFT (Fast Fourier Transform), sehingga diperoleh sinyal digital. Sinyal digitalnya kemudian dicuplik dan diuraikan. Hasil ekstraksi ciri dengan metode FFT tersebut kemudian menjadi input pada jaringan syaraf tiruan.

Jaringan Syaraf Tiruan
Algoritma jaringan syaraf tiruan yang mengikuti arsitektur perambatan balik adalah sebagai berikut :
1. Model jaringan adalah jaringan perambatanbalik (backpropagation) dengan sistem pembelajaran terbimbing. Arsitektur jaringan dapat dilihat pada gambar berikut:

Algoritma pelatihan adalah sebagai berikut :
1. Inisialisasi bobot (tetapkan dengan nilai acak kecil antara –1 dan 1)
2. Selama syarat berhenti salah, kerjakan langkah 2 – 9.
Umpanmaju
3. Setiap unit masukan ( Xi , i = 1, …, n ) menerima sinyal masukan Xi dan meneruskan sinyal ini ke semua unit di dalam lapisan unit tersembunyi. Bilangan n pada penelitian ini adalah 129 (seharusnya 128, setengah koefisien Fourier yang digunakan , tetapi disini komponen pertama sinyal keluaran FFT berikut).
4. Setiap unit tersembunyi (Zj , j = 1, …, p) menjumlahkan sinyal masukan
terbobotnya.
 
Perambatanbalik galat
6. Setiap unit keluaran ( Yk , k=1, …, m ) menerima pola target sesuai dengan pola masukan pelatihan, hitung suku informasi galatnya.
 
Hitung suku koreksi bobot yang digunakan untuk memperbaharui Wjk nantinya.
kemudian kirim ek ke unit-unit di lapisan di bawahnya.
7. Setiap unit tersembunyi ( Zj , j = 1, …, p ) menjumlahkan masukan galatnya
(dari unit-unit keluaran).
kemudian kirim ek ke unit-unit di lapisan di bawahnya.
7. Setiap unit tersembunyi ( Zj , j = 1, …, p ) menjumlahkan masukan galatnya
(dari unit-unit keluaran).
9. Uji syarat berhenti.
Metode Penelitian
Adapun tahap-tahap penelitiannya dapat diuraikan sebagai berikut:
1. Pada Tahap awal dilakukan pengambilan data, yaitu melakukan perekaman ucapan vokal 100 penutur. Setiap penutur mengucapkan lima kata yaitu ibu, campur, daftar, janji, kantor. Kemudian disimpan dalam satu berkas dengan format WAV.
2. Tahap kedua, dilakukan ekstraksi ciri dari data hasil rekaman yang telah disimpan dalam berkas dengan format WAV. Ekstraksi ciri ini dilakukan penapisan digital tiap data ucapan dengan menggunakan jendela Hanning dan transformasi Fourier cepat (FFT = Fast Fourier Transform). Hasil penapisan yang diperoleh adalah spektrum frekuensi, kemudian dinormalisasi sehingga terbentuk data berupa vektor.
3. Tahap ketiga dilakukan proses membangun jaringan syaraf . Model jaringan adalah jaringan perambatanbalik (backpropagation) dengan system pembelajaran terbimbing.
4. Tahap keempat, dilakukan proses pelatihan klasifikasi atas pola-pola hasil ekstraksi ciri menjadi 5 kelas sebagai target. Pada saat pelatihan jaringan syaraf tiruan dikenalkan beberapa macam pola. Data pola pelatihan diambil dari hasil perhitungan statistik dengan SPSS 10, dengan analisis ANOVA. Pelatihan dilakukan secara terbimbing dengan merelasikan pola masukan dengan kelaskelas tujuan (target). Hasil dari pelatihan berupa matriks bobot yang disimpan untuk dipanggil pada saat proses pengujian.
5. Tahap kelima, yaitu pengujian terhadap kemampuan sistem jaringan yang sudah dilatih. Pada proses pengujian ini digunakan bobot yang diperoleh pada hasil pelatihan. Sebagai masukan jaringan digunakan data yang telah disimpan dalam format DAT yang telah diekstraksi cirinya. Data pengujian terdiri atas dua macam, yaitu data suara bersih dan data suara yang telah tercampur derau, dan data tersebut sudah diekstraksi dan disimpan dalam file DAT.
b. Pembahasan
Pada bab ini akan diuraikan hasil pembahasan yang telah dilakukan meliputi proses perekaman, ekstraksi ciri, dan klasifikasi dengan jaringan syaraf tiruan. Proses perekaman dan ekstraksi cirri merupakan upaya untuk mendapatkan bentuk gelombang ucapan kata (kawasan waktu) dan proses ekstraksi ciri akan menghasilkan bentuk pola ciri ucapan kata oleh masing-masing penutur. Hasil perekaman dan ekstraksi ciri atas kata: ‘ibu, campur, daftar, janji, dan kantor’ , kemudian sinyal-sinyal yang ditumpangi derau putih Gaussian, sebelum diekstraksi. Terdapat 100 penutur yang terdiri atas 79 pria dan 21 wanita dewasa. Dalam pengenalan pola ini akan diujikan kesemuanya dengan cara mencari pola pelatihan yang paling cocok.
Untuk memperoleh jaringan terbaik, maka harus diperhatikan pengaruh parameter-parameter jaringan syaraf tiruan. Parameter tersebut adalah laju pembelajaran (beta), momentum (alpha), jumlah iterasi dan penentuan jaringan terbaik dengan variasi pola pelatihan dan jumlah lapis tersembunyi. Dari hasil penelitian diketahui bahwa semakin tinggi laju belajar, maka jumlah iterasi untuk mencapai galat minimum semakin kecil. Sedangkan dengan pemakaian momentum akan semakin memperkecil jumlah iterasi. Tetapi pada keadaan tertentu dengan laju belajar tinggi justru mengakibatkan galat terpental pada galat minimum lokal. Sedangkan pengaruh jumlah iterasi adalah semakin tinggi jumlah iterasi, maka galat cenderung semakin rendah dan waktu pembelajaran semakin singkat.
Dalam penelitian ini pemilihan data pola pelatihan dan jumlah pola pelatihan sangat menentukan. Penetuan pola pelatihan dilakukan dengan SPSS 10. dengan analisis ANOVA berdasarkan variansnya. Setelah dilakukan proses pelatihan, maka ditemukan bobot terbaik, yaitu pada pola pelatihan dengan 3 lapis tersembunyi pada variasi sel tersembunyi 10-50-100. Dengan ketentuan laju pembelajaran 0,01, momentum 0,03 dan toleransi galat 0,002. Mencapai tingkat keberhasilan tertinggi untuk pengenalan suara pada suara bersih yaitu 80,8 %. Hasil selengkapnya seperti pada tabel 1 berikut ini. Kemudian dilakukan pengujian pada lingkungan berderau.
 
pelatihan dilakukan hanya untuk masing-masing satu jenis kata saja. Sehingga sinyal yang diterima sama dianggap sama dengan yang dilatihkan. Pada Tabel 3 atau Gambar 2 dengan ketentuan seperti pada jaringan pengenalan ucapan tanpa derau terbaik, terlihat bahwa kemampuan jaringan dalam mengenali ucapan kata sampai dengan tingkat SNR 0,02. Jadi jaringan ini memiliki kualitas yang cukup bagus. Sedangkan pada SNR 36 tingkat pengenalannya mendekati pengenalan sinyal asli, yaitu 87 % (pada pengenalan sinyal asli mampu dikenali 90%), dan tidak mampu mengenali ucapan pada tingkat SNR 0,01 atau nilai NF 0,3. Sedangkan kemampuan optimum pada SNR 36 sampai SNR 0,56. Hasil di atas memberi harapan menuju sistem komputer cerdas yang dilengkapi dengan sistem jaringan syaraf tiruan untuk memberi kemampuan pengenalan ucapan kata untuk pola pelatihan 33 pola untuk lima kata mempunyai kemampuan pengenalan tertinggi adalah 80,8 %, dan kemampuan pengenalan satu jenis kata yaitu kata ‘ibu’ untuk ucapan yang sudah tertambah derau memiliki kemampuan pengenalan mencapai 87 % untuk tingkat SNR 36, dan tidak mampu mengenali pada tingkat SNR 0,01. Dari hasil di atas terbukti kemampuan jaringan syaraf untuk pengenalan kata baik untuk lingkungan yang bersih, dan untuk lingkungan berderau terbukti cukup baik.
c. Kesimpulan
Dari hasil penelitian dan pembahasan yang telah dilakukan, dapat ditarik kesimpulan sebagai berikut:
1. Jaringan syaraf tiruan “Backpropagation” dapat digunakan sebagai jaringan yang mampu mengenali ucapan kata dengan cukup baik.
2. Tingkat keberhasilan pengenalan ditentukan oleh banyaknya lapisan pada jaringan, jumlah sel pada tiap lapisan, laju pembelajaran yang dipakai, dan banyaknya pola yang dilatihkan pada jaringan. Pada sistem yang telah dibangun hasil terbaik diperoleh pada jaringan dengan 3 lapis tersembunyi dengan jumlah variasi sel 10-50-100 dengan laju pembelajaran 0,01 dan momentum 0,03 pada pola pelatihan 33 pola.
3. Hasil yang diperoleh dengan tingkat keberhasilan rata-rata keseluruhan tertinggi adalah 80,8 % untuk kata tanpa derau.
4. Hasil pengenalan kata yang tertambah derau pada kata ‘ibu’ pada 1 jenis pola pelatihan berhasil mengenali dengan prosentase 100 % pada berbagai SNR dari 36 sampai dengan SNR 0,003.