Speech Recognition, Masih Kalah Jauh dari Kemampuan Telinga dan Otak Manusia

Teknologinya tersedia, disebut Speech Recognition (kadang disebut Speech to Text). Sistem seperti itu sudah cukup lama tersedia, mengenali ucapan manusia, lalu mengubahkan menjadi teks atau tulisan. Seberapa hebat sistem ini yang sudah ada? Beberapa sistem sudah meng-klaim mencapai akurasi 99%, diantaranya yang terkenal adalah Dragon Naturally Speaking. Apakah betul?
Silakan coba software tersebut. Sangat mungkin anda tidak dapat mencapai akurasi yang dijanjikan tersebut. Mengapa?

Mungkin anda menggunakan mikrofon murahan, sehingga banyak noise yang masuk
Mungkin lingkungan sekitar anda terlalu banyak noise, misalnya di ruangan bersama kantor yang sangat gaduh, atau bahkan di dalam mobil dimana banyak suara dari luar mobil
Mungkin logat daerah anda sangat kental, sehingga anda tidak dapat mengucapkan ucapan-ucapan bahasa Inggris tersebut dengan benar, atau ….
Mungkin anda mengucapkannya dengan latar belakang musik kesukaan anda, walaupun volumenya tidak terlalu besar.

Nah, itulah sejumlah kelemahan speech recognition yang ada. Akurasi yang dijanjikan pada prinsipnya bisa dipercaya, tapi kita harus sadar kondisi idealnya untuk mencapai akurasi tersebut. Speech Recognition yang ada masih rawan terhadap noise, baik noise yang benar-benar berupa gangguan (misalnya kegaduhan) atau noise yang indah, misalnya Phil Collins sedang menyanyi di belakang kita. Speech recognition bekerja dengan cara mencari kemiripan dengan library potongan kata yang ada di dalam databasenya (corpus). Ketika sebuah sistem dilatih dengan korpus British English, akan sulit mengenali ucapan Inggris-Jawa, Inggris-Sunda, Inggris-Cina, dan sebagainya. Walaupun sama-sama bahasa Inggris.

Jadi, kembali lagi ke awal pembicaraan kita. Speech Recognition yang ada saat ini masih sulit (bukan tidak mungkin) untuk diaplikasi pada aplikasi yang diharapkan dapat mengenali seluruh kata. Namun, sangat mungkin untuk digunakan dalam aplikasi yang jumlah kosa katanya terbatas. Mengapa? Mengidentifikasikan, katakanlah 40 kata jauh lebih mudah dari pada mengidentifikasikan 100 ribu kata. Banyak aplikasi dengan jumlah kata terbatas yang sudah menggunakan teknologi ini untuk layanan telekomunikasi.

Telinga dan Otak Manusia sebagai prosesornya mempunyai kemampuan yang lebih superior. Manusia dengan mudah memisahkan antara pembicara dengan suara musik di latar belakang, asal suara musik tersebut tidak melampaui intensitas tertentu yang mengganggu. Komputer masih sangat sulit melakukan itu. Bahkan manusia mempunyai kemampuan untuk fokus (berusaha fokus). Misalkan dalam satu keramaian konser musik, anda berbicara dengan teman di sebelah, masih bisa memahami apa yang diucapkan. Jangan berharap sistem Speech Recognition bisa melakukan itu!!!
Mengapa komputer sulit melakukannya? Semuanya berhubungan dengan pemrosesan sinyal suara. Pemrosesan sinyal yang dilakukan sekarang masih berbasis frekuensi. Ketika sebuah informasi dalam sinyal suara mempunyai banyak komponen frekuensi yang sama dengan komponen frekuensi noise-nya, jadi sulit memisahkannya, sementara telinga dan otak manusia masih bisa melakukannya dengan mudah. Jadi, kesimpulannya? Telinga dan otak manusia mungkin bekerja dengan prinsip yang berbeda……….., mungkin tidak berbasis pemisahan frekuensi. Sensor dalam telinga manusia berupa rambut-rambut halus yang jumlahnya sangat banyak, sementara sensor komputer hanya satu buah mikrofon. Oleh karena itu, salah satu arah riset yang berkembang adalah penggunaan array mikrofon untuk menirukan banyaknya sensor dalam telingan manusia.

Nah, sebagai penutup, untuk mendapatkan sistem yang lebih mendekati kehebatan telinga dan otak, saya kira perlu satu penemuan yang fundamental yang mengubah cara pemrosesan sinyal berbasis frekuensi menjadi cara lain yang mungkin berbeda sama sekali. Siapa tahu anda bisa menemukan itu. Kalo bisa, pasti ada dua yang bisa anda raih, pertama, kemungkinan masuk surga karena ilmu anda akan digunakan terus dalam peradaban manusia, kedua, sangat mungkin anda menjadi peraih NOBEL.

Sumber : http://kupalima.wordpress.com dan http://teknologibahasa.wordpress.com

share and info

Pages

Jumat, 05 November 2010

Speech Recognition, Masih Kalah Jauh dari Kemampuan Telinga dan Otak Manusia

0 komentar:

Posting Komentar

Search

Blog Archive

Pengikut

Mengenai Saya

azan