Soundex
Soundex atau Russell Soundex[1] ialah sistem penyandian berbasis bunyi bahasa,[2] diterapkan dalam pemrosesan bahasa alami mencakup pengambilan informasi terhadap kesalahan penulisan secara ejaan, tetapi serupa secara bunyi.[3] Menjadi algoritme pertama kepada memadankan susunan karakter berdasar bunyi.[4] Sebab itu, Soundex diketahui sebagai algoritme fonetik yang paling dikenal luas.[5][6]
Istilah lain | Russell Soundex |
---|---|
Pelopor | Robert C. Russell dan Margaret King Odell |
Tahun paten pertama | 1918 |
Bidang terkait | Algoritme fonetik, Pencarian string samar, Pemrosesan bahasa alami |
Secara sebagian besar, Soundex banyak dihubungkan pada hal yang berurusan dengan pencarian nama individu terutama nama keluarga,[2] sebagai contoh pada pendataan sensus dan tugas tertentu yang terdapat kesalahan penulisan disebabkan kesamaan bunyi.[3]
Penggunaan Soundex hingga kini masih terdapat pada Arsip Nasional Amerika Serikat terhadap penyelidikan atas tujuan sensus.[7] Pula dilestarikan dalam catatan historis yang menunjukkan penelitian dan pengembangan algoritme modern.[8]
Sejarah
suntingSoundex awal dikembangkan tahun 1900-an oleh Robert C. Russell dan Margaret King Odell.[8] Russell memperoleh paten pertama pada tahun 1918,[9] sebelum komputer dikenal luas, kala itu Soundex menangani persoalan sensus Amerika Serikat yaitu menemukan individu bersumber nama mereka.[10]
Sistem Soundex berguna terutama bagi mereka yang mencari leluhur di Amerika.[7] Pada tahun 1930-an, berbagai variasi Russell Soundex yang dikenal Soundex "Amerika" telah digunakan kepada beberapa federal rekam sensus Amerika Serikat.[6] Digunakan pada seluruh sensus antara tahun 1880, 1900 dan 1920, sementara pada tahun 1910 hanya digunakan di beberapa wilayah.[6][7] Mereka yang mencari leluhur dalam rekam sensus perlu familier dengan sistem penyandian Soundex.[7]
Dikembangkan berdasarkan pengucapan dalam bahasa Inggris, pada tahun 1997, Soundex diperluas mengikuti tata bahasa dalam bahasa Indonesia.[11]
Semasa abad ke-20, kode Soundex secara primer terdapat dalam referensi atas dokumen oleh federal dan Lembaga Negara Amerika Serikat.[6]
Algoritme
suntingSoundex bekerja dengan mengubah susunan karakter ke dalam kode bunyi atau fonetik yang konsisten sebanyak empat karakter. Meskipun susunan karakter berbeda, tetapi terjadi pengucapan serupa maka akan menjadi kode bunyi yang sama.[11] Sebagian besar sistem Soundex bergantung pada konsonan, sementara tidak menyertakan huruf vokal pengecualian terletak di huruf pertama.[5] Sebagai contoh, kata dengan ejaan bervariasi yang merepresentasi nama seperti Sherman, Sharman, Sirman akan diubah menjadi kode S-655.[7] Susunan karakter yang dapat diubah ke kode bunyi tidak wajib merepresentasi sebuah nama, contoh lain seperti kata 'laper' yang dapat diidentifikasi sebagai kata 'lapar'.[11]
Pencantuman kode bunyi atas algoritme Soundex pada Bahasa Indonesia telah mengalami pengembangan yaitu dengan aturan:[11]
Huruf | Kode |
---|---|
A, I ,U, E, O, H | 0 |
F, V | 1 |
S, X, Z | 2 |
L | 3 |
R | 4 |
M, N | 5 |
B, D, P, T | 6 |
C, G, J, K, Q | 7 |
W, Y | 8 |
Salah satu penerapan algoritme Soundex dapat melalui proses yakni:[3]
- Mengganti seluruh susunan karakter kecuali huruf pertama ke dalam kode bunyi
- Menghapus kode repetitif yang bersebelahan
- Menghilangkan semua kode 0 yang bertujuan meniadakan huruf vokal
- Mengembalikan empat karakter pertama dari susunan karakter yang dihasilkan
Kala kode bunyi tidak mencapai empat karakter, maka kode yang lain ialah 0.[11]
Adaptasi berbeda terhadap Soundex dapat diterapkan bergantung pada studi bahasa.[3] Bila pada bahasa tertentu belum terdapat struktur secara bunyi bahasa pula dapat diusulkan kepada sistem.[4]
Limitasi
suntingSoundex dimulai atas rancangan pengucapan bahasa Inggris yang hanya mendukung 26 karakter huruf A ke Z,[12] akan tetapi dalam bahasa tertentu seperti pada bahasa Sindhi yang banyak melibatkan abjad Arab memerlukan pengembangan berlainan.[13]
Selain itu, string atau susunan karakter yang diperkirakan jauh dari kemiripan dapat menghasilkan kode Soundex yang sama, seperti 'Smith', 'Saint', 'Snead'.[12]
Beberapa sistem penyandian, seperti algoritme Metaphone ialah pengembangan dari Soundex.[6]
Aplikasi
suntingPenerapan yang sudah banyak dikenal atas Soundex ialah pada federal sensus Amerika Serikat.[1] Lebih dari itu, penerapan paling umum terhadap sistem Soundex ialah pada aplikasi pemeriksa ejaan yang diterapkan pada bahasa Inggris dan sejumlah bahasa lain. Pada bahasa Sindhi, diketahui satu faktor kesalahan ejaan paling banyak berlangsung pada kata dengan bunyi yang serupa.[13] Merupakan satu keuntungan dari penerapan Soundex.[7]
Awal kala perangkat seluler mulai masif, diikuti pertumbuhan pemakaian layanan pesan SMS yang menimbulkan analisa terhadap pesan teks menjadi cukup penting. Soundex pula dapat meningkatkan pencarian antara teks SMS hubungan dengan kosakata standar pada bahasa Inggris maupun bahasa Spanyol.[3]
Salah satu aplikasi pemeriksa ejaan melibatkan akan pencarian nama dalam pangkalan data dengan jumlah besar, sebagai contoh, dalam hal operator telekomunikasi yang mewakili operator telepon dalam mendapati nomor telepon pelanggan berdasarkan atas perkiraan ejaan nama pelanggan.[7] Menjadi lumrah saat Soundex masih sangat populer di antara berbagai vendor pangkalan data,[10] antara lain mencakup karakteristik standar pada Oracle, MySQL, dsb.[4]
Implementasi pencarian akan Soundex terdapat pada situs web Ancestry atas pangkalan data silsilah keluarga milik mereka dan beberapa program konversi ke kode Soundex, satu di antara yaitu SoundEx Converter Form Diarsipkan 2020-06-13 di Wayback Machine..[1]
Referensi
sunting- ^ a b c Dilts, David (30 Juli 2008). "Soundex Genealogy" (Wiki). FamilySearch. Diakses tanggal 7 Juni 2020.
- ^ a b "Soundex" (Definisi). Lexico Oxford Dictionary. Diarsipkan dari versi asli tanggal 2020-06-03. Diakses tanggal 3 Juni 2020.
- ^ a b c d e Sojka, Petr; Horak, Aleš; Kopecek, Ivan; Pala, Karel (September 2012). Text, Speech and Dialogue: 15th International Conference, TSD 2012, Brno, Republik Ceko. Springer-Verlag Berlin Heidelberg. hlm. 48-49. ISBN 3-6423-2790-7.
- ^ a b c Koneru, K; Pulla, V; Varol, C (2016). Performance Evaluation of Phonetic Matching Algorithms on English Words and Street Names Comparison and Correlation (Prosiding Konferensi Internasional ke-5 pada Data Management Technologies and Applications (DATA 2016)). SCITEPRESS Science and Technology Publications, Lda. ISBN 978-989-758-193-9.
- ^ a b "What does soundex mean?". Definitions.net STANDS4 LLC. Diakses tanggal 3 Juni 2020.
- ^ a b c d e "History of Soundex and How to Code Yourself". St. Catharines, Ontario: Ancestry Solutions. Diakses tanggal 13 Juni 2020.
- ^ a b c d e f g "What is Soundex and How Does Soundex Work?" (Artikel). GenealogyInTime Magazine. Diakses tanggal 8 Juni 2020.
- ^ a b Janssen, Cory. "What is Soundex?" (Definisi). Techopedia. Diakses tanggal 7 Juni 2020.
- ^ "SAA Dictionary: Soundex" (Kamus). Society of American Archivists. Diakses tanggal 9 Juni 2020.
- ^ a b Latif, Al-Hakim (2006). Challenges of Managing Information Quality in Service Organizations. Idea Group Inc (IGI). hlm. 69. ISBN 1-5990-4422-6.
- ^ a b c d e Ningrum, Ika Purwanti; Muh. Yamin; Samsul (Oktober 2016). Pengembangan Algoritma Soundex Pada Spell Checker Bahasa Indonesia (Seminar Nasional). APTIKOM. hlm. 854–860.
- ^ a b "Limitations to Soundex Coding" (Artikel). GenealogyInTime Magazine. Diakses tanggal 20 Juni 2020.
- ^ a b Bhatti, Z; Waqas, A; Ali Ismaili, I; Hakro, DN; Soomro, WJ (2014). "Phonetic based SoundEx & ShapeEx algorithm for Sindhi Spell Checker System". 8 (4). AENSI-AEB.