Apertium

Platform pemrograman

Apertium adalah platform terjemahan mesin berbasis aturan yang bersifat bebas dan sumber terbuka. Apertium adalah perangkat lunak bebas yang dirilis di bawah ketentuan Lisensi Publik Umum GNU.

Apertium
Tipemachine translation software (en) Terjemahkan Edit nilai pada Wikidata
Versi stabil
3.9.4 (28 Desember 2023) Edit nilai pada Wikidata
GenreTerjemahan mesin
LisensiGNU General Public License
Bahasa
Daftar bahasa

Multibahasa

Karakteristik teknis
Sistem operasiKompatibel dengan POSIX
Bahasa pemrogramanC++ dan Java Edit nilai pada Wikidata
Informasi pengembang
PembuatMikel Forcada (en) Terjemahkan Edit nilai pada Wikidata
PenerbitGoogle Play Edit nilai pada Wikidata
Informasi tambahan
Situs webwww.apertium.org
SourceForgeapertium Edit nilai pada Wikidata
Pelacakan kesalahanLaman pelacakan Edit nilai pada Wikidata
Free Software DirectoryApertium Edit nilai pada Wikidata
Framalibreapertium Edit nilai pada Wikidata
Sunting di Wikidata Sunting di Wikidata • Sunting kotak info • L • B
Info templat
Bantuan penggunaan templat ini

Ikhtisar

sunting

Apertium adalah sistem terjemahan mesin yang menggunakan finite-state transducer untuk semua perubahan bentuk leksikal, dan model Markov tersembunyi untuk penandaan kelas kata atau disambiguasi kategori kata. Penanda Constraint Grammar juga digunakan untuk beberapa pasangan bahasa (misalnya bahasa Breton-bahasa Prancis).[2]

Sistem terjemahan mesin yang tersedia saat ini pada umumnya bersifat komersial atau teknologi milik perorangan, yang mana membuat alat-alat tersebut sangat sulit untuk beradaptasi ke penggunaan-penggunaan baru; terlebih lagi, alat-alat tersebut menggunakan teknologi yang berbeda-beda antar pasangan bahasa, yang mempersulit, misalnya, untuk mengintegrasikannya ke dalam sistem manajemen konten tunggal yang bersifat multibahasa.

Apertium menggunakan spesifikasi yang tidak tergantung pada bahasa, yang memberi kemudahan untuk berkontribusi ke Apertium, pengembangan yang lebih efisien, dan meningkatkan pertumbuhan proyek secara keseluruhan.

Saat ini, Apertium telah merilis 40 pasangan bahasa yang stabil, memberikan terjemahan yang cepat dengan hasil yang jelas (kesalahan dapat diperbaiki dengan mudah). Sebagai sebuah proyek sumber terbuka, Apertium menyediakan alat-alat untuk pengembang potensial untuk membangun pasangan bahasa mereka sendiri dan berkontribusi untuk proyek ini.

Sejarah

sunting

Apertium bermula sebagai salah satu mesin penerjemahan dalam proyek OpenTrad, yang didanai oleh pemerintah Spanyol, dan dikembangkan oleh kelompok peneliti Transducens di Universitat d'Alacant. Pada awalnya, Apertium dirancang untuk menerjemahkan antara bahasa yang terkait erat, namun baru-baru ini telah diperluas untuk menerjemahkan pasangan bahasa yang lebih beragam. Untuk membuat sistem terjemahan mesin baru, seseorang hanya perlu mengembangkan data linguistik (kamus, aturan) dalam format XML yang telah ditentukan.

Data bahasa yang dikembangkan untuk Apertium (bekerja sama dengan Universidade de Vigo, Universitat Politècnica de Catalunya dan Universitat Pompeu Fabra) saat ini mendukung (dalam versi stabil) bahasa Arab, Aragon, Asturia, Basque, Breton, Bulgaria, Katala, Denmark, Inggris, Esperanto, Prancis, Galisia, Hindi, Islan, Indonesia, Italia, Kazak, Makedonia, Malaysia, Malta, Sami Utara, Norwegia (Bokmål dan Nynorsk), Oksitan, Portugis, Rumania, Serbo-Kroasia, Slovenia, Spanyol, Swedia, Tatar, Urdu, dan Wales. Daftar lengkap tersedia di bawah ini. Beberapa perusahaan juga terlibat dalam pengembangan Apertium, termasuk Prompsit Language Engineering, Imaxin Software, dan Eleka Ingeniaritza Linguistikoa.

Proyek ini telah ikut serta dalam Google Summer of Code tahun 2009,[3] 2010,[4] tahun 2011,[5] 2012,[6] 2013,[7] dan 2014[8] dan Google Code-in tahun 2010,[9] tahun 2011,[10] 2012,[11] 2013,[12] 2014,[13] 2015,[14] dan 2016.[15]

Cara Kerja Apertium

sunting
 
Alur Sistem Terjemahan Mesin Apertium

Berikut adalah cara kerja Apertium secara keseluruhan.

Diagram di atas menampilkan langkah-langkah yang Apertium perlukan untuk menerjemahkan teks dalam bahasa sumber (teks yang kita ingin terjemahkan) menjadi teks dalam bahasa sasaran (teks terjemahan).

  1. Teks dalam bahasa sumber dimasukkan ke dalam Apertium untuk penerjemahan.
  2. Deformatter menghilangkan markah bentuk (HTML, RTF, dll) yang harus disimpan tetapi tidak diterjemahkan.
  3. Morphological analyser menyegmentasi teks (memperluas peniadaan bunyi dalam ucapan, menandai set frasa, dll), dan mencari segmen-segmen dalam kamus bahasa, kemudian mengembalikan bentuk dasar dan kategori untuk semua hasil yang cocok. Dalam pasangan bahasa yang melibatkan morfologi aglutinatif, termasuk sejumlah bahasa-bahasa Turkik, Apertium menggunakan Helsinki Finite-State Transducer (HFST). Jika tidak, teknologi khusus-Apertium, yang disebut lttoolbox,[16] yang digunakan.
  4. Morphological disambiguator (morphological analyser dan morphological disambiguator bersama-sama membentuk penanda kelas kata) menyelesaikan segmen-segmen ambigu (yaitu, ketika ada lebih dari satu kecocokan) dengan memilih salah satunya. Apertium saat ini sedang memperbanyak kerangka kerja Constraint Grammar untuk pasangan bahasa, yang memungkinkan penerapan aturan yang lebih spesifik. Apertium menggunakan parser Visual Interactive Syntax Learning untuk Constraint Grammar.[17]
  5. Lexical transfer mencari kata dasar dalam bahasa sumber yang sudah tidak ambigu untuk menemukan kata yang serupa dalam bahasa sasaran (yaitu, pemetaan bahasa sumber ke bahasa sasaran). Untuk lexical transfer, Apertium menggunakan format kamus berbasis XML yang disebut bidix.[18]
  6. Lexical selection memilih satu di antara terjemahan alternatif ketika kata dalam teks sumber memiliki makna alternatif. Apertium menggunakan teknologi khusus berbasis XML, apertium-lex-tools,[19] untuk melakukan lexical selection.
  7. Structural transfer (yaitu, format XML yang memungkinkan penulisan aturan transfer struktural yang kompleks) dapat terdiri dari modul transfer satu-langkah atau transfer tiga-langkah. Proses ini menandai perbedaan tata bahasa antara bahasa sumber dan bahasa sasaran (misalnya, jenis kelamin atau pluralitas) dengan membuat urutan dari potongan yang mengandung penanda untuk perbedaan tersebut. Proses ini kemudian menata ulang atau memodifikasi potongan untuk menghasilkan terjemahan yang sesuai dengan tata bahasa sasaran. Hal ini juga dilakukan menggunakan lttoolbox.
  8. Morphological generator menggunakan tanda tersebut untuk memberikan bentuk permukaan yang benar dalam bahasa sasaran. Morphological generator ini adalah transduser morfologi,[20] seperti morphological analyser. Transduser morfologi menganalisis serta menghasilkan bentuk-bentuk.
  9. Pascagenerator membuat perubahan ortografi yang diperlukan akibat kontak dari kata-kata (misalnya peniadaan bunyi dalam ucapan).
  10. Reformatter mengembalikan markah bentuk (HTML, RTF, dll) yang telah dihapus oleh deformatter pada langkah pertama.
  11. Apertium memberikan terjemahan dalam bahasa target.

Pasangan bahasa

sunting

Berikut adalah daftar pasangan bahasa yang saat ini stabil.

Lihat juga

sunting

Pengguna akhir layanan dan perangkat lunak

sunting

(Semua layanan didasarkan pada Apertium Engine)

Situs terjemahan daring

sunting

Aplikasi luring

sunting

Referensi

sunting
  • Corbí-Bellot, M. et al. (2005) "An open-source shallow-transfer machine translation engine for the romance languages of Spain" dalam Proceedings of the European Association for Machine Translation, 10th Annual Conference, Budapest 2005, pp. 79–86
  • Armentano-Oller, C. et al. (2006) "Open-source Portuguese-Spanish machine translation" dalam Lecture Notes dalam Computer Science 3960 [Computational Processing of the Portuguese Language, Proceedings of the 7th International Workshop on Computational Processing of Written and Spoken Portuguese, PROPOR 2006], p 50-59.
  • Forcada, M. L. et al. (2010) "Documentation of the Open-Source Shallow-Transfer Machine Translation Platform Apertium" dalam Departament de Llenguatges i Sistemes Informatics, University of Alacant.
  • Forcada, M. L. et. al. (2011) "Apertium: a free/open-source platform for rule-based machine translation". dalam DOI:10.1007/s10590-011-9090-0

Catatan kaki

sunting