Pengukuran Kemiripan berbasis Leksikal dan Semantik untuk Perangkingan Dokumen Berbahasa Arab

  • Syadza Anggraini Institut Teknologi Sepuluh Nopember
  • Diana Purwitasari Institut Teknologi Sepuluh Nopember
  • Agus Zainal Arifin Institut Teknologi Sepuluh Nopember
Keywords: Kemiripan leksikal, Kemiripan semantik, Pengukuran kemiripan query dan dokumen, Perangkingan dokumen

Abstract

Hasil pencarian relevan pada sistem temu kembali informasi tergantung pengukuran kemiripan antara query dan dokumen berdasarkan bobot kata query terhadap dokumen yang akan dirangking. Namun, perhitungan kemiripan menggunakan bobot kata dimungkinkan adanya lafal kata yang berbeda tetapi memiliki makna sama. Hasil dokumen pencarian teks berbahasa Arab akan dipengaruhi kemampuan pengguna yang beragam dalam memahami bahasa tersebut. Oleh karena itu diusulkan pengukuran kemiripan secara leksikal untuk mengatasi lafal kata yang beda serta juga menggunakan kemiripan secara semantik untuk mengenali kata dengan makna sama. Penggabungan perhitungan kemiripan leksikal dan semantik dilakukan berdasarkan bobot kata (secara leksikal) yang digabungkan dengan word embedding (secara semantik). Hasil dari uji coba dilakukan pada 2900 kitab berbahasa Arab Maktabah Syamilah menunjukkan keunggulan dengan rata-rata f-measure tertinggi dibandingkan metode lainnya yaitu 66.7% pada keseluruhan query, serta 65.2% dan 69% pada short query dan long query. Short query adalah frekuensi jumlah kata di dalam query yang berjumlah 1-2 kata sedangkan long query adalah frekuensi jumlah kata di dalam query yang berjumlah lebih dari 2 kata. Short query dan long query berpeluang me-retrieve dokumen yang tidak relevan. Hasil retrieve dokumen yang tidak relevan disebabkan karena rendahnya kemiripan antar kata di dalam suatu query akibat pemilihan kata yang kurang tepat. Pemilihan kata-kata query membutuhkan penguasaan pengguna yang tidak hanya mampu mengolah query dalam bahasa Arab, tetapi juga dapat memahami konteks dokumen yang akan dicari.

Published
2022-08-15