ABSTRAKSI
Dengan semakin maraknya tindakan plagiarisme yang dilakukan di dalam sistem pendidikan menyebabkan munculnya beberapa teknik di dalam pendeteksian plagiarisme dalam dokumen teks. Salah satu teknik yang bisa digunakan untuk mendeteksi plagiarisme adalah algoritma Smith-Waterman, di mana sebelumnya algoritma ini digunakan secara luas di dalam bidang biologi molekuler untuk membandingkan kesamaan dua buah string DNA dan RNA. Namun, algoritma ini masih memiliki kelemahan, yaitu hanya bisa menampung beberapa simbol tertentu, kurang respon terhadap noise pada kalimat seperti closed-class word, dan tidak bisa mendeteksi kata dengan representasi yang sama seperti stemming dan sinonim.Tugas Akhir ini bertujuan untuk meneliti performansi algoritma Smith-Waterman dan mengkaji perbaikan-perbaikan yang dapat dilakukan untuk meningkatkan kinerja algoritma Smith-Waterman. Data set yang digunakan terdiri dari data set deterministik dan data set undeterministik. Data set deterministik adalah data set yang dapat diidentifikasi secara manual bahwa dokumen-dokumen yang dibandingkan sudah terbukti plagiat 100% dan plagiat 0%, sedangkan data set undeterministik merupakan data yang sebelumnya belum diketahui besar bobot plagiarismenya secara pasti. Data set deterministik digunakan untuk mengukur performansi sedangkan data set undeterministik digunakan untuk memperlihatkan pasangan kalimat yang terdeteksi plagiat. Pada Tugas Akhir ini dilakukan perbandingan error rate dan waktu proses antara algoritma Smith-Waterman asli dengan Smith-Waterman revisi. Hasilnya yaitu algoritma Smith-Waterman revisi memiliki error rate lebih kecil daripada Smith-Waterman asli, meskipun waktu prosesnya masih lebih tinggi. Oleh karena prosentase penurunan error rate lebih besar daripada prosentase kenaikan waktu prosesnya, maka performansi Smith-Waterman revisi lebih tinggi daripada Smith-Waterman asli.
Kata Kunci: Smith-Waterman, plagiarisme, closed-class word, stemming, deterministik, undeterministik, error rate
File Selengkapnya.....