DETEKSI SIMILARITAS ARTIKEL ILMIAH DENGAN TEKNIK PENCOCOKAN STRING BOYER MOORE

Amardeep Amardeep
Program Magister Manajemen Sistem Informasi, Universitas Gunadarma
Indonesia

DOI: http://dx.doi.org/10.35760/ik.2020.v25i2.2923

Article Submitted: 26 August 2020

Article Published: 14 September 2020

Abstract
Tindakan plagiarisme sering terjadi khususnya pada proses penulisan baik dalam bentuk artikel ilmiah maupun jurnal. Salah satu kontrol yang dapat dilakukan untuk meminimalisir adanya tindakan plagiarisme adalah dengan melakukan perbandingan kemiripan dokumen dengan menghitung tingkat similaritas. Pada penelitian akan dilakukan analisis terhadap penggunaan algoritma Boyer-Moore dengan teknik String Matching pada dokumen berbentuk jurnal ilmiah. Penelitian ini menggunakan teknik crawling dengan memanfaatkan library beautiful soup dari python pada mesin pencari Google untuk membandingkan  dokumen  uji berbentuk jurnal ilmiah dengan hasil penelusuran oleh Google agar perbandingan dokumen dapat diperluas sehingga akurasi kemiripan dokumen dapat bertambah. Penelitian ini melakukan pengujian kemiripan dokumen pada jurnal bahasa Indonesia dan  bahasa Inggris dalam sebuah jurnal ilmiah dimana proses stemming untuk kedua bahasa dilakukan secara terpisah. Pada deteksi kalimat berbahasa indonesia, proses stemming dilakukan menggunakanstemming Nazief-Adriani dan pada stemming kalimat berbahasa inggris digunakan algoritma Porter. Hasil analisis pencocokak string dengan algoritma Boyer-Moore pada proses bigram dapat memisahkan kata menjadi 2 kelompok kata yang disusun dalam 1 list pada setiap kalimat dan hasil pencariannya telah berhasil dilakukan, skor dan tingkat kemiripan dokumen melalu teknik crawling berhasil menghitung persentase kemiripan sebuah artikel ilmiah.Hasil penelitian ini diharapkan dapat menentukan tingkat similaritas dari dua buah dokumen, sehingga dapat meminimalisir tingkat plagiarisme khususnya pada dokumen berbentuk jurnal ilmiah.
Keywords
Boyer-Moore; Crawling; Kalimat; Tokenization
References

P. I. Goni, “Penerapan algoritma Turbo Boyer-Moore untuk pendeteksian kemiripan dokumen teks berbasis web,” Skripsi, Universitas Kristen Satya Wacana, Salatiga, Indonesia, 2013.

E. A. Lisangan, “Implementasi n-Gram Technique dalam deteksi plagiarisme pada tugas mahasiswa,” Jurnal Tematika, vol. 1, no. 2, Sep., hal. 24-30, 2013.

G. Recchia dan M. Max Louwerse, “A Comparison of string similarity measures for toponym matching,” Dalam Proceedings of The First ACM SIGSPATIAL International Workshop on Computational Models of Place, 2013, hal. 54-61.

O. Ajmal, M. M. S. Missen, T. Hashmat, M. Moosa, dan T. Ali, “EPlag: A two layer source code plagiarism detection system,” Journal of Information Security Research, vol. 5, no. 3, Sep., hal. 107-114, 2014.

K. T. Tung, N. D. Hung, dan L. T. M. Hanh, “A Comparison of algorithms used to measure the similarity between two documents,” International Journal of Advanced Research in Computer Engineering & Technology, vol. 4, no. 4, hal. 1117-1121, 2015.

R. E. Putri dan A. Siahaan, “Examination of document similarity using Rabin-Karp algorithm,” International Journal of Recent Trends in Engineering & Research, vol. 3, no. 8, Agu., hal. 196-201, 2017

S. Vijayarani dan M. Muthulakshmi, “An efficient string matching technique for desktop search to detect duplicate files,” International Journal of Information Technology and Computer Science. vol. 9, no. 7, Jul., hal. 69-76, 2017.

E. Rahmanita, “Pencarian string menggunakan algoritma Boyer-Moore pada dokumen,” Jurnal NERO, vol. 1, no. 1, hal. 15-26, 2014.

Y. Patil dan S.Patil, “Review of web crawlers with specification and working,” International Journal of Advanced Research in Computer and Communication Engineering, vol. 5, no. 1, Jan., hal. 220-223, 2016

A. Firdaus, Ernawati, dan A. Vatresia, “Aplikasi pendeteksi kemiripan pada dokumen teks menggunakan algoritma Nazief & Adriani dan metode Cosine Similarity,” Jurnal Teknologi Informasi, vol. 10, no. 1, Apr. hal. 96–109, 2014.

L. Agusta, “Perbandingan algoritma Stemming Porter dengan algoritma Nazief & Adriani untuk stemming dokumen teks bahasa Indonesia,” Konferensi Nasional Sistem dan Informatika 2009, Bali, Indonesia, 2009.

Information
PDF
826 times PDF : 628 times