IDENTIFIKASI TOPIK ARTIKEL BERITA MENGGUNAKAN TOPIC MODELLING DENGAN LATENT DIRICHLET ALLOCATION

Vira Faradhiba Rusdhi
Gunadarma University
Indonesia
Ilmiyati Sari
Gunadarma University
Indonesia

Abstract

Portal berita memberikan informasi yang sangat beragam, namun judul berita tidak dapat dijadikan acuan utama dalam penentuan topik suatu berita secara keseluruhan karena judul berita  bersifat  hipebola untuk menarik pembaca. Oleh karena itu, penelitian ini  mengusulkan sistem identifikasi topik artikel berita menggunakan topic modelling dengan algoritma Latent Dirichlet Allocation (LDA). Tahapan penelitian diawali dengan pengambilan data secara otomatis dari situs web detik.com dan tempo.co dengan proses web scrapping, kemudian dilakukan preprocessing terhadap data. Ada 4 tahap preprocessing yaitu tokenization, case folding, stopword removal, dan stemming. Tahap terakhir adalah topic modelling dengan algoritma LDA. Topic modelling merupakan model statistik untuk menentukan inti atau topik pada kumpulan dokumen. Identifikasi  topik dengan algoritma LDA  didasarkan pada probabilitas kemunculan kata dalam kumpulan dokumen. Penelitian ini menghasilkan topik yang paling sering muncul dalam portal berita kriminal adalah pembunuhan

Keywords
news, latent dirichlet allocation, topic modelling, preprocessing
References

Jamil, N. B. C. E, I. B. Ishak, F. Sidi, L. S. Affendy, A. Mamat, “A Systematic Review On The Profiling Of Digital News Portal For Big Data Veracity”, Procedia Computer Science, Vol. 72, 2015, pp. 390-397.

Haristya, Hersinta, F. Suwana dan I. Kurniana, “The Credibility Of News Portal In Indonesia: An Exploratory Study”, 2012.

Alghamdi, dan K. Alfalqi, “A Survey Of Topic Modelling In Text Mining”, International Journal of Advanced Computer Science and Applications, vol. 6 no. 1, 2015, pp. 147-153.

Blei, “Probabilistic Topic Models”, Communications of the ACM, Vol 55, No.4, 2012.

Martin, dan M. Johnson, “More Efficient Topic Modelling Through A Noun Only Approach”, In Proceedings of Australasian Language Technology Association Workshop, 2015, pp. 111-115.

B. Putra, dan R. P. Kusumawardani, “Analisis Topik Informasi Publik Media Sosial Di Surabaya Menggunakan Pemodelan Latent Dirichlet Allocation (LDA)”, Jurnal Tehnik ITS, Vol. 6, No. 2, 2017.

A. Alfanzar, Khalid, dan I. S. Rozas, “Topic modelling skripsi menggunakan metode Latent Dirichlet Allocation”, Jurnal Sistem Informasi, Vol. 7, No. 1, 2020.

T. Setijohatmo, S. Rachmat, T. Susilawati, Y. Rahman, “Analisis Metode Latent Dirichlet Allocation Untuk Klasifikasi Dokumen Laporan Tugas Akhir Berdasarkan Pemodelan Topik”, In Prosiding 11th Industrial Research Workshop and Natoonal Seminar (IRWNS), Vol. 11, No. 1, 2020.

M. L. C. Chilmi, “Latent Dirichlet Allocation (LDA) Untuk Mengetahui Topik Pembicaraan Warganet Twitter Tentang Omnibus Law”, skripsi, Universitas Islam Negeri Syarif Hidayatullah, Jakarta, 2021.

Y Wang, J., Ge, Y. Zhou, Y. Feng, C. Li, Z. Li, X. Zhou, dan B. Luo, “Topic Model Based Text Similarity Measure for Chinese Judgment Document”, ICPCSEE, 2017, pp. 42-54.

https://ipsaya.com/alexarank.php diakses pada 23 November 2021.

https:/www.wartaprima.com/sejarah-media-online-di-dunia-dan-di-indonesia diakses pada 20 November 2021.

https://www.crummy.com/software/BeautifulSoup/bs4/doc/ diakses 7 Desember 2021.

C. Fiarni, H. Maharani, and R. Pratama, “Sentiment Analysis System for Indonesia Online Retail Shop Review Using Hierarchy Naive Bayes Technique,” in International Conference on Information and Communication Technologies (ICoICT), 2016, pp. 212–217.

F. C. Permana, Y. Rosmansyah, and A. S. Abdullah, “Naive Bayes as opinion classifier to evaluate students satisfaction based on student sentiment in Twitter Social Media,” J. Phys. Conf. Ser., vol. 893, no. 1, 2017, pp. 0–9.

J. J. Stephen and P. Prabu, “Detecting the magnitude of depression in Twitter users using sentiment analysis,” Int. J. Electr. Comput. Eng., vol. 9, no. 4, 2019, pp. 3247–3255.

D. D. Albesta, M. L. Jonathan, M. Jawad, O. Hardiawan, and D. Suhartono, “The impact of sentiment analysis from user on Facebook to enhanced the service quality,” Int. J. Electr. Comput. Eng., vol. 11, no. 4,

Information
PDF
503 times PDF : 378 times