KLASIFIKASI TEKS MENGGUNAKAN METODE NAÃVE BAYES CLASSIFIER DENGAN SELEKSI FITUR FORWARD SELECTION
DOI:
https://doi.org/10.47775/ictech.v16i1.151Abstract
Penelitian tentang klasifikasi telah banyak dipelajari secara luas yang digunakan dalam berbagai hal, seperti: data mining, machine learning dan database. Selain itu pencarian information retrieval yang dapat digunakan untuk menentukan klasifikasi dokumen, konten berita, target pemasaran serta diagnosis medis. Klasifikasi dokumen menjadi daya tarik tersendiri oleh banyak peneliti selama dua dekade terakhir. Meskipun dalam melakukan klasifikasi dokument selalu ada pembaharuan antara metode dan teknik yang digunakan, namun kebutuhannya masih terus berkembang dan tidak pernah berakhir. Kemampuan untuk melakukan klasifikasi dokumen ke dalam kategori tertentu sangat membantu untuk menghadapi informasi yang berlebihan. Klasifikasi dokumen secara otomatis dikembangkan karena pekerjaan manual tidak lagi efektif. Pada penelitian ini akan dibahas bagaimana algoritma naïve bayes dan forward selection digunakan untuk mengklasifikasi judul skripsi dan tugas akhir yang ada di Prodi TI, SI, MI dan KA yang ada di STMIK Widya Pratama Pekalongan. Naïve bayes akan digunakan untuk menghitung probabilitas kemunculan kata yang mempresentasikan dokumen teks dari judul skripsi dan tugas akhir. Berdasarkan penelitian yang dilakukan diperoleh hasil rata-rata akurasi adalah 67.67% menggunakan algoritma naïve bayes, sedangkan nilai rata-rata akurasi sebesar 92.57% didapatkan pada saat menggabungkan algoritma naïve bayes dengan forward selection. Untuk mengetahui tingkat efektifitas lainya disarankan untuk melakukan pembobotan lain seperti Backward Selection pada dokument teks yang dapat digunakan untuk penelitian eksperimen lanjutan
Kata Kunci: text mining, klasifikasi, naïve bayes, forward selection
References
Aliwy, A. H. and Ameer, E. H. A., 2017. Comparative study of five text classification algorithms with their improvements. International Journal of Applied Engineering Research, 12(14), pp. 4309–4319. doi: 10.113/J.0973-4562.
Feldman, R. and Sanger, J., 2007. The text mining handbook, Cambridge University Press. New York.
Han, J., Kamber, M. & Pei, J., 2012. Data Mining Concepts and Techniques. United States of America: Morgan Kaufmann is an imprint of Elsevier.
Hotho, A., Nürnberger, A. and Paaß, G., 2005. A brief survey of text mining. In Ldv Forum, 20(1), pp. 19–62.
Koncz, P. and Paralic, J., 2011. An approach to feature selection for sentiment analysis. pp. 357–362.
Larose, D. T., 2006. Data Mining Methods and Models. New Jersey: John Wiley & Sons, Inc. Manning D., M., Raghavan, P. and Schutze, H., 2008. Introduction to Information Retrieval, IEEE Transactions on Knowledge and Data
Engineering. New York: Cambridge University Press.
Noori, R. et al., 2011. Assessment of Input Variables Determination on the SVM Model Performance Using PCA, Gamma Test, and Forward Selection Techniques for Monthly Stream Flow Prediction. Journal of Hydrology, pp. 177-189.
Silge, J. & Robinson, D., 2017. Text Mining with R: A Tidy Approach. New York: O’Reilly Media.
Wang, S. et al., 2011. A feature selection method based on improved fisher’s discriminant ratio for text sentiment classification, Expert Systems with Applications. Elsevier Ltd, 38(7), pp. 8696–8702. doi:
1016/j.eswa.2011.01.077.
Wang, S. et al., 2013. Sample cutting method for imbalanced text sentiment classification based on BRC, Knowledge-Based Systems. Elsevier B.V., 37, pp. 451–461. doi: 10.1016/j.knosys.2012.09.003.
Wongso, R. et al., 2017. News Article Text Classification in Indonesian Language, Procedia Computer Science. Elsevier B.V., 116, pp. 137–143. doi:
1016/j.procs.2017.10.039.
Xhemali, D., Hinde, C. J. & Stone, R. G., 2009. Naïve Bayes vs. Decision Trees vs. Neural Networks in the Classification of Training Web Pages. IJCSI International Journal of Computer Science Issues, pp. 16-23.
Xu, T., Peng, Q. and Cheng, Y. 2012. Identifying the semantic orientation of terms using S- HAL for sentiment analysis, Knowledge- Based Systems. Elsevier B.V., 35, pp. 279– 289. doi: 10.1016/j.knosys.2012.04.011.
Zhang, Ziqiong et al., 2011. Sentiment classification of Internet restaurant reviews written in Cantonese, Expert Systems with Applications. Elsevier Ltd, 38(6), pp. 7674–
doi: 10.1016/j.eswa.2010.12.147