Peningkatan Performa Algoritma Naive Bayes dengan Gain Ratio untuk Klasifikasi Keganasan Kanker Payudara
DOI:
https://doi.org/10.47775/ictech.v13i2.31Abstract
Kanker adalah salah satu penyakit yang sampai saat ini memakan banyak korban jiwa. Tercatat dalam 5 tahun dari data tahun 2012 International Agency for Research of Cancer (IARC) merilis ada lebih dari 14 juta jiwa mengidap penyakit kanker dan 8,2 juta diantaranya meninggal dunia karena kanker yang diderita. Dari data tersebut jenis kanker yang paling banyak diderita adalah kanker payudara yaitu 19,2% dari keseluruhan 14 juta kasus lebih. Pencatatan terkait pasien dan jenis kanker banyak dilakukan di dunia medis. Data tersebut semakin banyak dan hanya akan menjadi sampah apabila tidak dapat digunakan sebagai pengetahuan baru. Data mining merupakan bidang ilmu yang menjawab tantangan banyaknya data. Klasifikasi merupakan bagian dari data mining yang memungkinkan penciptaan informasi dan pengetahuan baru dari data lampau. Salah satu teknik klasifikasi terbaik dan terbukti banyak digunakan adalah naive bayes. Dari penelitian thun 2016 naive bayes memiliki performa yang terbaik untuk klasifikasi penyakit kanker payudara. Dataset yang besar dengan atribut yang banyak tidak menjamin performa algoritma akan lebih baik. Salah satu proses peningkatan performa algoritma adalah dengan melakukan seleksi fitur. Gain ratio merupakan pengembangan dari algoritma information gain yang terbukti handal dan dapat menangani data berdimensi tinggi. Penelitian ini membuktikan bahwa penggunaan algoritma seleksi fitur gain ratio dapat meningkatkan performa naive bayes dalam klasifikasi dataset breast cancer wisconsin. Performa naive bayes tanpa seleksi fitur adalah 92,7% sedangkan setelah dilakukan seleksi fitur menggunakan gain ratio akurasinya naik 4,01% menjadi 96,71%.
References
Alkaromi, M Adib. 2014. “Information Gain Untuk Pemilihan Fitur Pada Klasifikasi Heregistrasi Calon Mahasiswa Dengan Menggunakan K-NN.â€
Amancio, D. R., C. H. Comin, D. Casanova, G. Travieso, O. M. Bruno, F. a. Rodrigues, and L. Da F. Costa. 2013. “A Systematic Comparison of Supervised Classifiers,†October. http://arxiv.org/abs/1311.0202v1.
Ashari, Ahmad, Iman Paryudi, and A Min Tjoa. 2013. “Performance Comparison between Naïve Bayes , Decision Tree and K-Nearest Neighbor in Searching Alternative Design in an Energy Simulation Tool†4 (11): 33–39.
Han, Jiawei, and Micheline Kamber. 2006. Data Mining: Concepts and Techniques Second Edition. Elsevier. Elsevier.
Kusrini, and Luthfi Emha Taufiq. 2009. Algoritma Data Mining. Yogyakarta: Andi Offset.
Larose, Daniel T. 2005. Discovering Knowledge in Data: An Introduction to Data Mining. John Wiley & Sons.
Patel, Kanu, Jay Vala, and Jaymit Pandya. 2014. “Comparison of Various Classification Algorithms on Iris Datasets Using WEKA†1 (1): 1–7.
Ragab, Abdul Hamid M., Amin Y. Noaman, Abdullah S. Al-Ghamdi, and Ayman I. Madbouly. 2014. “A Comparative Analysis of Classification Algorithms for Students College Enrollment Approval Using Data Mining.†Proceedings of the 2014 Workshop on Interaction Design in Educational Environments - IDEE ’14. New York, New York, USA: ACM Press, 106–13. doi:10.1145/2643604.2643631.
Witten, Ian H, Eibe Frank, and Mark A. Hall. 2011. Data Mining: Practical Machine Learning Tools and Techniques 3rd Edition. Elsevier.
Wu, Xindong. 2009. The Top Ten Algorithms in Data Mining. Edited by Vipin Kumar. New York: Taylor & Francis Group, LLC.
Wu, Xindong, Vipin Kumar, J. Ross Quinlan, Joydeep Ghosh, Qiang Yang, Hiroshi Motoda, Geoffrey J. McLachlan, et al. 2007. Top 10 Algorithms in Data Mining. Knowledge and Information Systems. Vol. 14. doi:10.1007/s10115-007-0114-2.