Optimasi Algoritma Naïve Bayes dengan Information Gain Ratio untuk Menangani Dataset Berdimensi Tinggi
DOI:
https://doi.org/10.47775/ictech.v14i2.61Abstrak
Perkembangan ilmu komputer sekarang memungkinkan adanya pencatatan semua proses bisnis di segala bidang dengan media penyimpanan yang besar. Data di bidang atronomi, kesehatan, ekonomi, pemerintahan dan sebagainya banyak tercatat dan semakin banyak dari tahun ke tahun. Data mining merupakan ilmu yang dapat mengolah data menjadi sebuah representasi pengetahuan dengan menggunakan beberapa metode atau algoritma matematis. Salah satu fungsi utama data mining adalah klasifikasi. Dalam proses klasifikasi semua data lama digunakan sebagai data pembelajaran untuk menyimpulkan data baru yang belum sepenuhnya diketahui. Data yang sebelumnya tidak memiliki makna dapat menjadi sebuah pengetahuan baru dengan menggunakan klasifikasi data mining. Banyak algoritma yang dapat digunakan dalam proses klasifikasi. Salah satu algoritma yang terbukti baik untuk proses klasifikasi data berdimensi tinggi adalah naïve bayes. Dalam data berdimensi tinggi banyaknya atribut data dapat mempengaruhi hasil klasifikasi. Banyaknya atribut data yang relevan dapat meningkatkan performa algoritma. Sedangkan banyaknya atribut data yang tidak  relevan dapat menurunkan tingkat akurasi sebuah algoritma. Dari hasil penelitian ini diketahui bahwa seleksi fitur information gain dapat meningkatkan performa klasifikasi naive bayes.
Referensi
Alkaromi, M Adib. 2014. “Information Gain Untuk Pemilihan Fitur Pada Klasifikasi Heregistrasi Calon Mahasiswa Dengan Menggunakan K-NN.â€
Alpaydin, Ethem. 2010. Introduction to Machine Learning Second Edition. London: The MIT Press.
Amancio, D. R., C. H. Comin, D. Casanova, G. Travieso, O. M. Bruno, F. a. Rodrigues, and L. Da F. Costa. 2013. “A Systematic Comparison of Supervised Classifiers,†October. http://arxiv.org/abs/1311.0202v1.
Ashari, Ahmad, Iman Paryudi, and A Min Tjoa. 2013. “Performance Comparison between Naïve Bayes , Decision Tree and k-Nearest Neighbor in Searching Alternative Design in an Energy Simulation Tool†4 (11): 33–39.
Han, Jiawei, and Micheline Kamber. 2006. Data Mining: Concepts and Techniques Second Edition. Elsevier. Elsevier.
Koprinska, Irena. 2010. “Feature Selection for Brain-Computer Interfaces,†100–111.
Kurniawan, M. Faisal, and Ivandari. 2017. “Komparasi Algoritma Data Mining Untuk Klasifikasi Kanker Payudara.†IC Tech I April 20: 1–8.
Maimoon, Oded, and Lior Rokach. 2010. Data Mining and Knowledge Discovery Handbook. Vol. 40. Springer. https://doi.org/10.1002/1521-3773(20010316)40:6<9823::AID-ANIE9823>3.3.CO;2-C.
Patel, Kanu, Jay Vala, and Jaymit Pandya. 2014. “Comparison of Various Classification Algorithms on Iris Datasets Using WEKA†1 (1): 1–7.
Ragab, Abdul Hamid M., Amin Y. Noaman, Abdullah S. Al-Ghamdi, and Ayman I. Madbouly. 2014. “A Comparative Analysis of Classification Algorithms for Students College Enrollment Approval Using Data Mining.†Proceedings of the 2014 Workshop on Interaction Design in Educational Environments - IDEE ’14, 106–13. https://doi.org/10.1145/2643604.2643631.
Witten, Ian H, Eibe Frank, and Mark A. Hall. 2011. Data Mining: Practical Machine Learning Tools and Techniques 3rd Edition. Elsevier.
Wu, Xindong. 2009. The Top Ten Algorithms in Data Mining. Edited by Vipin Kumar. New York: Taylor & Francis Group, LLC.