MODEL PREDIKSI PENYAKIT DIABETES MENGGUNAKAN BAYESIAN CLASSIFICATION DAN INFORMATION GAIN UNTUK SELEKSI FITUR DAN ADAPTIVE BOOSTING UNTUK PEMBOBOTAN DATA
DOI:
https://doi.org/10.47775/ictech.v14i1.54Abstract
Diabetes merupakan salah satu penyakit berbahaya, penyakit yang dapat merusak organ tubuh dan memerlukan biaya yang mahal untuk mengobatinya. Mendiagnosis diabetes pada tahap awal sangat penting untuk membantu mencegah resiko diabetes yang lebih parah. Penelitian ini merupakan upaya untuk membantu meningkatkan akurasi dalam memprediksi dan mendiagnosis diabetes dengan menggunakan dataset Pima Indian Diabetes (PID). Hal ini juga merupakan upaya untuk membantu jutaan orang penderita diabetes agar dapat melakukan pencegahan dini. Naive Bayes adalah tekhnik machine learning yang dikenal untuk mengklasifikasi, karena sangat sederhana, efisien dan memiliki performa yang baik. Namun, Naive Bayes memiliki kekurangan ketika digunakan pada data yang memiliki fitur terlalu banyak, menyebabkan akurasi menjadi rendah. Oleh karena itu, dalam penelitian ini menggunakan Information Gain sebagai teknik seleksi fitur dan metode boosting untuk memberikan pembobotan data agar dapat meningkatkan akurasi pengklasifikasi Naive Bayes. Penelitian ini menghasilkan akurasi yang meningkat dalam mendiagnosis penyakit diabetes dibandingkan dengan penelitian sebelumnya. Pengukuran ini juga membandingkan akurasi Naive Bayes sebelum dan sesudah penambahan metode pemilihan fitur dan Adaboost. Validasi dilakukan dengan menggunakan 10 fold cross validation. Sedangkan pengukuran akurasi diukur dengan confusion matrix dan kurva ROC. Hasil penelitian menunjukkan peningkatan akurasi Naive Bayes dari 74.01% menjadi 79.10% dan nilai AUC 0.8722. Peningkatan akurasi dari penelitian sebelumnya yaitu dengan metode Fuzzy Decision Tree dari 75,8% dan pada penelitian ini menjadi 79,10%. Sehingga dapat disimpulkan bahwa integrasi metode Information Gain dan AdaBoost pada Pima Indian Diabetes ini mampu meningkatkan akurasi algoritma Naive Bayes.
References
Bluma, Avrim L, and Pat Langley. 1997. “Artificial Intelligence Selection of Relevant Features and Examples in Machine.†Articial Intelligence 97 (97): 245–71.
Chen, Jingnian, Houkuan Huang, Shengfeng Tian, and Youli Qu. 2009. “Feature Selection for Text Classification with Na??ve Bayes.†Expert Systems with Applications 36 (3 PART 1). Elsevier Ltd: 5432–35. doi:10.1016/j.eswa.2008.06.054.
Diponegoro, Universitas, and Ahmad Fatoni. 2014. “Implementasi Model Pohon Kepututusan Untuk Mengklasifikasi Masa Studi Mahasiswa Menggunakan Algoritma C4 . 5.â€
Hu, Wei, and Weiming Hu. 2005. “Network-Based Intrusion Detection Using Adaboost Algorithm.†IEEE/WIC/ACM International Conference on Web Intelligence.
Jayalakshmi, T., and a. Santhakumaran. 2010. “A Novel Classification Method for Diagnosis of Diabetes Mellitus Using Artificial Neural Networks.†2010 International Conference on Data Storage and Data Engineering, February. Ieee, 159–63. doi:10.1109/DSDE.2010.58.
Kim, Yu-hwan. 2000. “Text Filtering by Boosting Naive Bayes Classifiers.†Artificial Intelligence, 168–75.
Korada, Naveen Kumar, N Sagar Pavan Kumar, and Y V N H Deekshitulu. 2012. “Implementation of Naive Bayesian Classifier and Ada-Boost Algorithm Using Maize Expert System.†International Journal of Information Sciences and Techniques (IJIST) 2 (3): 63–75.
Langley flamingostan ford edu, P a T Langley, Stephanie Sage, S a G E Flamingo, and Stanford Edu. 1993. “Institute for the Study of Learning and Expertise 2451 High Street, Palo Alto, CA 94301,†no. 1990: 399–406.
Moraes, Rodrigo, João Francisco Valiati, and Wilson P. Gavião Neto. 2013. “Document-Level Sentiment Classification: An Empirical Comparison between SVM and ANN.†Expert Systems with Applications 40 (2). Elsevier Ltd: 621–33. doi:10.1016/j.eswa.2012.07.059.
Parthiban, G, and C Abdul Hakkeem College. 2011. “Diagnosis of Heart Disease for Diabetic Patients Using Naive Bayes Method.†International Journal of Computer Applications 24 (3): 7–11.
Seminar, Prosiding, and Nasional Aplikasi. 2012. “Klasifikasi Teks Dengan Naïve Bayes Classifier (Nbc) Untuk Pengelompokan Teks Berita Dan Abstract Akademis,†no. 2011: 269–77.
States, United. 2014. “National Diabetes Statistics Report , 2014 : Data Sources , Methods , and References for Estimates of Diabetes and Its Burden in the United States.†National Diabetes Statistic Report.
Uysal, Alper Kursat, and Serkan Gunal. 2012. “A Novel Probabilistic Feature Selection Method for Text Classification.†Knowledge-Based Systems 36 (DECEMBER): 226–35. doi:10.1016/j.knosys.2012.06.005.
Varma, Kamadi V.S.R.P., Allam Appa Rao, T. Sita Maha Lakshmi, and P.V. Nageswara Rao. 2014. “A Computational Intelligence Approach for a Better Diagnosis of Diabetic Patients.†Computers & Electrical Engineering 40 (5). Elsevier Ltd: 1758–65. doi:10.1016/j.compeleceng.2013.07.003.
Wang, Ruihu. 2012. “AdaBoost for Feature Selection, Classification and Its Relation with SVM, A Review.†Physics Procedia 25. Elsevier Srl: 800–807. doi:10.1016/j.phpro.2012.03.160.
Wu, Xindong, Vipin Kumar, J. Ross Quinlan, Joydeep Ghosh, Qiang Yang, Hiroshi Motoda, Geoffrey J. McLachlan, et al. 2007. Top 10 Algorithms in Data Mining. Knowledge and Information Systems. Vol. 14. doi:10.1007/s10115-007-0114-2.
Xindong Wu, Vipin Kumar. 2009. The Top Ten Algorithm in Data Mining.
Zaidi, Na, and J Cerquides. 2013. “Alleviating Naive Bayes Attribute Independence Assumption by Attribute Weighting.†Machine Learning Research 14: 1947–88.
Zhang, Yiduo, D Ph, Timothy M Dall, Sarah E Mann, Yaozhu Chen, Jaana Martin, Victoria Moore, Alan Baldwin, Viviana A Reidel, and William W Quick. 2009. “The Economic Costs of Undiagnosed Diabetes.†The Economic Cost Of Undiagnosed Diabetes 12 (2).
Zhu, Jia, Qing Xie, and Kai Zheng. 2015. “An Improved Early Detection Method of Type-2 Diabetes Mellitus Using Multiple Classifier System.†Information Sciences 292 (January). Elsevier Inc.: 1–14. doi:10.1016/j.ins.2014.08.056.