Perbandingan Algoritma Klasifikasi Random Forest, Gaussian Naive Bayes, dan K-Nearest untuk Data Tidak Seimbang dan Data yang diseimbangkan dengan metode Random Undersampling pada dataset LCMS Tanaman Keladi Tikus

Authors

  • Eliana Tangkelobo Informatika, Universitas Sanata Dharma, Yogyakarta
  • Wisye Mayaut Informatika, Universitas Sanata Dharma, Yogyakarta
  • Hanjian Listanto Informatika, Universitas Sanata Dharma, Yogyakarta
  • Nesti F Sianipar Informatika, Universitas Sanata Dharma, Yogyakarta

DOI:

https://doi.org/10.35842/sintaks.v2i1.28

Keywords:

Algoritma, Imbalance Data, Balance Data, Undersampling, KNN, Random Forest, Gaussian Naive Bayes, Klasifikasi

Abstract

Dalam penelitian ini, dua percobaan terpisah dilakukan untuk mengklasifikasikan dataset keladi tikus menggunakan algoritma KNN, Naive Bayes, dan Random Forest. Pertama, dilakukan pengujian dengan menggunakan dataset yang belum seimbang, sedangkan kedua, dilakukan Random Undersampling (RUS) untuk mendapatkan dataset yang seimbang sebelum melakukan pengujian. Hasil pengujian dibandingkan menggunakan confusion matrix. Confusion matrix memberikan informasi lebih rinci tentang performa model dalam mengklasifikasikan sampel pada setiap kelas. Hasil eksperimen menunjukkan bahwa penggunaan Random Undersampling secara signifikan meningkatkan kinerja model klasifikasi pada ketiga metode yang diuji. Pada dataset yang telah diseimbangkan menggunakan Random Undersampling, algoritma Random Forest menunjukkan performa yang jauh lebih baik dalam hal akurasi, presisi, recall, dan F1-score yang mencapai 99% jika dibandingkan dengan Gaussian Naive Bayes dan KNN. Dan juga pada dataset yang belum seimbang, Random Forest tetap menunjukkan hasil akurasi yang lebih tinggi dibandingkan dengan KNN dan Gaussian NB, meskipun perbedaannya tidak sebesar pada dataset yang telah diseimbangkan.

Downloads

Published

2023-09-07