Penerapan Metode Random Forest, Gaussian NB, Dan KNN Terhadap Data Unbalance dan Data Balance Menggunakan Random Over Sampling Untuk Klasifikasi Senyawa Keladi Tikus

Authors

  • Gabriel Advent Batan Jurusan Informatika, Universitas Sanata Dharma
  • Malvino Jordhan Keytimu Jurusan Informatika, Universitas Sanata Dharma
  • Flora Lebonna Katumbo Jurusan Informatika, Universitas Sanata Dharma
  • Iwan Binanto Jurusan Informatika, Universitas Sanata Dharma
  • Nesti F Sianipar Biotechnology Department, Faculty of Engineering, Bina Nusantara University

DOI:

https://doi.org/10.35842/sintaks.v2i1.26

Keywords:

Random Over Sampling, Random Forest, Gaussian NB, KNN

Abstract

Penelitian ini bertujuan untuk melakukan klasifikasi dataset senyawa keladi tikus menggunakan metode Random Forest, Gaussian NB, dan KNN pada dataset yang tidak seimbang dan seimbang dengan menggunakan Random Over Sampling. Metode penelitian melibatkan penerapan metode Random Forest, KNN, dan Gaussian NB pada dataset asli (data tidak seimbang) untuk pemodelan data training dan pengujian menggunakan data uji. Kinerja algoritma diukur dengan menggunakan confusion matrix, dan metode KNN dievaluasi dengan K-fold cross validation. Hasil penelitian menunjukkan bahwa sebelum data diseimbangkan, akurasi pada data tidak seimbang mencapai ratarata 80%, namun parameter-parameter lainnya memiliki nilai yang rendah. Setelah menerapkan Random Over Sampling, akurasi meningkat untuk Random Forest, tetapi terjadi penurunan akurasi rata-rata pada KNN dan Gaussian NB. Penurunan ini disebabkan oleh penduplikatan pada kelas minoritas dan pengaruh nilai k yang terlalu besar pada KNN. Analisis waktu komputasi menunjukkan bahwa Random Forest dan KNN memerlukan waktu yang lebih lama daripada Naïve Bayes. Berdasarkan hasil penelitian ini, dapat disimpulkan bahwa algoritma Random Forest adalah yang terbaik untuk melakukan klasifikasi pada datasetsenyawa keladi tikus, baik pada data tidak seimbang maupun data seimbang.

Downloads

Published

2023-09-07