Perbandingan Algoritma Klasifikasi Random Forest, Gaussian Naive Bayes, dan KNearest Neighbor untuk Data Tidak Seimbang dan Data yang diseimbangkan dengan Metode Adaptive Synthetic pada Dataset LCMS Tanaman Keladi Tikus

Authors

  • Agustina Putri Monika Informatika, Universitas Sanata Dharma, Yogyakarta
  • Felisia Elvira Paska Risti Informatika, Universitas Sanata Dharma, Yogyakarta
  • Iwan Binanto Informatika, Universitas Sanata Dharma, Yogyakarta
  • Nesti F Sianipar Biotechnology Department, Faculty of Engineering, Bina Nusantara University

DOI:

https://doi.org/10.35842/sintaks.v2i1.30

Keywords:

Klasifikasi, Imbalance Data, Keladi Tikus, LCMS, ADASYN, Adaptive Synthetic

Abstract

Tujuan dari penelitian ini adalah membandingkan efektivitas penggunaan teknik data seimbang (balance) menggunakan Adaptive Synthetic (ADASYN) dengan metode klasifikasi K-Nearest Neighbors (KNN), Random Forest (RF), dan Gaussian Naive Bayes (GNB), serta membandingkan performa metode klasifikasi tersebut pada data yang tidak seimbang (unbalanced). Penelitian ini menggunakan data Keladi Tikus yang berasal dari penelitian sebelumnya. Dalam penelitian ini, dilakukan dua eksperimen terpisah. Pertama, ADASYN diterapkan untuk mendapatkan dataset yang seimbang, kemudian model KNN, RF, dan GNB dilatih dan diuji pada dataset tersebut. Kedua, dataset yang tidak seimbang digunakan, model KNN, RF, dan GNB kembali dilatih dan diuji pada dataset tersebut. Hasil penelitian menunjukkan bahwa KNN dan GNB menunjukkan kinerja yang kurang memuaskan baik pada data seimbang menggunakan ADASYN maupun pada data tidak seimbang. Ini menunjukkan bahwa kedua algoritma tersebut tidak efektif saat digunakan bersamaan dengan teknik oversampling ADASYN pada dataset Keladi Tikus. Namun, RF terbukti memiliki ketahanan baik pada data yang seimbang maupun tidak seimbang. Pada data yang seimbang, RF mencapai akurasi hingga 0.985, namun masih memiliki kekurangan dalam menguji data positif, terlihat dari hasil recall dan f1-score yang rendah. Sementara itu, pada data yang tidak seimbang, akurasi RF sedikit menurun menjadi 0.896, namun dataset tersebut memberikan hasil yang lebih seimbang dalam menguji data positif maupun negatif. Hal ini terbukti dari hasil yang relatif seimbang, yaitu presisi sebesar 0.881, recall sebesar 0.917, dan f1-score sebesar 0.898.

Downloads

Published

2023-09-07