Sınıflama yöntemleri, sınıf gözlemlerinin sayısı farklı olduğunda çoğunluk sınıfını tahmin
etme olasılığının yüksek olduğunu düşünür. Bu sorunu gidermek için literatürde yeniden
örnekleme yöntemleri gibi bazı yöntemler bulunmaktadır. Yeniden örnekleme yöntemlerinden
biri olan azörnekleme, çoğunluk sınıfından verileri silerek denge oluşturur. Bu çalışma, az
örnekleme yapılırken çoğunluk sınıftan alınacak en uygun gözlemleri belirlemek için farklı
optimizasyon yöntemlerini karşılaştırmayı amaçlamaktadır. İlk olarak, basit bir simülasyon
çalışması yapılmış ve yeniden örneklenen veri setleri arasındaki farklılığı analiz etmek için
grafikler kullanılmıştır. Daha sonra, farklı dengesiz veri setleri için farklı sınıflayıcı modelleri
oluşturulmuştur. Bu modellerde rastgele azörnekleme, genetik algoritma ile azörnekleme,
diferansiyel evrim algoritması ile azörnekleme, yapay arı kolonisi ile azörnekleme ve parçacık
sürüsü optimizasyonu ile azörnekleme karşılaştırılmıştır. Sonuçlara sınıflandırıcılara ve veri
setlerine göre değişen sıra numaraları verilmiş ve genel bir ortalama sıra elde edilmiştir. Sonuç
olarak, yetersiz örnekleme yapıldığında, yapay arı kolonisinin diğer optimizasyon
yöntemlerinden daha iyi performans gösterdiği görülmüştür.
The classification methods consider the probability of predicting the majority class to be
high when the number of class observations is different. To address this problem, there are some
methods such as resampling methods in the literature. Undersampling, one of the resampling
methods, creates balance by removing data from the majority class. This study aims to compare
different optimization methods to determine the most suitable observations to be taken from the
majority class while undersampling. Firstly, a simple simulation study was conducted and graphs
were used to analyze the discrepancy between the resampled datasets. Then, different classifier
models were constructed for different imbalanced data sets. In these models, random
undersampling, undersampling with genetic algorithm, undersampling with differential evolution
algorithm, undersampling with an artificial bee colony, and under-sampling with particle herd
optimization were compared. The results were given rank numbers differing depending on the
classifiers and data sets and a general mean rank was obtained. As a result, when undersampling,
artificial bee colony was seen to perform better than other methods of optimization.