Son yıllarda makine öğrenmesi yöntemleri kullanılarak veri sınıflandırma işlemlerinde büyük gelişmeler 
yaşanmıştır. Teknolojik gelişmeler arttıkça, internet ortamında ve diğer ortamlarda verilerin boyutu da hızla 
artmaktadır. Bununla beraber dengesiz ve sınıflandırılmamış veriler ortaya çıkmıştır. Dengesizlik problemi iki 
sınıftan birinin diğerine göre daha az örneğe sahip olması durumudur. Özellikle tıbbi alanda kullanılan veri 
kümelerin çoğu dengesiz dağılıma sahiptir. Dengesiz dağılıma sahip bir veri kümesi sınıflandırıcı algoritmaların 
başarım performansını olumsuz yönde etkilemektedir. Bu dağılımı dengelemek ve sınıflandırmak için birçok 
çalışma yapılmıştır. Bu çalışmalar veri ve algoritma düzeyinde olup, yeniden örnekleme yöntemi ile örneklem 
azaltma ve örneklem çoğaltma işlemleridir. Bu çalışmada azınlık sınıfa ait mevcut örnekler, yeniden sentetik 
olarak çoğaltılmıştır ve veri kümeleri dengelenmiştir. Yeniden örnekleme işlemi için, azınlık sınıfa ait örnekler 
arasında, Öklid uzaklık metriğiyle tüm data noktaları için en yakın komşular tespit edilmiştir. Bu komşular baz 
alınarak, her örnek arasında Ağırlıklı Geometrik Ortalama kullanılarak istenen sayıda yeni sentetik örnekler 
oluşturulmuştur. Bu işlem sonucunda veri kümeleri dengeli hale getirilmiştir. Ayrıca, veri setlerini dengelemek için Rastgele Az Örnekleme (RUS), Rastgele Aşırı Örnekleme (ROS) ve Sentetik Azınlık Örnekleme Tekniği 
(SMOTE) yöntemleri de kullanılmıştır. Orijinal ve dengelenmiş veri kümeleri Random Forest algoritması ile 
sınıflandırılmış ve sonuçları kıyaslanmıştır. Çalışma sonucunda, yeniden örnekleme yaklaşımı ile dengelenen veri 
setlerinin tüm performans değerlerinde artış gözlemlenmiştir. Çalışmada önerilen yaklaşım ile yeniden 
örneklenerek dengelenen veri kümesi, ham veri kümesi ve diğer yöntemlere kıyasla sınıflandırma performansını 
iyileştirdiği gösterilmiştir.
 
In recent years, there have been great improvements in data classification processes using machine learning 
methods. As technological advances increase, the size of data in the internet and other environments also increases 
rapidly. With these developments, unbalanced and unclassified data has emerged. The problem of imbalance is 
that one of the two classes has fewer samples than the other. Most of the datasets, especially used in the medical 
field, have an unbalanced distribution. A dataset with unbalanced distribution negatively affects the performance 
of classification algorithms. Many studies have been conducted to balance and classify this distribution. These 
studies are at the data and algorithm level and are undersampling and oversampling processes. In this study, the 
existing samples belonging to the minority class were resampled synthetically, and the datasets were balanced. For 
the resampling process, among the samples belonging to the minority class, the closest neighbors were determined
for all data points using the Euclidean distance metric. Based on these neighbors, the desired number of new 
synthetic samples were created between each sample using the Weighted Geometric Mean. As a result of this 
process, the dataset has been balanced. In addition, Random Undersampling (RUS), Random Oversampling 
(ROS), and Synthetic Minority Sampling Technique (SMOTE) methods are also used to balance the datasets. The 
raw and balanced datasets are classified using the Random Forest algorithm, and the results are compared. As a 
result of the study, an increase is observed in all performance values of the datasets balanced with the new 
resampling approach. Using the approach proposed in the study, it is shown that the balanced datasets using the 
new resampling method improve the classification performance compared to the raw dataset and other methods.