dc.contributor.author |
Dal, Abdullah |
|
dc.date.accessioned |
2022-04-27T05:18:20Z |
|
dc.date.available |
2022-04-27T05:18:20Z |
|
dc.date.issued |
2021 |
|
dc.identifier.uri |
http://dspace.adiyaman.edu.tr:8080/xmlui/handle/20.500.12414/2927 |
|
dc.description.abstract |
Bu tez çalışmasında dengesiz dağılıma sahip veri kümelerinin makine öğrenimi algoritmalarında performans kayıplarını iyileştirmeye yönelik bir metot önerilmiştir. Veri kümelerindeki dengesizliği azaltmak veya tamamen kaldırmak için birçok çalışma yapılmıştır (RUS, ROS, SMOTE). Geliştirilen metotta benzer şekilde azınlık sınıfa ait mevcut örnekler, yeniden sentetik olarak çoğaltılmıştır ve veri kümeleri dengelenmiştir. Yeniden örnekleme işlemi için, azınlık sınıfa ait örnekler arasında, Öklid uzaklık metriğiyle tüm veri noktaları için en yakın komşular tespit edilmiştir. Bu komşular arasında yeterli sayıda en yakın komşular arasında olmak üzere, diğer yöntemlerden farklı olarak Ağırlıklı Geometrik Ortalama kullanılarak istenen sayıda yeni sentetik örnekler oluşturulmuştur. Bu şekilde dengelenen veri kümelerinin makine öğrenim performanslarında karşılaştırılan metotlara göre ciddi iyileştirmeler gözlemlenmiştir. |
tr |
dc.description.abstract |
In this thesis, a method is proposed to improve performance losses in machine learning algorithms of unevenly distributed datasets. Many studies have been done to reduce or completely remove the imbalance in datasets (RUS, ROS, SMOTE). Similarly, in the developed method, existing samples belonging to the minority class were reproduced synthetically and the datasets were balanced. For the resampling process, the nearest neighbors for all data points were determined using the Euclidean distance metric among the samples belonging to the minority class. Different from the other methods, a desired number of new synthetic samples were created using the Weighted Geometric Average, among these neighbors, in a sufficient number among the nearest neighbors. Significant improvements were observed in the machine learning performance of datasets balanced in this way, compared to the methods compared. |
tr |
dc.language.iso |
tr |
tr |
dc.publisher |
Adıyaman Üniversitesi |
tr |
dc.subject |
Yeniden Örnekleme |
tr |
dc.subject |
Dengesiz Veri |
tr |
dc.subject |
SMOTE |
tr |
dc.subject |
Resampling |
tr |
dc.subject |
Unbalanced Data |
tr |
dc.subject |
SMOTE |
tr |
dc.title |
Sentetik veri örnekleme yöntemlerine matematiksel yaklaşımlar |
tr |
dc.title.alternative |
Mathematical approachesto synthetic data sampling methods |
tr |
dc.type |
Thesis |
tr |
dc.contributor.department |
Adıyaman Üniversitesi Lisansüstü Eğitim Enstitüsü Matematik Anabilim Dalı |
tr |
dc.identifier.endpage |
37 |
tr |
dc.identifier.startpage |
1 |
tr |