Both the complexity and volume of Android malware attacks increases day by day. Thus, Android users remain
vulnerable to cyber-attacks. Researchers have developed many machine learning techniques to detect, block or
mitigate these attacks. However, technological developments and the increase in Android mobile devices and the
applications used on these devices have also increased problems in terms of user privacy due to malware. In this
study, a comprehensive study is presented on the detection and classification of malicious applications using an
up-to-date dataset containing 241 features. First, incorrect, and missing data are detected, and the relevant lines
are removed, and then normalization-based scaling is performed. After this preprocessing step, the dataset is
randomly split into 70% training and 30% testing data using cross-validation. Finally, the classification process is
carried out using 6 different machine learning methods which are Bernoulli Naive Bayes (BNB), Multi-Layer
Perceptron (MLP), Logistic Regression (LOGR), K-Nearest Neighbor (KNN), Decision Tree Classifier (DTC),
Random Forest (RF). Comparison of modeling results show that the RF machine learning technique can achieve
the best performance with a 97% accuracy level and various other metrics for malware detection on real-world
Android application.
Android kötü amaçlı yazılım saldırılarının hem karmaşıklığı hem de hacmi her geçen gün artmaktadır. Bu nedenle
android kullanıcıları siber saldırılara karşı savunmasız kalmaktadırlar. Araştırmacılar bu saldırıları tespit etmek,
engellemek veya azaltmak için birçok makine öğrenmesi tekniği geliştirmişlerdir. Ancak teknolojik gelişmeler,
Android mobil cihazların ve bu cihazlarda kullanılan uygulamaların artması, kötü amaçlı yazılımlardan dolayı
kullanıcı gizliliği açısından sorunları da artırmıştır. Bu çalışmada, 241 öznitelik içeren güncel bir veri seti
kullanılarak kötü amaçlı uygulamaların tespiti ve sınıflandırılması konusunda kapsamlı bir çalışma sunulmaktadır.
Öncelikle hatalı ve eksik veriler tespit edilerek ilgili satırlar kaldırılmıştır, ardından normalizasyon bazlı
ölçeklendirme gerçekleştirilmiştir. Bu ön işleme adımından sonra veri seti, çapraz doğrulama kullanılarak rastgele
%70 eğitim ve %30 test verisine bölünmüştür. Son olarak Bernolulli Naive Bayes (BNB), Çok Katmanlı Algılayıcı
(MLP), Lojistik Regresyon (LOGR), K-En Yakın Komşu (KNN), Karar Ağacı Sınıflandırıcı (DTC), Rastgele
Orman (RF) olmak üzere 6 farklı makine öğrenmesi yöntemi kullanılarak sınıflandırma işlemi gerçekleştirilmiştir.
Modelleme sonuçlarının karşılaştırılması, RF makine öğrenimi tekniğinin, gerçek dünyadaki Android
uygulamalarında kötü amaçlı yazılım tespiti için %97 doğruluk düzeyi ve diğer çeşitli ölçümlerle en iyi
performansı elde edebileceğini göstermiştir.