Tezin Türü: Yüksek Lisans
Tezin Yürütüldüğü Kurum: TED Üniversitesi, Lisansüstü Programlar Enstitüsü, Uygulamalı Veri Bilimi Abd, Türkiye
Tezin Onay Tarihi: 2020
Tezin Dili: İngilizce
Öğrenci: Hande Alp
Danışman: Çağrı Lati̇foğlu
Açık Arşiv Koleksiyonu: AVESİS Açık Erişim Koleksiyonu
Özet:Bu çalışmanın amacı kıt veri ile ikili sınıflandırma çalışmaları için, öznitelik seçimi, aşırı örnekleme ve orjinal veri seti üzerinde eğitilmiş rassal orman modeli ile aşırı örneklenmiş veri seti üzerinde eğitilmiş ekstrem meyil destekleyen ağaç moldelinin topluluklamasını içeren deneysel bir yaklaşım sunmaktır. İkili sınıflamada, istatistiksel öğrenme modelleri her sınıf için öznitelikler arasındaki ilişkileri öğrenmektedir. Kıt veri durumunda, model öznitelikler arasındaki gerçek ilişkileri çıkartmakta zorlanabilir. Modelin performansını arttırmak için, öznitelik seçimi, aşırı örnekleme ve orjinal veri seti üzerinde eğitilmiş rassal orman modeli ile aşırı örneklenmiş veri seti üzerinde eğitilmiş ekstrem meyil destekleyen ağaç moldelinin topluluklamasını tekniklerini de içinde barındıran bir deneysel bir method geliştirdik. Öznitelik sayısını azaltmak için, özniteliklerin önce pearson korelasyon kriteri kullanılarak korelasyon kriterine göre, sonra ise Lasso kullanılarak sıralama kriterine göre elendiği iki safhalı bir öznitelik seçimi kullandık. Öznitelik sayısının azaltılmasından sonra yoğunluk kestirmesi ile hazırlanan kopya çekirdekten 2,500 gözlem çekildi. Önerilen modeli oluşturmak için Rassal Orman algoritması özgün veri seti üzerinde eğitildi ve ekstrem meyil destekleyen ağaç algoritması aşırı örneklenmiş model üzerinde eğitildi. Bu iki modelin çıktıları daha sonra validasyon setinin doğruluk oranını eşitlik bozucu olarak kullanarak topluluklandırıldı ve nihai sonuç elde edildi. Bu yaklaşım 4 ayrı ikili sınıflandırma veri seti üzerinde denendi. Ekstrem meyil destekleyen ağaç modelinin aşırı örneklenmiş veri seti üzerinde eğitilmesi neticesinde sınıflandırma doğruluğunun modelin orjinal veri seti ile eğitilmesine kıyasla önemli derecede arttığı gözlemlendi.