Kıt verilerde rassal orman modeli ile aşırı örneklenmiş veride meyil gösteren ağaç modellerinin topluluklandırılmasının ikili sınıflamadaki deneysel performans karşılaştırması


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: TED Üniversitesi, Lisansüstü Programlar Enstitüsü, Uygulamalı Veri Bilimi Abd, Türkiye

Tezin Onay Tarihi: 2020

Tezin Dili: İngilizce

Öğrenci: Hande Alp

Danışman: Çağrı Lati̇foğlu

Açık Arşiv Koleksiyonu: AVESİS Açık Erişim Koleksiyonu

Özet:

Bu çalışmanın amacı kıt veri ile ikili sınıflandırma çalışmaları için, öznitelik seçimi, aşırı örnekleme ve orjinal veri seti üzerinde eğitilmiş rassal orman modeli ile aşırı örneklenmiş veri seti üzerinde eğitilmiş ekstrem meyil destekleyen ağaç moldelinin topluluklamasını içeren deneysel bir yaklaşım sunmaktır. İkili sınıflamada, istatistiksel öğrenme modelleri her sınıf için öznitelikler arasındaki ilişkileri öğrenmektedir. Kıt veri durumunda, model öznitelikler arasındaki gerçek ilişkileri çıkartmakta zorlanabilir. Modelin performansını arttırmak için, öznitelik seçimi, aşırı örnekleme ve orjinal veri seti üzerinde eğitilmiş rassal orman modeli ile aşırı örneklenmiş veri seti üzerinde eğitilmiş ekstrem meyil destekleyen ağaç moldelinin topluluklamasını tekniklerini de içinde barındıran bir deneysel bir method geliştirdik. Öznitelik sayısını azaltmak için, özniteliklerin önce pearson korelasyon kriteri kullanılarak korelasyon kriterine göre, sonra ise Lasso kullanılarak sıralama kriterine göre elendiği iki safhalı bir öznitelik seçimi kullandık. Öznitelik sayısının azaltılmasından sonra yoğunluk kestirmesi ile hazırlanan kopya çekirdekten 2,500 gözlem çekildi. Önerilen modeli oluşturmak için Rassal Orman algoritması özgün veri seti üzerinde eğitildi ve ekstrem meyil destekleyen ağaç algoritması aşırı örneklenmiş model üzerinde eğitildi. Bu iki modelin çıktıları daha sonra validasyon setinin doğruluk oranını eşitlik bozucu olarak kullanarak topluluklandırıldı ve nihai sonuç elde edildi. Bu yaklaşım 4 ayrı ikili sınıflandırma veri seti üzerinde denendi. Ekstrem meyil destekleyen ağaç modelinin aşırı örneklenmiş veri seti üzerinde eğitilmesi neticesinde sınıflandırma doğruluğunun modelin orjinal veri seti ile eğitilmesine kıyasla önemli derecede arttığı gözlemlendi.