Tez No İndirme Tez Künye Durumu
521130
Topluluk sınıflandırıcıları ve özellik seçme metotlarıyla geliştirilen uzay ormanları / Improved space forests with an ensemble of classifiers and feature selection methods
Yazar:ZEYNEP HİLAL KİLİMCİ
Danışman: DOÇ. DR. SEVİNÇ İLHAN OMURCA
Yer Bilgisi: Kocaeli Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Haber metinleri = News texts ; Makine öğrenmesi yöntemleri = Machine learning methods ; Profesyonel öğrenme toplulukları = Professional learning communities ; Öge seçimi = Feature selection
Onaylandı
Doktora
Türkçe
2018
84 s.
Sınıflandırıcı toplulukların arkasındaki temel fikir, genel doğruluğu geliştirmeyi bekleyerek birden fazla sınıflandırıcı kullanmaktır. Sınıflandırıcı toplulukların, temel öğrenicilerin bireysel başarısı ve çeşitlilik olmak üzere iki faktöre bağlı olarak genel sınıflandırma performansını artırdığı bilinmektedir. Genişletilmiş uzay ormanları da sınıflandırma problemlerinde iyileştirmeler sağlamak için kullanılan ortak bir konudur. Daha zengin özellik uzayı sağlarlar ve orijinal özellik uzay tabanlı ormanlardan daha iyi performans sunarlar. Güncel literatür çalışmaların çoğu, genişletilmiş uzay orman yaklaşımı için giriş vektörleri olarak orijinal özelliklerin yanı sıra bunların çeşitli kombinasyonlarını da kullanmaktadır. Bu amaçla tez kapsamında, genişletilmiş uzay ormanlarının homojen ve heterojen sınıflayıcı topluluklarla kombinasyonlarının sınıflandırma başarısını, bilgi kazanımı, ki-kare, karınca kolonisi optimizasyonu, derin öğrenmeye dayalı kelime göbekleri gibi özellik geliştirme yöntemleri ile incelenilmesine odaklanılmıştır. Topluluk sisteminin temel öğrenicileri, saf Bayes' in iki varyantı, destek vektör makineleri ve karar ağaçları gibi sınıflandırma algoritmalarına dayanmaktadır. Torbalama, artırma, rastgele alt uzaylar, rastgele ormanlar, çoğunluk oyu ve istifleme, veri çeşitliliğini sağlamak ve sistemin son kararını birleştirmek için bir araya getirme stratejileridir. Yaygın olarak kullanılan biyomedikal veri kümeleri, Türkçe ve İngilizce metinleri içeren veri kümeleri önerilen çalışmanın ilerlemesine katkıda bulunmak için geniş bir yelpazede gerçekleştirilen karşılaştırmalı deneylerin yürütülmesinde kullanılmıştır. Son olarak, önerilen yöntem ile genişletilmiş uzay ormanı yaklaşımı, güncel literatür çalışmaların orijinal versiyonuna ve çeşitli genişletilmiş versiyonlarına kıyasla performans ölçeklerinde dikkate değer deneysel sonuçları ortaya çıkarmaktadır.
The basic idea behind the classifier ensembles is to use more than one classifier by expecting to improve the overall accuracy. It is known that the classifier ensembles boost the overall classification performance by depending on two factors namely, individual success of the base learners and diversity. Extended space forests are also a matter of common knowledge for ensuring improvements on classification problems. They provide richer feature space and present better performance than the original feature space based forests. Most of the contemporary studies employs original features as well as various combinations of them as input vectors for extended space forest approach. For this purpose, we focus on to observe the classification success of the combination of extended space forests with homogeneous and heterogeneous classiifier ensembles by using feature enhancement methods such as information gain, chi-square, ant colony optimization, deep learning based word embeddings. The base learners of ensemble system are based on classification algorithms such as two variants of naïve Bayes, support vector machine, and decision tress. Bagging, boosting, random subspaces, random forests, majority voting, and stacking are the ensemble strategies to ensure the data diversity and combine the final of system. We conduct a wide range of comparative experiments on widely used biomedicine datasets, Turkish and English texts to contribute to the advancement of proposed study. Finally, extended space forest approach with our proposed technique turns out remarkable experimental results compared to the original version and various extended versions of recent state-of-art studies.