Tez No İndirme Tez Künye Durumu
246279
Incremental construction of cost-conscious ensembles using multiple learners and representations in machine learning / Yapay öğrenmede çoklu öğrenici ve gösterimleri kullanarak maliyet bilinçli kümelerin artırımlı oluşturulması
Yazar:MEHMET AYDIN ULAŞ
Danışman: PROF. DR. ETHEM ALPAYDIN
Yer Bilgisi: Boğaziçi Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Bölümü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Sınıflandırma = Classification ; Örüntü tanıma = Pattern recognition ; İstatistik testler = Statistics tests
Onaylandı
Doktora
İngilizce
2009
141 s.
Bu tezde, gözetimli öğrenmede birden çok modelin, sınıflandırma başarısını artıracak ve karmaşıklığı denetim altında tutacak bir şekilde birleştirilmesi amaçlanmıştır. Bunun için iki yöntem önerilmiş ve bilinen tek ve çok gösterimli veri kümeleri üzerinde, standart sınıflandırıcılar kullanılarak yapılan benzetimlerle bu yöntemler sınanmıştır.Literatürde, birbirinden farklı sınıflandırıcılar üretmek için birçok yöntem önerilmiştir. Bunların arasında, (i) Farklı algoritmalar, (ii) Farklı üstparametreler, (iii) Farklı girdi altkümeleri, (iv) Farklı girdi gösterimleri ve (v) Öğrenme kümesinin farklı örneklemlerini sayabiliriz. Bu tezde, bu yöntemlerin sınıflandırıcılar arasındaki ilintiyi azaltmakta etkili olmadığını gösteriyoruz. Bunun yanında, ilinti ve hata arasındaki bağıntıyı ortaya koyarak, ilintinin üç değişik durumu için, sabit ve eğitilmiş birleştirme kurallarının hatalarının nasıl değiştiğini gösterdik. Bu durumlar: (i) Bağımsız sınıflandırıcılar, (ii) Eşilintili sınıflandırıcılar ve (iii) İlintili sınıflandırıcı gruplarıdır. Yapılan benzetimlerde, toplama kuralının ve eğitilmiş doğrusal birleştiricinin, ilintiye karşı en gürbüz davranışı gösterdiğini gözlemledik. Bu konuda yapılan önceki çalışmalarda sınıflandırıcıların bağımsız oldukları varsayılmıştır, ilintili olan durumdaki incelemeler bu çalışmaya özgündür.Taban sınıflandırıcılar arasındaki ilintiyi kaldırmak için iki algoritma öneriyoruz. Bunlar: (i) Başarıyı artırırken aynı zamanda maliyeti, yani zaman ve bellek karmaşıklığını da göz önünde tutan, Icon isimli, artırımlı bir birleşik sınıflandırıcı oluşturma algoritması ve (ii) Birleştirmeden önce ana bileşenler analizi ya da doğrusal ayırtaç analizi yardımıyla ardıl işlem yaparak ilintisiz üstsınıflandırıcılar üreten bir algoritmadır.Icon algoritması ilintili sınıflandırıcılar arasından altküme seçmektedir. Algoritmanın üç boyutu vardır: (i) Arama yönü (ileri, geri, kayan), (ii) Model değerlendirme ölçütü (başarı, çeşitlilik ve model karmaşıklığı) ve (iii) Birleştirme kuralı (sabit kurallar, eğitilmiş doğrusal birleştirici). Otuz sekiz veri kümesi üzerinde, on dört sınıflandırıcı kullanılarak yapılan benzetimlerde, model seçme ölçütü olarak başarının ve birleştirme kuralı olarak da toplama kuralının en iyi olduğu sonucuna varılmıştır. Diğer yaklaşımlar bu iki seçeneğe göre daha az yeğlenir sonuçlar vermektedir. Bilimsel yazında daha önce de altküme seçme çalışmaları yapılmıştır, ama bu tezdeki çalışma diğer çalışmalara göre, kapsam, veri kümesi ve sınıflandırıcı sayısı açısından daha geniştir. Bu yöntem kullanılarak, en iyi taban sınıflandırıcıdan ve tüm sınıflandırıcıları kullanmaktan daha başarılı sonuçlara ulaşılmış, en iyi altkümeden ise daha kötü olmayan fakat daha basit olan birleşik sınıflandırıcılar üretilmiştir. Çok gösterimli veri kümelerine uygulandığında, Icon'un otomatik olarak farklı gösterimlerle eğitilmiş ve birbirini tamamlayan sınıflandırıcılar seçtiğini gözlemledik.İlintili sınıflandırıcıların çıktılarını ilintisiz hale getirmek için temel bileşenler analizi kullanan Pca ve doğrusal ayırtaç analizi kullanan Lda algoritmaları ilintisiz üstsınıflandırıcılar oluşturmakta ve bu üstsınıflandırıcılar, doğrusal sınıflandırıcı kullanılarak birleştirilmektedirler. Az sayıda üstsınıflandırıcı, bu yöntemin başarılı olması için yeterli olmaktadır. Bu tezde yapılan çalışma, çok sayıda sınıfa genelleştirilebildiği, çok gösterimli veri kümelerine uygulanabildiği ve bilgi özütleyerek sonuçların yorumlanabilmesini sağladığı için yeni bir çalışmadır. Bu yöntemde, temel bileşenler analizi, doğrusal ayırtaç analizine göre daha başarılı olmuştur.Genel sonuç olarak, ilintiyi ortadan kaldırmak için kullanılan bu iki yöntemin karşılaştırılmasında, eğer amaç karmaşıklığı azaltmak ise, altküme seçmenin daha iyi olduğu, başarının daha önemli olduğu durumlar içinse öznitelik çıkaran üstsınıflandırıcıların kullanılmasının daha öne çıktığı görülmüştür.
In this thesis, the main purpose is to combine multiple models to increase accuracy, while at the same time keeping a check on complexity. Towards this aim, we propose two methods, and these methods are tested by simulations using well-known classification algorithms on standard uni- and multi-representation data sets.In the literature, methods have been proposed to create diverse classifiers. These methods change: (i) Algorithms used for training, (ii) Hyperparameters of the algorithms, (iii) Training set samples, (iv) Input feature subsets, and (v) Input representations. In this thesis, we show that these methods are not enough to decrease the correlations among base classifiers. Furthermore, we present the relation between error and correlation for fixed combination rules and a linear combiner, using three different cases. The cases are: (i) Independence, (ii) Equicorrelation, and (iii) Groups. We see that, the sum rule and the trained combiner show the most robust behavior to changes in correlation. Previous studies in the literature assume that the base classifiers are independent, the analysis in the presence of correlation, as presented in this thesis, is novel.To remove the correlation between classifiers, we propose two algorithms to construct ensembles of multiple classifiers: (i) An incremental algorithm, named {\sc Icon} which generates an ensemble of multiple models (representation/classifier pairs) to improve performance, taking into account both accuracy and the concomitant increase in cost, i.e., time and space complexity, and (ii) An algorithm which post-processes before fusing, using principal component analysis ({\sc Pca}) and linear discriminant analysis ({\sc Lda}) to form uncorrelated metaclassifiers from a set of correlated experts.{\sc Icon} chooses a subset among correlated base classifiers. The algorithm has three dimensions: (i) Search direction (forward, backward, floating), (ii) Model evaluation criterion (accuracy, diversity and complexity), and (iii) Combination rule (fixed rules or a trained combiner). Our simulations using fourteen classifiers on thirty eight data sets show that, accuracy is the best model selection criteria and sum rule is the best combination rule. Other approaches create less preferred results compared to these two. There has been studies of subset selection in the literature, but the work in this thesis has a larger number of classifiers and data sets and its scope is wider. Using this method, we create ensembles which are more accurate than the single best algorithm and using all algorithms; and which are not worse than the optimal subset using smaller number of base classifiers. When applied to multi-representation data sets, we see that {\sc Icon} automatically chooses classifiers which combine different representations and generates a set of complementary classifiers.{\sc Pca} which uses principal component analysis, and {\sc Lda} which uses linear discriminant analysis create uncorrelated metaclassifiers from correlated base classifiers and these metaclassifiers are combined using a linear classifier. This method is successful with a small number of components and has the same accuracy as combining all classifiers. The work in this thesis allows generalization to multiple classifiers, combines multiple representations, allows knowledge extraction, and is novel in these respects. In this method, principal component analysis is more successful than linear discriminant analysis.As the overall result, in comparing these two methods which get rid of correlation, we see that if the aim is to decrease complexity, then subset selection is better; if the aim is higher accuracy, we should prefer metaclassifiers which extract knowledge and has redundancy.