Tez No İndirme Tez Künye Durumu
553117
Improving web page classification with unlabeled data / Etiketsiz verileri kullanarak web sayfası sınıflandırmasının etkinliğini arttırmak
Yazar:HAVVA ESİN ÜNAL
Danışman: PROF. DR. SELMA AYŞE ÖZEL
Yer Bilgisi: Çukurova Üniversitesi / Fen Bilimleri Enstitüsü / Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Elektrik ve Elektronik Mühendisliği = Electrical and Electronics Engineering
Dizin:
Onaylandı
Doktora
İngilizce
2019
170 s.
Etiketlenmemiş verilerle birçok alanda sıklıkla karşılaşılmakta ve bu verileri kullanmak için de etkili yollara ihtiyaç duyulmaktadır. Etiketlenmemiş verilerden faydalı bilgiler elde etmek için yarı-denetimli öğrenme yöntemleri kullanılmaktadır. Bu tez çalışmasında Çapraz Doğrulamalı Artımlı Paralel Eğitim (APE-ÇD) ve Artımlı Seri Eğitim (ASE) olarak adlandırılan iki farklı yarı-denetimli öğrenme yöntemi önerilmiştir. Önerilen yarı-denetimli öğrenme yöntemleri etiketlenmemiş verileri verimli bir şekilde etiketlemek için denetimli sınıflandırıcıları ve veri kümelerinin farklı görünümlerini kullanmaktadır. Bu nedenle öncelikle önerilen yarı-denetimli sınıflandırıcılarda hangi sınıflandırıcıların ve özellik çıkarma algoritmalarının kullanılması gerektiğini belirlemek amacıyla denemeler yapılmıştır. Önerilen yöntemlerin etkinliğini değerlendirmek için, bilinen iki yarı-denetimli öğrenme yöntemi olan Eş-Eğitim ("Co-Training") ve Yinelemeli Çapraz Eğitim ("Iterative Cross Training") metotları seçilmiştir. Web üzerinde yüksek miktarda etiketlenmemiş veriye ulaşılabileceği için tez kapsamında yapılan denemeler bu alandan toplanmış veri kümeleri ile yapılmıştır. Tezde herkese açık "SyskillWebert", "WebKB" ve "Banksearch" ile elle toplanan Konferans veri kümelerinden elde edilen 13 adet iki sınıflı veri kümesi kullanılmıştır. Her bir veri kümesi için 30 adet rastgele seçilmiş etiketli başlangıç eğitim seti ile yöntemler karşılaştırılmış ve sonuçlar istatistiksel olarak analiz edilmiştir. Bu analizlere göre, önerilen iki yöntemin de performansının çok yüksek olduğu, özellikle APE-ÇD yönteminin tüm yöntemler arasında en yüksek sınıflandırma performansına sahip olduğu gösterilmiştir.
There are plenty of unlabeled data in different areas and effective ways are needed to be found to use them. In order to drive the useful information from these unlabeled data, semi-supervised learning methods are used. In this thesis, two different semi-supervised learning methods are proposed, namely Incremental Parallel Training with Cross-Validation (IPT-CV) and Incremental Serial Training (IST). The proposed semi supervised learning methods employ supervised classifiers and different views of the datasets for labeling unlabeled data efficiently. Therefore, to determine which classifiers and feature extraction algorithms should be used in the proposed semi-supervised learning methods experiments are performed. Then, to evaluate the effectiveness of the proposed methods, two known semi-supervised learning methods are implemented; Co-Training, and Iterative Cross-Training (ICT). Since web is a land of unlabeled files that is increasing tremendously, the web domain is chosen for the experiments. In the thesis, 13 binary classification datasets are used from the publicly available WebKB (i.e., Course, Faculty, Project, and Student), Banksearch (i.e., Biology, Commercial Banks, Motor Sport, and Programming), SyskillWebert (i.e., Bands, Biomedical, Goats, and Sheep) datasets, as well as manually collected Conference dataset. Experiments on 30 different randomly chosen initial labeled sets are made for each dataset and the results are analyzed statistically. According to these analyses, it is observed that the performance of the two proposed methods are very high, especially the IPT-CV method has the highest classifying performance among all methods.