Tez No İndirme Tez Künye Durumu
733164
Data mining and knowledge discovery in education / Eğitim alanında veri madenciliği ve bilgi keşfi
Yazar:FERDA BALCI ÜNAL
Danışman: DOÇ. DR. DERYA BİRANT
Yer Bilgisi: Dokuz Eylül Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Bilim ve Teknoloji = Science and Technology ; Mühendislik Bilimleri = Engineering Sciences
Dizin:Eğitim = Education ; Makine öğrenmesi = Machine learning ; Sınıflandırma = Classification ; Veri madenciliği = Data mining
Onaylandı
Doktora
İngilizce
2022
75 s.
Tezin amacı, eğitim alanında veri madenciliği yöntemleri geliştirerek, bu alandaki bilgi keşfini arttırmaktır. Eğitim alanında çok sayıda sıralı ve etiketlenmemiş veri olduğu göz önüne alındığından, yarı denetimli sınıflandırma ve sıralı sınıflandırma tekniklerinin kullanılmasına odaklanılmıştır. Yarı denetimli öğrenme, etiketli az sayıda örnek koleksiyonundan ve etiketlenmemiş çok sayıda örnek koleksiyonundan öğrenerek bir sınıflandırıcı oluşturan bir tür makine öğrenimi tekniğidir. Bu araştırma alanında bazı ilerlemeler kaydedilmesine rağmen, mevcut yarı denetimli yöntemler nominal bir sınıflandırma görevi sağlamaktadır. Ancak, sıralı sınıflandırma için yarı denetimli öğrenme henüz keşfedilmemiştir. Boşluğu kapatmak için bu çalışma, kategorik sınıf etiketleri için ilk kez "yarı denetimli öğrenme" ve "sıralı sınıflandırma" kavramlarını birleştirmekte ve yeni bir "yarı denetimli sıralı sınıflandırma" kavramını sunmaktadır. Çalışmamız, özellikle düşük, orta ve yüksek gibi sınıf sıralamaları olmak üzere sınıf etiketleri arasındaki ilişkileri dikkate alan yarı denetimli öğrenme için yeni bir metot önermektedir. Farklı temel öğrenicileri birleştirerek yöntemimizin performansını değerlendirmeyi amaçlayan, %5'lik bir artışla %15 ila %50 arasında değişen farklı miktarlarda etiketli numunelere sahip 10 kıyaslama ve 3 eğitim sıralı veri setini içeren kapsamlı bir deneysel çalışma gerçekleştirdik. Deneyler, önerilen yöntemin, sıralı veriler üzerinde mevcut yarı denetimli yönteme kıyasla modelin sınıflandırma doğruluğunu iyileştirdiğini göstermiştir. Çalışmalarımıza ek olarak yöntemin erişilebilirliğini sağlamak için bir web uygulaması geliştirdik.
This thesis aims to increase knowledge discovery in the field of education by developing data mining methods. Considering that there is a large amount of ordinal and unlabeled data in the education area, this study focused on using semi-supervised classification and ordinal classification techniques. Semi-supervised learning is a type of machine learning technique that constructs a classifier by learning from a small collection of labeled samples and a large collection of unlabeled ones. Although some progress has been made in this research area, the existing semi-supervised methods provide a nominal classification task. However, semi-supervised learning for ordinal classification is yet to be explored. To bridge the gap, two concepts, "semi-supervised learning" and "ordinal classification", were combined in this study for the categorical class labels for the first time and introduced a new concept of "semi-supervised ordinal classification". Our study proposes a new method for semi-supervised learning that takes into account the relationships between the class labels, especially class orderings such as low, medium, and high. We performed an extensive empirical study that involved 10 benchmarks and 3 educational ordinal different quantities of labeled datasets with samples varying from 15% to 50% with an increment of 5%, aiming to evaluate the performance of our method by combining different base learners. The experiments showed that the proposed method improved the classification accuracy of the model compared to the existing semi-supervised method on ordinal data. We also developed a web application to provide the accessibility of our method.