Tez No İndirme Tez Künye Durumu
582347
Multi-perspective analysis and systematic benchmarking for binary-classification performance evaluation instruments / İkili sınıflandırma başarım değerlendirme araçları için çok perspektifli analiz ve sistematik kıyaslama
Yazar:GÜROL CANBEK
Danışman: DOÇ. DR. TUĞBA TAŞKAYA TEMİZEL ; PROF. DR. ŞEREF SAĞIROĞLU
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Enformatik Enstitüsü / Bilişim Sistemleri Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Makine öğrenmesi = Machine learning ; Performans değerlendirme = Performance evaluation ; Yapay zeka = Artificial intelligence
Onaylandı
Doktora
İngilizce
2019
158 s.
Bu tez, ikili sınıflandırma başarım değerlendirme araçlarının analizi ve kıyaslanması için yeni yöntemler önermektedir. Literatürden tespit edilen kritik sorunları ele alan çalışma, terminolojiyi açıklığa kavuşturmakta ve araçları ilk kez ölçü, ölçüt ve yeni bir kategori olarak gösterge şeklinde ayırt etmektedir. Çok perspektifli çözümleme; iki yeni araçla beraber kanonik biçim, geometri, ikilik, tümleme, bağımlılık ve seviyelendirme gibi yeni kavramları resmî tanımlarla tanıtmaktadır. Ayrıca, Doğruluk Engeli adında yeni bir gösterge önerilmekte ve etüt edilen makine öğrenmesi sınıflandırma çalışmaları üzerinden değerlendirilmektedir. Tüm önerilen kavramları 50 başarım aracı için gösteren bir keşif tablosu tasarlanmış ve tablonun sahaya özgü ölçütler gibi gerçek kullanım durumları gösterilmiştir. Tez, meta-ölçütler (ölçütler hakkında ölçütler) ve metrik uzayı gibi yeni kavramlarla ölçütlerin gürbüzlüğünü değerlendirmek ve karşılaştırmak için 3 aşamadan oluşan sistematik bir kıyaslama yöntemi önermektedir. 13 ölçütün kıyaslanması; doğruluk, F1 ve normalleştirilmiş karşılıklı bilgi gibi yaygın kullanılan ölçütlerde kayda değer sorunları ortaya çıkarmakta ve Matthews Korelasyon Katsayısını en gürbüz ölçüt olarak belirlemektedir. Kıyaslama yöntemi, literatür ile karşılaştırılarak etraflı bir şekilde değerlendirilmiştir. Tez çalışmasında gürbüz olmayan ölçütlerin kullanımından kaynaklanan yayın önyargısı ve doğrulama sapması da resmî bir şekilde gösterilmektedir. Son olarak tez; kesin ve öz başarım değerlendirme, raporlama ve karşılaştırma konusunda önerilerde bulunmaktadır. Geliştirilen yazılım kütüphanesi, analiz/kıyaslama platformu, görselleştirme ve ölçüt hesaplama/gösterge araçları ve veri kümeleri çevrimiçi olarak yayımlanmıştır. Bu çalışmanın, ikili sınıflandırma başarım değerlendirme alanını temelden yeniden kurması ve kolaylaştırması yanında başarım değerlendirmesinde en gürbüz ve nesnel araç kullanımı ile sorumlu açık araştırmaya katkıda bulunması beklenmektedir.
This thesis proposes novel methods to analyze and benchmark binary-classification performance evaluation instruments. It addresses critical problems found in the literature, clarifies terminology and distinguishes instruments as measure, metric, and as a new category indicator for the first time. The multi-perspective analysis introduces novel concepts such as canonical form, geometry, duality, complementation, dependency, and leveling with formal definitions as well as two new basic instruments. An indicator named Accuracy Barrier is also proposed and tested in re-evaluating performances of surveyed machine-learning classifications. An exploratory table is designed to represent all the concepts for over 50 instruments. The table's real use cases such as domain-specific metrics reporting are demonstrated. Furthermore, this thesis proposes a systematic benchmarking method comprising 3 stages to assess metrics' robustness over new concepts such as meta-metrics (metrics about metrics) and metric-space. Benchmarking 13 metrics reveals significant issues especially in accuracy, F1, and normalized mutual information conventional metrics and identifies Matthews Correlation Coefficient as the most robust metric. The benchmarking method is evaluated with the literature. Additionally, this thesis formally demonstrates publication and confirmation biases due to reporting non-robust metrics. Finally, this thesis gives recommendations on precise and concise performance evaluation, comparison, and reporting. The developed software library, analysis/benchmarking platform, visualization and calculator/dashboard tools, and datasets were also released online. This research is expected to re-establish and facilitate classification performance evaluation domain as well as contribute towards responsible open research in performance evaluation to use the most robust and objective instruments.