Kitle-kaynak, veri kümeleri için yüksek kaliteli etiketleri makul maliyetler ile elde etmek için kullanılan popüler bir yöntemdir. Bu kitle-kaynak yöntemiyle etiketlenen veri setleri, sonrasında gözetimli veya yarı-gözetimli sınıflayıcıların eğitimi için kullanılır. Bu da, bu prosedür sonucunda oluşan sınıflayıcı performanslarının kitle çalışanlarının atadığı etiketlerin kalitesi/güvenirliliğine bağlı olduğu anlamına gelmektedir - düşük güvenirlilik genellikle yetersiz çalışan sınıflayıcılara sebep olur. Pratikte, kitle-kaynak veri kümelerin-deki etiket güvenirliliği, eldeki etiketleme işinin zorluğu, katılımcı kitle çalışanlarının özellikleri ve motivasyonu, veya etiketlenecek dokümanların zorluğu gibi birçok faktöre bağlı olarak büyük ölçüde değişkenlik gösterir. Bu bahsedilen faktörlerin etiketlerin kalitesine etkisini hafifletmek için ise, verilen kitle-kaynak görevini tanımına uygun olarak yerine getirmeyen (spammer) çalışanları, etiketleme sürelerine bakarak belirlemek ve gönderdikleri etiketleri silmek gibi farklı yaklaşımlar mevcuttur.
Bu tez, kitle-kaynak yönteminden elde edilen etiket güvenirliliğini iyileştirerek mevcut yaklaşımları tamamlamak amacıyla, etiket güvenirliliği konusunu ilk olarak, gerçek bir etiketleme işi süresince kitle çalışanlarının etiket güvenirliliğinin zamanla nasıl geliş-tiği, ve ikinci olarak etiketlerin etiketlenecek dokümanların zorluğundan nasıl etkilendiği olmak üzere iki açıdan incelemektedir.
Kitle-kaynak yöntemi ile etiketlenen veri seti üzerinde yaptığımız analizler sonucunda, kitle çalışanlarının etiket güvenirliliğinin belli sayıda dokümanı etiketledikten son-ra arttığını gözlemledik. Bunun sonucunda ve daha zor dokümanlar için etiket güvenirli-liğinin daha düşük olması bulgusundan yola çıkarak, etiket güvenirliliğini iyileştirmek için yeni bir kitle-kaynak yöntembilimi önermekteyiz. Önerdiğimiz bu metodolojide, kitle-kaynak yöntemiyle etiketlenecek olan elimizdeki etiketsiz veri setini kullanarak, öncelikle küçük bir başlangıç seti üzerinde bir zorluk tahmin edici (predictor) eğitip, sonrasında bu tahmin ediciden yararlanarak başlangıç seti dışında kalan dokümanların zorluk derecesini tahmin etmeyi hedefliyoruz. Bu prosedür, eğitilen tahmin edicinin performansı yeterli seviyeye ulaşana kadar birçok kez tekrarlanabilir. Son olarak, bu adımlar sonucunda elde edilen tahmin edici kullanılarak tespit edilen zor dokümanlar, veri setinin geri kalanından ayrılır ve sadece bu veri kümesinde kalan dokümanlar kitle-kaynak yöntemi ile etiketlenir. Deney sonuçlarımız da, bu yöntemin kitle-kaynak yöntemi ile elde edilen etiketlerin güvenirliliği üzerinde etkili olduğunu göstermektedir.
|
Crowdsourcing is a popular means to obtain high-quality labels for datasets at moderate costs. These crowdsourced datasets are then used for training supervised or semi-supervised predictors. This implies that the performance of the resulting predictors depends on the quality/reliability of the labels that crowd workers assigned -- low reliability usually leads to poorly performing predictors. In practice, label reliability in crowdsourced datasets varies substantially depending on multiple factors such as the difficulty of the labeling task at hand, the characteristics and motivation of the participating crowd workers, or the difficulty of the documents to be labeled. Different approaches exist to mitigate the effects of the aforementioned factors, for example by identifying spammers based on their annotation times and removing their submitted labels.
To complement existing approaches for improving label reliability in crowdsourcing, this thesis explores label reliability from two perspectives: first, how the label reliability of crowd workers develops over time during an actual labeling task, and second how it is affected by the difficulty of the documents to be labeled.
We find that label reliability of crowd workers increases after they labeled a certain number of documents. Motivated by our finding that the label reliability for more difficult documents is lower, we propose a new crowdsourcing methodology to improve label reliability: given an unlabeled dataset to be crowdsourced, we first train a difficulty predictor on a small seed set and the predictor then estimates the difficulty level in the remaining unlabeled documents. This procedure might be repeated multiple times until the performance of the difficulty predictor is sufficient. Ultimately, difficult documents are separated from the rest, so that only the latter documents are crowdsourced. Our experiments demonstrate the feasibility of this method. |