Tez No İndirme Tez Künye Durumu
539877
Extraction of named entities from Turkish document collections / Türkçe doküman koleksiyonlarından varlık isimlerinin çıkarımı
Yazar:OKAN ÖZTÜRKMENOĞLU
Danışman: DOÇ. DR. ADİL ALPKOÇAK
Yer Bilgisi: Dokuz Eylül Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2018
100 s.
Bu tez, Türkçe dokümanlarda Varlık İsmi Tanıma (VİT) görevi için iki yaygın dizi sınıflandırıcı teknik olan Saklı Markov Model (SMM) ve Koşullu Rasgele Alan (KRA)'ı iyileştiren bir model geliştirmeyi hedefler. Bu nedenle, ilk olarak bu modellerde girdi olarak kullanılan parametrelerin en iyi değerlerini inceledik. SMM'de her bir belirtkeyi çoklu özelliklerle temsil ettik. Daha sonra, KRA modelini, pencere boyutu, çıktı kodlama formatı ve belirtkelerden çıkarılan özellikler gibi bu modelde girdi olarak kullanılan parametrelerin en etkili değerlerini belirlemek için kullandık. Hem SMM ve hem de KRA modellerinin detaylı incelemesinden sonra, Türkçe dokümanlarda VİT için lineer zincirli bir CRF modeli uyguladık. Ayrıca, dört kategoride 41 farklı özellik önerdik: kural tabanlı, sözcüksel, sözlük araması ve morfoloji temelli özellikler. İlk olarak, bu özellik kümesini kullanarak kamuya açık VİT veri setleri üzerinde bir dizi deney gerçekleştirdik. Pencere boyutu olarak [-3,+3], çıktı kodlama formatı olarak BIO kodlaması ve genişletilmiş özellik kümesini kullanarak lineer zincirli CRF modeli ile en iyi performansı elde ettik. F1 ölçütü olarak, sırasıyla kişi isimleri, yer isimler ve kurum isimleri için 91.83, 91.2 ve 88.62 elde ettik. Ayrıca bu tez, VİT için etiketlenmiş ODTÜ derlemine dayanan ODTÜ-VİT derlemini de sunmaktadır. Lineer zincirli KRA modelini önceki veri setinde kullanılan aynı parametrelerle değerlendirdik. F1 ölçütü açısından kişi, yer, kurum, zamansal isimler ve genel olarak sırasıyla yüzde 73.26, 70.12, 63.83, 61.54 ve 69.14 elde ettik.
This thesis aims to develop a model improving Hidden Markov Model (HMM) and Conditional Random Field (CRF), which are two common sequence classifier techniques, for Named Entity Recognition (NER) task on Turkish documents. So, we first examined for the best values of parameters used as input in these models. In HMM, we represented each token with multi features. Next, we used CRF model to determine most effective parameters values that are used as input in this model such as window size, output encoding format and features extracted from tokens. After detailed examination of both HMM and CRF models, we applied a linear-chain CRF model, for NER in Turkish documents. Besides, we proposed 41 different features in four categories: rule based, lexical, dictionary lookup and morphological based features. First, we performed a set of experiments using this feature set on publically available NER datasets. We achieved the best performance with a linear-chain CRF model using [-3, +3] as a window size, BIO encoding as an output encoding format and extended feature set. In terms of F1 measure, we obtained the 91.83 percent, 91.2 and 88.62 for person names, location names and organization names respectively. Furthermore, this thesis also presents METU-NER corpus, which is based on annotation METU corpus for NER. We evaluated our a linear-chain CRF model with the same parameters used in the previous dataset. In terms of F1-measure, we achieved 73.26 percent, 70.12, 63.83, 63.83 and 69.14 for person, location, organization, temporal names and overall, respectively.