Tez No İndirme Tez Künye Durumu
368894
A hybrid method for toponym recognition on informal Turkish text / Gündelik Türkçe metinlerde hibrit yöntemle yer isimlerini tanıma
Yazar:MERYEM KILINÇ
Danışman: DOÇ. DR. PINAR KARAGÖZ
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Yüksek Lisans
İngilizce
2014
104 s.
İnternet erişiminin ve internette bilgi paylaşmaktan çekinmeyen kişi sayısının artmasıyla beraber bu tarz kaynaklardaki bilgi birikimi hızla çoğalmaktadır. İnsanlar kendileri, istekleri ve şikayetleri hakkında bilgi paylaştıkça büyüyen bu bilgi karmaşası içerisinden ihtiyaç duyulan verinin çıkarılabilmesi Bilgi Çıkarımı (BÇ) bilim dalının ilgi alanıdır. Bu tezde sunulan çalışmada BÇ bilim dalının alt dalı olan Varlık İsimlerini Tanıma (VİT) yöntemi kullanılmıştır. VİT yöntemi, dokümanlardaki ulaşılmaya çalışılan bilgilere ait varlık isimlerini bulur ve bu bulguları önceden tanımlanmıs ̧ kategorilere göre sınıflandırır. Bu kategoriler insan isimleri, yer isimleri, tarih ve para miktarı gibi ifadelerdir. Moda, gündem, insanların düşünce ve ihtiyaçları değişik yerler arasında büyük farklılıklar gösterdiği için ve bir yer ismi birden fazla koordinatı temsil edebileceği için, yer bilgisi çıkarma işlemi ayrı bir alan altında incelenmektedir. Yer İsimleri Çıkarımı alanı bu amaç doğrultusunda çıkmıştır. İlk aşamada yer isimlerini tanıyabilmek için VİT yöntemlerini kullanmaktadır. Yer İsimleri Çıkarımı işlemi iki kısımdan oluşmaktadır. İlk aşama Yer İsimleri Tanıma, ikinci aşama ise Yer İsimleri Çözümleme işlemleridir. Yer İsimleri Tanıma işlemi dokümanlardan yer ismi belirten varlık isimlerini çıkarmayı amaçlar. İkinci aşama ise, ilk kısımda bulunan yer isimlerinin gerçekte hangi coğrafik bölgeyi kastettiğini bulmaya çalışır. Çünkü yeryüzünde aynı ismi taşıyan birden fazla coğrafik koordinat bulunabilir. Yer İsimleri Çıkarımı işleminin ilk aşaması olan Yer İsimleri Tanıma işlemi VİT alanının bir alt alanıdır. İnsanların sosyal medyada oldukça aktif olmaları, Facebook ve Twitter gibi sosyal medyanın önde gelen temsilcilerinin, toplumun eğilimini bulmaya çalışan firma ve araştırmacıların dikkatlerini çekmelerine sebep olmuştur. Fakat bu tarz sosyal medyadan edinilen veri yapısal bozukluk, noklama işaretleri eksikliği, yanlış yazılmış kısaltmalar ve kurala uygun olmayan büyük harf kullanımları gibi fazlaca bozukluk içermektedir. Bu bozukluklar kelimelerin ve cümlelerin dolayısıyla da yer isimlerinin anlaşılmasını zorlaştırmaktadır. Bu tezde sunulan sistem, kural tabanlı ve makine öğrenimi tabanlı iki yöntemi birleştirerek Türkçe tweet içeren dokümanlardan yer ismi belirten varlık isimlerini tanımaya çalışan hibrit bir sistemdir. Bu sistemde makine öğrenimi için Şartlı Rastgele Alanlar modeli kullanılmıştır. Bu modeli eğitebilmek için yer isimlerini tanımlayan özellikler (Sözcük Türü, Düzenli İfadelerden çıkarılan özellikler, Konjonksiyon Penceresi, vs.) kullanılmaktadır. Kural tabanlı kısım içinse, içerisinde geçtiği ya da arkasından geldiği kelimelerin yer ismi olma ihtimallerini artıran bazı karakter dizileri ("köy", "deniz", "şehir", "istan", vb.) için düzenli ifadeler tanımlanmıştır. Kural tabanlı aşamanın çıktıları makine öğrenimine dayalı model için girdi olarak kullanılmıştır. Çalışma kapsamında bu özelliklerden bazı Özellik Takımları oluşturulup bunların her biri için bir test koşturulmuştur. İkinci çesit deneyde ise Şartlı Rastgele Alanları eğitmek için kullanılan farklı eğiticiler test edilmiştir. Son olarak eğitim ve test dosyalarının boyutları ve her birinin içindeki yer isimleri sayısı değiştirilerek, bu dosyaların sistem sonucu üzerindeki etkisi incelenmiştir. En iyi sonucu veren kombinasyon daha önceden gündelik Türkçe veri üzerine çalışan bazı sistemlerle karşılaştırmada kullanılacaktır.
Since accessing the Internet is getting easier and people are more willing to share information on the Internet than the previous generations, the data on such kind of reachable sources are growing very rapidly day by day. Moreover, because of the popularity and widely usage of those sources, the information which researchers and organizations are interested in can be found somewhere in these data collection. The purpose of Information Extraction (IE) is to analyze this information cloud and to extract the desired data among them. This study designs a system dealing with a sub- field of Information Extraction, namely, Named Entity Recognition (NER), which many of the IE systems use as a basis. NER is used to identify the entities related to the aspired information in texts and classify them into a set of predefined categories such as person, location, and organization names, date and money expressions, etc. Since most of the desired information such as trends, agendas, needs and thoughts of people may vary among locations and a location name can be used for more than one location, extracting location information is another research area. There is a field for this purpose, named as Toponym Extraction, which uses NER as a basic step in order to recognize location names. Toponym Extraction consists of two steps, namely Toponym Recognition and Toponym Resolution. The first step, Toponym Recognition, is the subject of the proposed study. It aims to extract named entities referring to location names; whereas, Toponym Resolution aims to make decision about which geographical coordinate the entity refers to; since, a location name can be used for more than one geographical coordinates. Prominence of social media such as Twitter and Facebook have drawn attention from companies and researchers interested in detecting trends; however, the informal and popular nature of these services leads to a large amount of noisy misspellings, lack of punctuation, non-standard abbreviations and abnormal capitalization which make the recognition process really hard. This case creates a new challenge in NER field; thus, it also creates a new challenge in Toponym Recognition. The proposed system in this thesis, constructs a hybrid NER system which uses both rule based and machine learning based techniques to extract toponyms from an informally written, unstructured text document which includes Turkish tweets. In this study, Conditional Random Fields (CRF) is used as a machine learning tool and some features such as POS-Tags and Conjunction Window are defined to train the constructed CRF model. In the rule based part, regular expressions which aim to define some rules in order to extract some words that containing "köy", "deniz", "s ̧ehir", "istan", etc. are used. The result of the rule based part is used as a feature in the machine learning part. All defined features are experimented interchangeably and incrementally. In addition, various learning mechanisms within CRF are compared in terms of their accuracy. Finally, the proposed study shows the effect of the size of the training and test data sets on the system accuracy. Those parameters are all experimented and the combination giving the best result is used in the comparison part in which the system is compared with some previous studies.