Tez No İndirme Tez Künye Durumu
199972
İnternet tabanlı bilgi erişimi destekli bir otomatik öğrenme sistemi / An internet-based automatic learning system supported by information retrieval
Yazar:ERDİNÇ UZUN
Danışman: Y.DOÇ.DR. ERDEM UÇAR ; Y.DOÇ.DR. YILMAZ KILIÇASLAN
Yer Bilgisi: Trakya Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2007
133 s.
Doktora TeziTrakya Üniversitesi Fen Bilimleri EnstitüsüBilgisayar Mühendisliği BölümüÖZETBu tez, Türkçe için alt öğeleme listelerinin otomatik olarak elde edilmesi görevinigerçekleştirmek için planlanan web-tabanlı bir sistemi sunar. Zamir düşmesi, seyrekgösterimli bir dil ve serbest sıralaması özellikleri olan Türkçe doğal dil işleme görevleriiçin ilginç ve zorlukları olan bir uygulama alanı sağlar. Tez; bilgi erişimi, doğal dilişleme ve makine öğrenmesi alanlarına katkıda bulunmayı amaçlar. Öncelikle, doğal dilişleme ve makine öğrenmesi çalışmalarını kullanan çoklu derlemin otomatik olarakoluşturulmasını sağlayan bir web-tabanlı yaklaşım önereceğiz. Bunun için, aramamotorlarını kullanarak internet üzerinden dilbilimsel Türkçe cümleleri toplayan ve haldurum bilgileri açısından bunları işaretleyen bir araç geliştirildi. İkincil olarak; rastgeleseçilmiş Türkçe fiillere ait alt öğeleme listelerini elde etmek için oluşturulan derlemeçeşitli makine öğrenme metotları uygulanmıştır. Üçüncül olarak; veri boyutununmetotların performansına etkisini anlamak için bu veri boyutu farklı boyutlarda birkaçalt kümeye bölünmüştür. Son olarak; özellikle gözetimli ve gözetimsiz metotlarınarasındaki farka odaklanan deneylerimizde kullanılan metotların karşılaştırmalıdeğerlendirilmesi önerildi.Tezin organizasyonu şu şekildedir. İlk bölüm, bilgi erişimi, alt öğeleme listesi vemakine öğrenmesi kavramları hakkında ön bilgiler verir. Ayrıca, bu bölüm ilgiliçalışmalara ve bilgisayımsal bakış açısıyla incelenecek bir dil olarak Türkçe'nin ayırtedici özelliklerine temas edecektir. İkinci bölüm, deneylerde kullanılan bazı makineöğrenmesi algoritma ve tekniklerini tanıtır. Üçüncü bölümde, doğal dil çalışmaları içinuygun büyük bir veri seti olan ?web olarak derlem? görüşü anlatılacaktır. Dördüncübölüm, önerilen sistemin tasarımını ve uygulamasını verir. Beşinci bölüm,deneylerimizdeki sonuçları raporlar ve performansın farklı veri boyutlarına etkisinigözlemler. Ayrıca, deneylerde kullanılan metotların bir karşılaştırmalıdeğerlendirilmesini sağlar. Tez, altıncı bölümde ana bulgular ve sonuçların özeti ilebitirilmektedir.Anahtar Kelimeler: Alt öğeleme listesinin otomatik elde etme, makine öğrenmesimetotları, bir derlem olarak web
Doctorate ThesisTrakya University Graduate School ofNatural and Applied SciencesDepartment of Computer EngineeringABSTRACTThis thesis presents a web-based system that is intended to perform the task ofautomatic acquisition of subcategorization frames for Turkish. As a pro-drop, areferentially sparse and free word order language, Turkish provides an interesting andchallenging domain of application for natural language processing tasks. The thesisaims to contribute to the fields of information retrieval, natural language processing andmachine learning in the following respects. Firstly, we offer a web-based approach tothe automatic construction of corpora to be used in natural language processing andmachine learning work. To this effect, we implemented a tool that collects grammaticalTurkish sentences from internet via search engines and annotates them with respect tocase marking information. Secondly, various machine learning methods were applied tothe generated corpus in order to acquire the subcategorization frames of a set ofrandomly chosen Turkish verbs. Thirdly, we divided our set of patterns into severalsubsets of different sizes to understand effect of data size on the performance ofmethods. Lastly, we offer a comparative evaluation of the methods used in ourexperiments, focusing particularly on the distinction between supervised andunsupervised methods.The thesis is organized as follows. The first chapter gives a brief account of theconcepts of information retrieval, subcategorization frame and machine learning.Moreover, this chapter touches upon the relevant literature and the peculiarities of aTurkish as a language to be investigated from a computational point of view. Thesecond chapter introduces some machine learning algorithms and techniques used in ourexperiments. In the third chapter, we describe the view of web as a corpus that is thelargest data set available for natural language studies. In the fourth chapter, the designand implementation aspects of the proposed system are given. The fifth chapter reportson the results of our experiments and provides a comparative evaluation of the methodsused in the experiments along with observations on the effect of data size on theperformances. The thesis ends with a summary of major findings and conclusions inchapter six.Keywords: Automatic acquisition of subcategorization frames, machine learningmethods, web as a corpus