Tez No İndirme Tez Künye Durumu
285191
Türkçe'de hesaplamalı metin analizi / Computational text analysis in turkish
Yazar:SENEM KUMOVA METİN
Danışman: PROF. DR. BAHAR KARAOĞLAN
Yer Bilgisi: Ege Üniversitesi / Fen Bilimleri Enstitüsü / Uluslararası Bilgisayar Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Bilim ve Teknoloji = Science and Technology
Dizin:
Onaylandı
Doktora
Türkçe
2011
99 s.
Metinler bilginin dil vasıtasıyla yazılı biçimde aktarımını ve saklanmasını sağlayan araçlardır. Bu tezde metnin taşıdığı anlamın, aktarmak istediği enformasyonun tespiti çalışmalarını destekleyen iki temel analiz çalışması sunulmaktadır: işlev kelimelerin ve eşdizimlerin tespiti.İşlev kelimeler metnin anlam bütünlüğüne katkısı olmayan ya da çok az olan kelimelerdir. Bu kelimeler sıklıkla gözlenmeleri sebebiyle metinde azımsanamayacak büyüklükte bir yer işgal ederler. Tez kapsamında işlev kelimelerin tespiti için dile ait farklı özelliklerin bir arada değerlendirilebileceği istatistiksel bir yöntem olan diskriminant analizinin kullanılması önerilmiştir. Önerilen yöntem Türkçe metinler üzerinde sınanmış ve sıklıkla kullanılan gözlenme sıklığı ve tf-idf gibi mevcut yöntemlerden daha başarılı sonuçlar ürettiği gösterilmiştir.Eşdizimler anlam bütünlüklerini tamamlamak veya güçlendirmek amacıyla birarada bulunan kelimelerin oluşturduğu kelime birlikleridir. Eşdizim oluşturan kelimelerin birbirlerini anımsattığı temelinden yola çıkarak tez kapsamında eşdizim eğilimi yöntemi geliştirilmiştir. Öncelikle literatürde yer alan bazı yöntemler Türkçe derlemler üzerinde uygulanmış ve gövdelemenin etkisi araştırılmıştır. Daha sonra önerilen yöntem mevcut yöntemlerin ürettiği temel veri kümesine tatbik edilerek, bu yöntemlerin duyarlılık ve anma değerlerindeki değişim incelenmiştir. Eşdizim eğilimi yönteminin tüm yöntemleri iyileştirdiği gözlenmiştir.
Texts are language tools to transfer and store information in written form. In this thesis, two analysis methods: function word detection and collocation extraction which support the studies in extraction of meaning and measuring the amount of information are presented.Function words, playing grammatical roles, appear in high frequencies and rarely contribute to the meaning of the text. In this thesis, a statistical method, discriminant analysis, which merges several linguistic features, is proposed to discriminate function words. The proposed method is utilized on Turkish texts. The results show that the method brings a significant improvement in distinction compared to well known frequency of occurrence and tf-idf methods.Collocations are the groups of words which collocate to complete or enforce their meaning integrity. In this thesis, collocative tendency method which states that any word in a collocation must suggest or at least imply the following words composing the collocation is presented. Firstly, current collocation extraction methods are utilized on a Turkish corpora and the effect of stemming is investigated. Following, the proposed method is tested on a base data set extracted by some statistical techniques and it is evaluated by precision and recall measures. It is found that collocation tendency method gives a remarkable improvement in current techniques of collocation extraction.