Tez No İndirme Tez Künye Durumu
336899
Lexical cohesion analysis for topic segmentation, summarization and keyphrase extraction / Konu bölümleme, özetleme ve anahtar kelime çıkarma için kelime bütünlüğü analizi
Yazar:GÖNENÇ ERCAN
Danışman: PROF. DR. FAZLI CAN ; PROF. DR. İLYAS ÇİÇEKLİ
Yer Bilgisi: İhsan Doğramacı Bilkent Üniversitesi / Mühendislik ve Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2012
169 s.
İnsanlar bir fikri veya hikayeyi anlatırken birbiriyle anlam olarak ilişkili kelimeleri kullanmaktan kaçamazlar. Bu fenomenden iki farklı bakış açısıyla faydalanmak mümkündür. Kelimeler açısından bakıldığında, anlam olarak ilişkili kelimelerin istatistiksel dağılımı ve anlatımda kullanımlarına bakarak anlam olarak ilişkili kelimeleri tanımlamak mümkün olabilir. Anlam bütünlüğüne anlatım açısından baktığımızda da kelimelerin anlam ilişkilerindeki değişime bakarak bir metnin yapısını modellemek ve bu modeli farklı doğal dil işleme problemlerinde kullanmak mümkündür. Bu araştırmada anlam bütünlüğü, bu iki açıdan da incelenmektedir. Önce kelimeler arası anlam ilişikliğinin ölçülmesi için anlam bütünlüğü kullanılmış daha sonra bu kelime ilişkileri konu bölümleme, özet çıkarma ve anahtar kelime çıkarma problemlerinde kullanılmıştır.Kelimelerin anlam ilişikliğinin ölçülmesi için bir bilgi dağarcığı gerekmektedir. Araştırma kapsamında iki farklı bilgi dağarcığından faydalanılmaya çalışılmıştır. Birinci kelime dağarcığı kelime ilişkilerinin elle girildiği bir anlam ağıdır. Ikinci yöntem ise kelimelerin düz metin derlemindeki kullanım dağılımlarını kullanmaktadır. Araştırma kapsamında bu yöntemlerin birbirine göre başarımı ölçülmekte ve kapsamlı bir analiz yapılmaktadır.Konu bölümleme probleminde kelime bütünlüğü kullanan farklı yöntemler literatürde kullanılmaktadır. Bunların bazıları sadece kelime tekrarlarından faydalanırken, bazıları da eş anlam gibi güçlü anlamsal ilişkilerden faydalanmaktadır. Fakat şu ana kadar ?çok daha kapsamlı olan kelime ilişikliği yöntemleri bu problemde kullanılmamıştır. Yapılan deneyler göstermektedir ki konu bölümleme probleminin başarımı kelime ilişikliği kullanılarak arttırılabilmektedir. Ayrıca deneyler farklı kelime ilişikliği ölçüm yöntemlerini karşılaştırmak için kullanılabilmektedir. Konulara göre bölümlenmiş metinler otomatik özet çıkarma probleminde kullanılmış ve kelime zinciri tabanlı yöntemlere göre daha başarılı sonuçlar elde etmiştir.Son olarak kelime bütünlüğü analizi anahtar kelime bulma probleminde araştırılmaktadır. Geçmiş araştırmalar anahtar kelimelerin belge getirme ve navigasyon için başarılı araçlar olduğunu göstermektedir. Her ne kadar bu araştırmalar anahtar kelime ve belge getirme arasında bir ilişki olduğunu gösterse de, başka bir çalışmada anahtar kelimeleri bulmak için onların belge getirme başarım tahmini kullanılmamıştır. Bu araştırmada sorgu başarım tahmini yöntemlerinin anahtar kelime bulmada kullanımı incelenmiştir. Bunun için sorgu başarı tahmininde kullanılan öznitelikler anahtar kelime bulma probleminde Naive Bayes sınıflandırıcı ile birlikte kullanılmıştır. Yapılan deneyler bu özniteliklerin farklı boyuttaki belgelerde başarımı arttırdığını göstermektedir. Daha da önemlisi bu özniteliklerin yaygın olarak kullanılan deyim geçme frekansı ve belgede ilk kullanım yeri özniteliklerinin tersine kısa belgelerde daha başarılı olduğunu göstermektedir.Anahtar sozcukler: Kelime butunlu~gu, Anlamsal ilisiklilik, Konu Bolumleme,Ozetleme, Anahtar Kelime C karma.
When we express some idea or story, it is inevitable to use words that are semantically related to each other. When this phenomena is exploited from the aspect of words in the language, it is possible to infer the level of semantic relationship between words by observing their distribution and use in discourse. From the aspect of discourse it is possible to model the structure of the document by observing the changes in the lexical cohesion in order to attack high level natural language processing tasks. In this research lexical cohesion is investigated from both of these aspects by first building methods for measuring semantic relatedness of word pairs and then using these methods in the tasks of topic segmentation, summarization and keyphrase extraction.Measuring semantic relatedness of words requires prior knowledge about the words. Two different knowledge-bases are investigated in this research. The first knowledge base is a manually built network of semantic relationships, while the second relies on the distributional patterns in raw text corpora. In order to discover which method is effective in lexical cohesion analysis, a comprehensive comparison of state-of-the art methods in semantic relatedness is made. For topic segmentation different methods using some form of lexical cohesion are present in the literature. While some of these confine the relationships onlyto word repetition or strong semantic relationships like synonymy, no other work uses the semantic relatedness measures that can be calculated for any two word pairs in the vocabulary. Our experiments suggest that topic segmentation performance improves methods using both classical relationships and word repetition. Furthermore, the experiments compare the performance of different semantic relatedness methods in a high level task. The detected topic segments are used in summarization, and achieves better results compared to a lexical chains based method that uses WordNet.Finally, the use of lexical cohesion analysis in keyphrase extraction is investigated. Previous research shows that keyphrases are useful tools in document retrieval and navigation. While these point to a relation between keyphrases and document retrieval performance, no other work uses this relationship to identify keyphrases of a given document. We aim to establish a link between the problemsof query performance prediction (QPP) and keyphrase extraction. To this end, features used in QPP are evaluated in keyphrase extraction using a Naive Bayes classifier. Our experiments indicate that these features improve the effectiveness of keyphrase extraction in documents of different length. More importantly, commonly used features of frequency and first position in text perform poorly on shorter documents, whereas QPP features are more robust and achieve better results.Keywords: Lexical Cohesion, Semantic Relatedness, Topic Segmentation, Summarization, Keyphrase Extraction.