Tez No İndirme Tez Künye Durumu
410518
Rule-based text summarization in Turkish / Türkçe için kural tabanlı metin özetleme
Yazar:ÇAĞDAŞ CAN BİRANT
Danışman: PROF. DR. YALÇIN ÇEBİ
Yer Bilgisi: Dokuz Eylül Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2015
120 s.
Dijital çağın başlamasıyla birlikte üretilen verinin miktarı üssel olarak artmaya başlamıştır ve bu artış bilgisayarların kapasitesini zorlayacak şekilde devam etmektedir. Günümüze kadar ürettiği bilgiden daha fazlasını son iki yılda ürettiğimizi düşünürsek metin özetleme bu yüksek miktardaki günlük veri üretimini dizginleme çabası olarak görülebilir. Bir metnin ne anlattığını anlamak için o metnin açıklayıcılığından bir şey kaybetmeyecek kadar kısa ve metnin önemli bölümlerini içerecek kadar kapsamlı bir özete gereksinim vardır. Bu amacı gerçekleştirmeye çalışan birçok özetleme yazılımı anlambilimsel altyapılar, kavram dizinleri ve sözcük sıklığı listelerini kullanmaktadır. Amacımız, Türkçe için kural tabanlı bir metin özetleme yazılımı geliştirmektir. Bu çalışmada Türkçe için otomatik metin özetleyici bir yazılım ve bu yazılımda kullanılmak üzere bazı anlambilimsel ilişki sözlükleri geliştirilmiş ve daha önceden geliştirilmiş olan bir dizi doğal dil işlemleme aracı iyileştirilerek kullanılmıştır. Ayrıca, otomatik metin özetlemede yeni yöntemler kullanan yazılımlar geliştirilmiştir. Bu süreç içerisinde yan ürün olarak ortaya konan Eş ve Yakın Anlamlılar Sözlüğü ve Zıt Anlamlılar Sözlüğü'nün her ikisi de Türk Dil Kurumu tarafından onaylanmış ve internet sitesi üzerinden yayına çıkarılmıştır. Bahsedilen bu araçlar ve sözlüklerin sayesinde, hedeflenilen yazılımın geliştirilmesi tamamlanmıştır. Kural Tabanlı Otomatik Metin Özetleme Yazılımının ortalama başarı düzeyi hem nicel olarak ROUGE-N yöntemi kullanılarak, hem de nitel olarak çözümlenmiştir. Bu analiz yönteminde elde edilen verilerin, literatür çalışmasında incelediğimiz diğer çalışmalarla yakın değerler olmasının yanı sıra; kişisel olarak ortaya konan özetlerin, sistemden elde edilen özetler ile de benzerlik gösterdiği görülmüştür.
The volume of data produced has exponentially increased with the digital revolution and it continues to race to the limits of the capacity of our computers and supercomputers. Automatic text summarization is one of efforts to tame the bestial product of our daily data production. In order to understand what a text is about, a summary is needed which is short enough not to compromise the understandability, and comprehensive to include the most important topics of that text. Numerous automatic text summarization software which aimed at achieving this goal use semantic relations, thesauri, and word frequency lists. Our aim is to develop a Rule Based Automatic Text Summarization Software (RB-TTS) for Turkish. In this thesis, semantic relations dictionaries are developed to be used in an automatic text summarization software for Turkish, and also a series of natural language processing tools developed before but improved in this thesis is used. In addition, new software that use new methodology in automatic text summarization are devised. During the studies carried out for this thesis, both dictionaries as byproducts; the Synonymous Dictionary and the Antonymous Dictionary were developed, each of which was approved and electronically published by Turkish Language Association (Türk Dil Kurumu, TDK). With the help of the mentioned tools and dictionaries, RB-TTS was developed. The average success rate of the RB-TTS is analysed both quantitatively using ROUGE-N metrics and qualitatively. There is shown that, results of this analysis is close to the results of other works, which are explained in literature. The similarity between the summaries of authors and our software is also shown by people who participate to analysis work.