Tez No İndirme Tez Künye Durumu
619020
Metin çizgelerinde bağımsız kümelere dayalı çıkarımsal metin özetleme / Extractive text summarization based on independent sets in text graphs
Yazar:TANER UÇKAN
Danışman: PROF. DR. ALİ KARCI
Yer Bilgisi: İnönü Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2020
97 s.
Bu tez çalışması kapsamında genel, denetimsiz ve çıkarıcı metin özetleme problemine iki yeni çizge tabanlı yaklaşım sunularak katkıda bulunulmuştur. Her iki yaklaşımın veri işleme aşamasında da kullanılan KUSH (Karcı,Uçkan,Seyyarer,Hark) aracı önerilmiş ve denenmiştir. Önerilen yöntemlerden ilki, üç ana adımdan oluşan CatSumm (Cengiz, Ali, Taner Summarization) modelidir. İlk adımda KUSH aracı ile normalizasyon gerçekleştirildi. Modelin ikinci adımında spektral çizge bölmeleme ile çizgeler kümelenerek özetlerin alt çizgelerde bulunan cümle sayısı oranları ölçüsünde üretilmesi sağlanmıştır. Son aşamada düğüm ağırlıklandırma yöntemleri kullanılarak, merkezilik değerleri yüksek olan cümlelere özette yer verilmektedir. Bağımsız kümelerde yer alan düğümlere karşılık gelen cümlelerin, özette yer almaması gerektiği öngörüsünden yola çıkılan ikinci çalışmada ise düğümlerin genel çizge üzerindeki etkisi sayısal olarak belirlenmeden önce, özetlenecek belgeler üzerinde bir sınırlamaya gidilmiştir. Her iki yaklaşım da DUC (Document Understanding Conference, DUC-2002 ve DUC-2004) veri seti üzerinde ve ROUGE (Recall-Oriented Understudy for Gisting Evaluation) değerlendirme metrikleri kullanılarak test edilmiştir. 100, 200 ve 400 kelimelik özetler için deneysel süreçler tekrarlanmıştır. Önerilen modeller ile rapor edilen değerler, yenilikçi yöntemlerin katkılarını ortaya koymaktadır.
Within the scope of this thesis, two new graph-based approaches have been contributed to the general, unsupervised and extractive text summarization problem. The KUSH (Karcı, Uçkan, Seyyarer, Hark) tool used in the data processing stage of both approaches has been proposed and tried. The first proposed method is the CatSumm (Cengiz, Ali, Taner Summarization) model, which consists of three main steps. In the first step, normalization was performed with the KUSH tool. In the second step of the model, the graphs were clustered with spectral graph partitioning, so that the summaries were produced in accordance with the number of sentence ratios in the subgraphs. In the last stage, using the node weighting methods, sentences with high centrality values are included in the summary. In the second study, based on the prediction that the sentences corresponding to the nodes in the independent clusters should not be included in the summary, a limitation was made on the documents to be summarized before the effect of the nodes on the general graph was determined numerically. Both approaches were tested on the DUC (Document Understanding Conference, DUC-2002 and DUC-2004) data set and using ROUGE (Recall-Oriented Understudy for Gisting Evaluation) evaluation metrics. Experimental processes were repeated for summaries of 100, 200 and 400 words. The values reported with the proposed models reveal the contributions of innovative methods.