Doğal dil işleme alanındaki en önemli alanlardan biri metin özetlemedir. Çeşitli alanlarda kullanılmaya başlayan metin özetleme zaman ve bütçede tasarruf sağlayarak yöneticilerin hızlı bir şekilde karar vermelerine imkân sağlamaktadır. Metin özetleme tek bir paragraf, tek sayfalı veya çok sayfalı dokümantasyonlar üzerinde uygulanabilir. Günümüzde metin özetleme çalışmaları daha çok haber veri setleri üzerinde gerçekleştirilmektedir. Ancak bu çalışmada Türkçe dili için makale veri seti yazar tarafından hazırlanmış ve literatüre kazandırılmıştır.
Bu çalışmada haber ve makale olmak üzere iki faklı veri seti kullanılmış ve başarısı incelenmiştir. Haber veri setinde 80000 eğitim, 20000 doğrulama ve 2000 test kullanılmış, ancak makale veri setinde 818 eğitim, 91 doğrulama ve 101 test veri seti olarak sistemin eğitilmesi ve denenmesi için kullanılmıştır. Makale veri setinin uzun olması nedeniyle ilk olarak BERT çıkarımsal özetleme yöntemi ile metinlerin uzunluğu azaltılarak sistemin eğitilmesi için hazırlanmıştır.
Çalışmada mT5 mimarisi kullanılmış ve ilk olarak haber veri seti 8 batch-size ve 16 batch-size ile çalıştırılmıştır. Daha sonra öğrenme oranı değiştirilerek sistemin başarısı ROUGE metrikleriyle incelenmiştir. Bu çerçevede 8 batch-size, 16 batch-size'a göre daha başarılı olmuştur. Öğrenme oranı değiştirildikten sonra sistemin başarısı önemli ölçüde artmıştır. Devamında makale veri seti 8 batch-size ile çalıştırılmış ve başarısı ROUGE metrikleri ile incelenmiştir.
|
One of the most important areas in natural language processing is text summarization. Text summarization, which has started to be used in various fields, allows managers to make quick decisions by saving time and budget. Text summarization can be implemented on single-paragraph, single-page, or multi-pages documentation. Today, text summarization studies are mostly carried out on news data sets. However, in this study, the article data set for the Turkish language was prepared by the author to the literature.
In this study, two different data sets, news and articles, were used and its success was examined. In the news dataset, 80000 training, 20000 validation and 2000 tests were used, but in the article dataset, 818 training, 91 validation and 101 test datasets were used to train and test the system. Due to the long article data set, it was first prepared to train the system by reducing the length of the texts with the BERT extractive summarization method.
In the study, mT5 architecture was used and the news data set was run with 8 batch-size and 16 batch-size. Afterwards, the learning rate was changed and the success of the system was examined with ROUGE metrics. In this framework, 8 batch-sizes were more successful than 16 batch-sizes. After the learning rate was changed, the success of the system increased significantly. Afterwards, the article dataset was run with 8 batch-sizes and its success was examined with ROUGE metrics. |