Tez No İndirme Tez Künye Durumu
480039
Past, present, and future on news streams: discovering story chains, selecting public front-pages, and filtering microblogs for predicting public reactions to news / Haber akışlarında geçmiş, günümüz ve gelecek: haber zincirlerinin keşfi, anasayfaların haber seçimi, habere karşı toplumsal tepkinin tahmini için mikroblog filtrelenmesi
Yazar:ÇAĞRI TORAMAN
Danışman: PROF. DR. FAZLI CAN
Yer Bilgisi: İhsan Doğramacı Bilkent Üniversitesi / Mühendislik ve Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Makine öğrenmesi yöntemleri = Machine learning methods ; Metin madenciliği = Text mining ; Metin süzme = Text filtering
Onaylandı
Doktora
İngilizce
2017
120 s.
Haber akışlarında olayların geçmiş, şimdiki ve gelecek zamanı ile ilgili birçok araştırma imkanı bulunmaktadır. Geçmiş zaman olayların ve aktörlerin ilişkileri barındırmakta; şimdiki zaman haber okuyucularının ihtiyaçlarını yansıtmakta; gelecek zaman ise tahmin edilmeyi beklemektedir. Bu tez, bahsedilen üç zaman dilimiyle ilgili şu bölümlerden oluşmaktadır: Geçmişte zikzaklı arama yaparak haber zincirlerini keşfetmekte, günümüz haberlerinden genel amaçlı anasayfa oluşturmakta ve mikroblog yazılarını toplumsal olay tahmini için haberlere göre filtrelemekteyiz. İlk bölümde, verilen bir haber yazısına göre bir koleksiyon içerisinden haber zincirlerini keşfeden bir çerçeve geliştirmekteyiz. Haber zinciri, farklı haber yazılarının bir araya gelmesiyle oluşmakta ve farklı olayların nasıl bir araya geldiğini ortaya çıkarmaktadır. Geliştirdiğimiz çerçeve yöntem birbirini tamamlayan şu üç bölümden oluşmaktadır. i) Koleksiyonun taranması, ii) zincir ile zincire eklenecek aday arasındaki benzerliğin hesaplanması ve iii) haber yazıları arasındaki benzerliğin hesaplanmasıdır. Tarama işlemi için, güncellenen zincire göre önceki dokümanları tekrar inceleyen zikzaklı arama yapan yeni bir metin madenciliği yöntemi uygulamaktayız. Haber yazıları arasındaki ilişkilerin ortaya çıkarılması için ise haber aktörlerinin sosyal ağından faydalanmaktayız. Etkinliğin dört farklı yöntem—ilgi, kapsam, ahenk ve ilişkilerin keşfi—açısından değerlendirildiği iki kullanıcı araştırması yapmaktayız. İlk kullanıcı araştırması çerçeve yöntemin farklı versiyonlarını kıyaslayarak kullanıcılara bir rehber oluşturmaktadır. İkincisi ise çerçeve yöntemi üç altçizgi yöntem ile kıyaslamaktadır. Sonuçlara göre yöntemimiz ikili kıyaslamaların %61'inde, orta ya da büyük etki boyutunda istatistiksel anlamda farklı olacak şekilde, etkinliğin iyileşmesini sağlamaktadır. Öteki kıyaslamalarda herhangi bir altçizgi yöntemi bizim yöntemimizi istatistiksel olarak geçememektedir. İkinci bölümde, tıklama sayıları gibi meta-özellikler kullanmadan, sadece düz metin kullanarak haberler için toplumsal anasayfa seçmekteyiz. Anasayfa haber seçimi, haber toplayıcılarında önemli haberlerin bulunmasıdır. Anasayfaların uzunluğu ve seçilen haberlerin önemi ve çeşitliliği beraber düşünülerek yeni bir algoritma geliştirilmektedir. Haberlerin önemini, çeşitliliği de sağlamak amacıyla, konu başlığı modelleme yöntemiyle tahmin etmekteyiz. Önemli dokümanları daha sonra önemli konu başlıklarından, anasayfa uzunluğunu dolduracak şekilde öncelik-tabanlı bir method ile seçmekteyiz. Etkinliğin ve çeşitliliği bir kullanıcı araştırmasıyla ölçmekteyiz. Sonuçlara göre haber yazılarının 10 tanesinin en çok yedi tanesi önemli bulunmakta, dokuz tanesi ise farklı konu başlıklarından gözükmektedir. İleride yapılacak araştırmalara yol göstermesi için genel amaçlı anasayfa seçimindeki zorluklardan da bahsetmekteyiz. Üçüncü bölümde ise haber olaylarına karşı ileride gerçekleşecek toplumsal tepkiyi tahmin etmekte kullanılabilecek filtreleme işlemini gerçekleştirmekteyiz. Twitter gibi mikroblog ortamları, toplumun görüşlerini ortaya çıkarmasıyla gün geçtikçe daha fazla önem kazanmaktadır. Terör olayları gibi 2015 ve 2017 yılları arasında gerçekleşmiş olayı ve bu olaylar sırasında atılan tweet'leri içeren BilPredict-2017 adında yeni bir toplumsal tepki veri setini geliştirmiş durumdayız. Önemli kelimelere göre tweet'leri filtrelemekte ve bunları çeşitli özelliklere göre analiz etmekteyiz. Sonuçlar, frekans, duygusallık, yer ve zaman özelliklerinin haber olaylarının doğasını yansıttıklarından dolayı gelecek tahmininde yararlanılabileceklerini göstermektedir.
News streams have several research opportunities for the past, present, and future of events. The past hides relations among events and actors; the present reflects needs of news readers; and the future waits to be predicted. The thesis has three studies regarding these time periods: We discover news chains using zigzagged search in the past, select front-page of current news for the public, and filter microblogs for predicting future public reactions to events. In the first part, given an input document, we develop a framework for discovering story chains in a text collection. A story chain is a set of related news articles that reveal how different events are connected. The framework has three complementary parts that i) scan the collection, ii) measure the similarity between chain-member candidates and the chain, and iii) measure similarity among news articles. For scanning, we apply a novel text-mining method that uses a zigzagged search that reinvestigates past documents based on the updated chain. We also utilize social networks of news actors to reveal connections among news articles. We conduct two user studies in terms of four effectiveness measures: relevance, coverage, coherence, and ability to disclose relations. The first user study compares several versions of the framework, by varying parameters, to set a guideline for use. The second compares the framework with 3 baselines. The results show that our method provides statistically significant improvement in effectiveness in 61% of pairwise comparisons, with medium or large effect size; in the remainder, none of the baselines significantly outperforms our method. In the second part, we select news articles for public front pages using raw text, without any meta-attributes such as click counts. Front-page news selection is the task of finding important news articles in news aggregators. A novel algorithm is introduced by jointly considering the importance and diversity of selected news articles and the length of front pages. We estimate the importance of news, based on topic modelling, to provide the required diversity. Then, we select important documents from important topics using a priority-based method that helps in fitting news content into the length of the front page. A user study is conducted to measure effectiveness and diversity. Annotation results show that up to 7 of 10 news articles are important, and up to 9 of them are from different topics. Challenges in selecting public front-page news are addressed with an emphasis on future research. In the third part, we filter microblog texts, specifically tweets, to news events for predicting future public reactions. Microblog environments like Twitter are increasingly becoming more important to leverage people's opinion on news events. We create a new collection, called BilPredict-2017 that includes events including terrorist attacks in Turkey from 2015 to 2017, and also Turkish tweets that are published during these events. We filter tweets by using important keywords, analyze them in terms of several features. Results show that there is a high correlation between time and frequency of tweets. Sentiment and spatial features also reflect the nature of events, thus all of these features can be utilized in predicting the future.