Tez No İndirme Tez Künye Durumu
764246
Predicting the academic influence and trending research topics / Akademik etkiyi ve araştırma konularının eğilimini tahminleme
Yazar:MURAT YÜKSELEN
Danışman: PROF. DR. PINAR KARAGÖZ ; DR. ÖĞR. ÜYESİ ALEV MUTLU
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Anahtar kelime çıkarımı = Keyword extraction ; Bilgi akışı = Information flow ; Derin öğrenme = Deep learning ; Sosyal ağlar = Social networks ; Sınıflandırma = Classification ; Trend analizi = Trend analysis
Onaylandı
Doktora
İngilizce
2022
108 s.
Akademik çalışmalara ilişkin tahminleme literatürde kapsamlı bir şekilde incelenmektedir. Bu tezde bu alandaki iki tahmin problemine odaklanılmaktadır. İlk olarak, bir sosyal akademik ağ içindeki bir yazar için konu benimseme tahminleme problemi incelenmektedir. Sorun bir etki tespit bakış açısıyla modellenip ve yazar üzerindeki etkinin önemli bir faktör olduğu önerilmektedir. Bu nedenle etki alımına dayalı yeni bir özellik tanımlandı ve yazara yayılan etkiyi hesaplamak için bir algoritma geliştirildi. Bu özelliğin etkisi, problem için literatürde kullanılan diğer özelliklerle birlikte ve bunlarla karşılaştırılarak araştırıldı. Arnet Miner veri seti üzerinde yapılan deneyler, yazar üzerinde birikmiş etkinin, konunun benimsenmesini öngörmede etkili olduğunu göstermektedir. İkinci problem olarak, bir akademik makale koleksiyonundan araştırma konularının eğilimini tahmin etmeye odaklanarak kapsamımızı genişletmeye ve genelleştirmeye çalışıyoruz. Önceki çalışmalar sorunu farklı şekillerde modellemekte ve çoğunlukla korelasyon analizi ve kümeleme gibi klasik yaklaşımları uygulamaktadır. Ayrıca birkaç yeni sinir modeli tabanlı çalışma vardır, ancak bunlar eğilim tahmini için özellik vektörlerine ve ek bilgilere ihtiyaç duyarlar. Bu çalışmada gözlem zaman dilimi içinde bir yayın koleksiyonu verildiğinde, sonraki zaman dilimi (tahmin zaman dilimi) için sorgulanan bir anahtar kelime kullanımının artacağı, azalacağı veya sabit kalacağı tahminleniyor. Çözüm olarak sorgu anahtar kelimesi için yayın koleksiyonlarından özet temsiller oluşturmaya odaklanan bir takım derin nöral mimarileri öneriyoruz. Verilerin sıra tabanlı yapısı nedeniyle Uzun Kısa-Süreli Bellek (LSTM) modülü temel bir rol oynar, ancak farklı katmanlarla yeni bir şekilde birleştirilir. Önerilen nöral mimarilerin ilk grubu, her makaleyi bir anahtar sözcük dizisi olarak kabul eder ve yayın koleksiyonu temsillerini oluşturmak için kelime temsilinden başlanır. Bu grupta önerilen mimariler yıl bazlı ve genel özet temsillerin oluşturulma şekli bakımından birbirinden farklıdır. İkinci grupta her yayın doğrudan bir vektör olarak temsil edilir ve farklı doküman temsil tekniklerinin kullanımı araştırılır. Modellerin analizleri Microsoft Academic Graph veri setinden elde edilen farklı akademik mekanlara ait çeşitli yayın koleksiyonları üzerinde gerçekleştirilmiştir. Temel yöntemlere karşı yapılan deneyler, önerilen derin sinir tabanlı modellerin genel olarak temel modellerden daha yüksek eğilim tahmin performansı elde ettiğini göstermektedir. Önerilen modeller arasında yayın temsili tabanlı modeller çoğu durumda daha iyi sonuçlar vermektedir.
Predictions on academic research are thoroughly studied in the literature. In this thesis, we focus on two prediction problems in this domain. First we study the problem of topic adoption prediction for an author within a social academic network. We model the problem with an influence detection point of view, and propose that the influence on the author is an important factor. Hence, we define a novel influencee prediction based feature and developed an algorithm to calculate the influence propagated towards the author. The effect of this feature is explored together with and in comparison to other features used in the literature for the problem. The experiments conducted on Arnet Miner data set show that accumulated influence on author is effective for predicting topic adoption. As a second problem, we try to enlarge our scope and generalize by focusing on predicting the trending research topics from a collection of academic papers. Previous efforts model the problem in different ways and mostly apply classical approaches such as correlation analysis and clustering. There are also several recent neural model based solutions, however they rely on feature vectors and additional information for the trend prediction. In this work, given a collection of publications within the observation time window, we predict whether the use of a keyword will increase, decrease or be steady for the future time window (prediction window). As the solution, we propose a family of deep neural architectures that focus on generating summary representations for paper collections under the query keyword. Due to the sequence based nature of the data, Long Short-Term Memory (LSTM) module plays a core role, but it is combined with different layers in a novel way. The first group of proposed neural architectures consider each paper as a sequence of keywords and use word embeddings to construct paper collection representations. In this group, the proposed architectures differ from each other in the way year based and overall summary representations are constructed. In the second group, each paper is directly represented as a vector and the use of different paper embedding techniques are explored. The analyses of the models are performed on a variety of paper collections belonging to different academic venues, obtained from Microsoft Academic Graph data set. The experiments conducted against baseline methods show that proposed deep neural based models achieve higher trend prediction performance than the baseline models on the overall. Among the proposed models, paper embedding based models provide better results for most of the cases.