Tez No İndirme Tez Künye Durumu
711071
Application of text mining to technology management domain to extract topics and trends / Konuların ve eğilimlerin bulunması amacıyla metin madenciliğinin teknoloji yönetimi alanına uygulanması
Yazar:YAŞAR TEKİN
Danışman: PROF. DR. PINAR KARAGÖZ
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Sosyal Bilimler Enstitüsü / Bilim ve Teknoloji Politikası Çalışmaları Anabilm Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Bilim ve Teknoloji = Science and Technology
Dizin:Konu modelleme = Subject modeling ; Metin madenciliği = Text mining ; Teknoloji = Technology ; Teknoloji kullanımı = Technology utilization ; Teknoloji yönetimi = Technology management
Onaylandı
Doktora
İngilizce
2022
136 s.
Konu modelleme, büyük belge topluluklarındaki gizli konuların tespitinde yaygın olarak kullanılan bir yöntemdir. En dikkat çekici kullanımlarından birisi bilimsel alanlardaki uygulamalarıdır. Konu modelleme, bir bilimsel alanda yayınlanan tüm makalelere uygulandığında, incelenen dönem için konuların ve eğilimlerinin genel bir görünümünü ortaya koyar. Yalnızca bir konferans veya dergiye uygulandığında ise, söz konusu konferans veya derginin global eğilimlerden farklılıklarını ortaya çıkarır. Konu modellemede kullanılan en popüler yöntem Gizli Dirichlet Ayrımı (GDA)'dır. Birçok farklı alanda kullanılıyor olmasına rağmen model parametrelerinin nasıl eniyileneceği ve kararsızlığın nasıl giderileceği soruları tam olarak yanıtlanabilmiş değildir. Bu tez iki ana bölümden oluşmaktadır: 1) Birinci bölümde bir deneysel çalışma gerçekleştirilerek a) sıralı dokümanlarda kararsızlık seviyesi, b) kararsızlığı önlemek (mümkün değilse hafifletmek) için kullanılabilecek yöntemler ve c) GDA parametrelerinin eniyilenmesinde sözcük vektör temsillerinin kullanımı araştırılmıştır. Araştırma sonucunda: a) sıralı dokümanlarda da kararsızlık seviyesinin yüksek olduğu, b) konu kararsızlığını hafifletmek için çoğaltılmış konu modellerinin ortalama puanlarının kullanılabileceği ve c) GDA parametrelerinin eniyilenmesinde Skip-gram benzerlik puanının kabul edilebilir bir ölçü olduğu tespit edilmiştir. 2) İkinci bölümde, ilk bölümde önerilen yöntem kullanılarak, konu modelleme Teknoloji Yönetimi (TY) alanına uygulanmıştır. TY literatürünün zirvedeki konuları, en çok çalışılan endüstri dalları, en çok kullanılan yöntemleri ve şaşırtıcı konuları belirlenmiştir.
Topic modeling is a widely used technique to extract latent topics from large document collections. One of the most remarkable uses of it is its application to scientific fields. If topic modeling is applied to all articles published in a specific scientific field, it provides an overall view of topics and trends for the time period under consideration. If it is applied to a single conference or journal, it reveals differences from global trends. The most popular method used for topic modeling is Latent Dirichlet Allocation (LDA). Although LDA is used in many different fields, the problems of how to optimize model parameters and how to eliminate topic instability have not been fully solved yet. This thesis consists of two main parts: 1) An empirical investigation is conducted: a) to investigate the level of topic instability in ordered documents, b) to search for methods to eliminate (if not possible, to alleviate) the effects of the topic instability, c) to evaluate the use of word vector representations to optimize LDA parameters. It is found out that: a) the level of instability is high even in ordered documents, b) average scores of replicated topic models can be used to alleviate the effects of topic instability, c) Skip-gram similarity score is an acceptable measure in optimizing LDA parameters. 2) By using the method proposed, topic modeling is applied to Technology Management (TM) domain. Top topics, the most studied industries, the most used methods and surprising topics of TM literature are identified.