Tez No İndirme Tez Künye Durumu
539021
User modeling on microblogging web sites / Mikro-blog web sitelerinde kullanıcı modelleme
Yazar:ZEYNEP ZENGİN ALP
Danışman: PROF. DR. ŞULE ÖĞÜDÜCÜ
Yer Bilgisi: İstanbul Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2019
104 s.
Sosyal medyanın son yıllardaki artan kullanımı ve büyük veri araştırmamalarının hızlanması ile bu alanda kullanıcı modelleme ve veri madenciliği ön plana çıkmaya başlamıştır. Sosyal medyanın yaygınlığının ve bilinirliğinin çok yüksek olması ve bu mecralarda veri toplama imkanı sağlayan yazılım programlama arayüzlerinin de bulunması ile sosyal medya üzerinde farklı alanlarda çokca araştırma yapılmaktadır. Bunlara ek olarak Twitter gibi mikro-blog Web siteleri düşünce, bilgi ve haberleri yaymak için en yaygın kullanılan mecralardandır. Bu nedenle, araştırmacılar sosyal medya ve özellikle mikro-blog Web sitelerinde verinin yayılması ve etkin kullanıcıları bulma konularında araştırmalar yapmaktadır. Etkin kullanıcıların tespiti ile, kullanıcılara takip etmek için etkin kişileri önerme, toplum içinde bilginin yayılmasını öngörme, etkin kişiler üzerinden viral olarak kampanyalar yaparak marka bilinirliğinin artırılması gibi pek çok konuda çalışmalar yapılabilmektedir. Bu tez çalışmasında sosyal medya, özellikle Twitter, üzerindeki konu bazlı etkin kullanıcıların bulunması amaçlanmaktadır. Twitter, kullanıcıların 140 karakter ile sınırlı olarak Twitter mesajları (tweet) paylaşabileceği bir mikro-blog Web sitesidir. Kullanıcılar mesajlarında belirli bir konsept veya konu ile ilgili şeyler paylaşmak istediğinde "\#" isareti ile başlayan kelimeler kullanarak bu kelimeleri etiketleyebilirler (hashtag). Kişiler diğerlerinin mesajlarını ana sayfalarında görmek ve kolayca izlemek için onları takip edebilirler (follow). Kullanıcılar diğer kişilerin mesajlarını tekrar paylaşarak "re-tweet" edebilir ve bu mesajın daha çok yayılmasını sağlayabilirler. Bu çalışmada Twitter üzerinde büyük bir veri kümesi toplanmış ve önerilen yöntemlerin başarımı literatürde kabul görmüş diğer yöntemler ile karşılaştırılmıştır. Bu çalışmada etkin kullanıcı kavramı, diğer kullanıcıları etkileyerek onların kendisinden gelen bilgileri tekrar paylaşmaları olarak tanımlanmıştır ve etkin kullanıcılar bu bağlamda verinin en çok yayılmasını sağlayan kişiler olarak karşımıza çıkmaktadır. Etkinlik analizi yapılmadan önce ilk aşama verinin toplanması ve temizlenmesi aşamasıdır. Twitter üzerinde belirlenen 180 bin üzerinde kişinin 2 aydan uzun bir süre boyunca yayınladıkları mesajlar Twitter Streaming API kullanılarak toplanmıştır. Toplamda 38 milyonun üzerinde Twitter mesajı elde edilmiştir. Daha sonra bu mesajlardan noktalama işaretleri ve "ama", "de" gibi kendi başına anlamı olmayan kelimeler çıkartılmış ve geri kalan kelimeler köklerine ayrılmıştır. Veri toplama ve temizleme adımlarından sonra mesajlardaki konuların belirlenmesi aşamasına geçilmiştir. Konu belirleme için Latent Dirichlet Algoritması (LDA) kullanılmıştır. Bu algoritma bir doküman kümesindeki her bir dokümanın konusunun belirlenmesi için kullanılmaktadır ve dokümanda geçen ortak kelimelerin sıklığını baz alarak çalışır. Bu nedenle 140 karakterden oluşan mesajlar gibi kısa dokümanlarda çok iyi sonuçlar vermemektedir. LDA algoritmasının daha iyi sonuç vermesi için her kullanıcının mesajlarının, her bir hashtag'in geçtiği mesajların bir dokumana toplanması gibi çalışmalar mevcuttur. Fakat daha önce yaptığımız bir çalışmada her kişinin her gün için attığı mesajların bir dokümana toplanmasının daha iyi sonuçlar verdiği tespit edilmiştir. Örnek olarak veride 3 gün mesaj atan bir kişinin mesajlarından 3 ayrı doküman oluşturulmuştur. Bu dokümanlar LDA algoritmasına girdi olarak verildiğinde belirlenen sayıda konuyu temsil eden kelime kümeleri çıktı olarak alınmaktadır. 20 olarak belirlediğimiz konu sayısı kadar kelime demeti oluşmuş ve bu kelimelerin hangilerinin anlamlı bir konu oluşturduğunu tespit etmek için alan uzmanı kişilerden yardım alınmıştır. Bu kişiler bazı konuları birleştirerek, çok anlamlı olmayan bazı konuları da eleyerek toplamda altı adet konu belirlemişlerdir. Bu konular "Politika/Haber", "Dini", "Manevi", "Sosyal Sorumluluk", "Spor", "TV/Dizi" olarak adlandırılmıştır. Daha sonra bu konuların temsil ettiği kelimelerin bulunduğu mesajlara konular atanmıştır. Bir mesaj hiçbir konuya ait olmayabileceği gibi bir veya birden fazla konu da içerebilmektedir. Bu mesajların sahipleri de belli bir yüzde üzerinde bu konular hakkında bilgi paylaşmamışsa bu kişiler de konular ile eşleşmiştir. Yine aynı şekilde, kişiler sıfır, bir veya birden fazla konuda mesaj atmış olabilirler. Kişilerin ait olduğu konular belirlendikten sonra konuları temsil eden alt çizgeler oluşturulmuştur. Bu çizgeler tüm veriyi içeren büyük çizgenin alt kümesidir ve düğümler belirlenen konuda mesaj atan kişileri, ayrıtlar da bu kişiler arasındaki takip bilgisini içermektedir. Bir kişi sıfır, bir veya birden fazla çizgede yer alabilmektedir. Konu belirleme ve konu bazlı çizgelerin oluşturulması adımından sonra kullanıcı modelleme aşaması yer almaktadır. Bu aşamada etkin kullanıcıları bulma performansını artırmak amacı ile etkinlik ile ilişkili bazı özniteliklerin bulunması amaçlanmaktadır. Yapılan kapsamlı çalışmalar sonucunda, "odaklanma oranı", "aktiflik", "özgünlük" ve "hızlı tepki alma" gibi 4 temel kişiye özel öznitelik tespit edilmiştir. Odaklanma oranı ile bir kişinin mesajlarının yüzde kaçının o konu ile ilişkili olduğu hesaplanmaktadır. Daha az konuya daha çok odaklanmış kişilerin daha etkin olacağı varsayımı ile bu özniteliğin yöntemin başarımını artırmada etkili olacağı düşünülmektedir. Yine aynı şekilde daha aktif ve daha özgün olmanın da etkinlik ile doğru orantılı olacağı varsayılmıştır. Burada aktiflik değeri, kişilerin veri toplanan günlerin yüzde kaçında o konu ile ilgili mesaj attıklarının hesaplanması ile elde edilmektedir. Özgünlük ise kendi sözleri ile mesaj atma, re-tweet yapmama yüzdesidir ve yine konu bazlı hesaplanmaktadır. Hızlı tepki alma özniteliği de bir kişinin bir mesaj attıktan sonra bu mesajın re-tweet edilme hızını göstermektedir. Bu öznitelikte hızlı tepki alma geçen sürenin azlığı ile ölçüldüğünden etkinlik ile ters orantılıdır. Tüm bu öznitelikler 0-1 aralığında normalize edilmiştir. Son olarak, bütün bu aşamalardan sonra, ektin kullanıcı bulma adımına gelinmiştir. Bu çalışmada etkin kullanıcıların bulunması için iki temel yöntem önerilmiştir. Bunlardan birincisi Kişiselleştirilmiş (Personalized) PageRank (PPR) algoritmasıdır. Bu algoritma iyi bilinen PageRank (PR) algoritmasının, kişiye özel özniteliklerin de kullanılması ile iyileştirilmesi sonucu kişilere etkinlik skoru atanması yöntemidir. PR algoritması, belirli bir çizge üzerindeki bir düğümün etkinlik skorunu onu işaret eden düğümlerin etkinlik skorlarının normalize edilerek toplanması ile bulur. Sistem aynı zamanda çizge üzerindeki döngüleri ve "sink" düşümleri engellemek için sistem linkleri takip etmek yerine rasgele olarak bazı düğümlere atlar. PPR algoritması da bu rastgele atlamalarda öznitelik değerleri yüksek olan kişilerin ön plana çıkartılması mantığı ile çalışır. Önerilen ikinci yöntem Matris Faktorizasyonu (MF) temelli olan Etkinlik Faktoriazsyonu (Influence Factorization - IF) yöntemidir. MF algoritması çok az yoğun bir kullanıcı-nesne matrisinde, kullanıcıların değerlendirmelerinin eksik olduğu nesneler için bu değerleri doldurarak kullanıcıların nesnelere vermesi olası değerleri tahmin etme üzerine çalışan bir yöntemdir. Hali hazırda dolu olan değerleri ayni şekilde bırakarak sadece boş olan değerleri tahmin eder. Biz de sosyal medyada toplanan verilerin bütün verinin sadece bir bölümünü oluşturduğu, veri toplama sürecinde bazı kişilerin çeşitli nedenlerle normal davranışlarından farklı davranışlar sergileme ihtimalinin yüksek olduğu nedeni ile gözlemlenemeyen değerlerin tahmin edilmesinin etkin kullanıcı tahmininde faydalı olacağı düşüncesi ile bu yöntemi kullandık. IF kapsamında kullanılan girdi matrislerin farklılık gösterdiği iki temel yöntem kullanılmıştır. Bunlardan ilki kullanıcı-kullanıcı matrisinin girdi olarak alan User-User Influence Factorization (U-UIF) yöntemi, diğeri ise kullanıcı-konu matrisini girdi olarak alan User-Topic Influence Factorization (U-TIF) yöntemidir. Bu yöntemin çıktısı kişilere atanmış etkinlik skorudur. Bu skorlar yüksekten alçağa doğru sıralandığında ilk sıradaki kişiler en etkin kişilerdir. Bu yöntem her konu için her kişiye özel öznitelik ile ayrı aryı denemiş ve o konuda başarımı en çok artıran öznitelik belirlenmiştir. Sonuç olarak öznitelik kullanmanın standart PR algoritmasından daha iyi sonuçlar verdiği tespit edilmiştir. Fakat bazı öznitelikler bazı konularda en iyi sonucu verirken, diğer konularda farklı öznitelikler daha iyi sonuç vermektedir. Bu nedenle, PPR algoritmasının başarımının iyiliği ispatlansa da veri türüne göre en etkin özniteliklerin belirlenmesi için detaylı deneyler yapılması gerekmektedir. U-UIF yönteminde matris elemanları her bir kullanıcı çiftinin birbirinin mesajlarının yüzde kaçını re-tweet ettikleri bilgisinden oluşmaktadır. Örneğin, A kullanıcısı B kullanıcısının 10 mesajın 4'ünü re-tweet ettiyse A-B elemanının değeri 0,4 olarak belirlenmektedir. MF yöntemi ile re-tweet oranı gözlemlenmeyen çiftlerin re-tweet oranları hesaplanmış ve en çok re-tweet alan kişiler en etkin olarak belirlenmiştir. Fakat bu yöntem benchmark yöntemlerden daha iyi sonuç vermemektedir. İkinci IF yöntemi olan U-TIF yönteminde her kişiye özel öznitelik için elemanları bir kullanıcı-konu ikilisi için o özniteliğin değeri olan bir matris oluşturulmuştur. Bu deneyler birden fazla öznitelikten oluşturulan hibrit öznitelikler ile de çalıştırılmıştır. Önceki yönteme benzer olarak veride gözlemlenemeyen özniteliklerin öngörülmesi ile kişilerin etkinliklerinin tespit edilmesi amaçlanmaktadır. Sonuç olarak özgünlük ve takipçi sayısı öznitelikleri ile oluşturulan hibrit özniteliklerin bu yöntemin başarımını artırdığı ve pek çok konuda PPR algoritmasından bile iyi sonuçlar elde edildiği gözlemlenmiştir. Sadece Politika/Haber konusunda PPR, U-TIF yönteminden daha iyi sonuç vermektedir. Bunun nedeni, bu konudaki ektin kişilerin eğitim verisinde zaten bulunduğu, gözlemlenmeyen değerlerin öngörülmesinin bu konu için çok da anlamlı sonuçlar vermediği gözlemlenmiştir. Sonuç olarak PPR ve U-TIF yöntemleri arasında seçim yaparken alan bilgisinin gerekliliği hangi özniteliklerin daha anlamlı olduğu ve çizgenin dinamikliğinin öngörülebildiği durumlara göre doğru yöntem ve öznitelikler seçilmelidir. Bunlar bilinmiyorsa detaylı deneylere ihtiyaç duyulmaktadır. Son olarak, bu yöntemlerin karşılaştırılmalarındaki zorluklara yer verilmektedir. Bütün yöntemlerde de etkin kişiler tespit edildikten sonra bu çıktının başarımını ölçmek için doğruluğu ispatlanan bir veri bulunmadığı için farklı yöntemler kullanılmaktadır. Literatürde kullanılan Linear Thresholds yöntemindeki aktivasyon sayısı değeri her yöntem ve konu için ayrı ayrı hesaplanmıştır. Bunun yanı sıra PPR yöntemi sonuçlarını değerlendirmek için gönüllüler üzerinde bir anket de düzenlenmiştir. Fakat bunların ikisi de hesaplanması ve düzenlenmesi zor, başarımı ölçmek için etkinliği düşük yöntemlerdir. Bunların yanı sıra, bu çalışmada önerilen yayılma değeri (spread score) ölçütü ile kolay ve sezgisel bir şekilde de başarımın ölçülebileceği de gösterilmiştir. Bu ölçüt bir nevi normalize re-tweet değeridir ve kişilerin bir konudaki mesajları ne kadar yaydıklarını hesaplamaktadır. Bu da etkinlik tanımı ile doğru orantılıdır. Yayılma değeri sonuçlarının anket ve aktivasyon değeri sonuçları ile paralellik gösterdiği de tespit edilerek, etkinliği ölçmek için geçerli bir ölçüt olduğu da ispatlanmıştır.
Social networks are one of the mostly focused areas for user modeling and data mining with the increase of big-data technologies and computational power. Since social media is widely used and accepted, in addition to possibility to collect data with the need, it became a target media to research on. Moreover, social media, especially micro-blogging web sites like Twitter have become more important for spreading the information and ideas organically. Hence, researchers started to focus more on influence modeling and the ways of identifying most influential people. In this dissertation, we aim to identify topical influencers on social networks. Our proposed methodologies use a large data set collected on Twitter network and verified by comparing state-of-the-art methodologies. Influence in this research is defined as the positive affect of users on others that end up with re-sharing an idea, thought, or information. Specific to Twitter, re-tweeting of a post is a direct affect of influence. Higher influence results on higher information diffusion. Prior to influence analysis, as the first step, a large data set is collected using Twitter streaming API for over two months of over 180K users. After collecting relationship of these users and all of their tweets on the given period of time, data cleaning process performed such as removing stop words and punctuation and stemming words in the tweets. Secondly, after the prepossessing step, topic modeling is applied to all cleaned and stemmed tweets. To make topic modeling more efficient and effective, tweets of each user for each day is pooled as one document. Afterwards Latent Dirichlet Allocation (LDA) was applied to those documents. As the output of LDA 20 topics were generated and word clusters representing those topics were given. Domain experts manually selected most coherent topics and merged some of the topics as one and this process resulted with 6 coherent topics, namely "Politics/Breaking News", "Spiritual", "Religion","Social Responsibility", "Sports" and "TV/TV Shows". All the tweets assigned with zero, one or more topics regarding the words being in the cluster of words of topics. And the users assigned to those topics if their topical tweets exceeded a certain threshold. Finally, topical networks are formed with those users that have assigned to specific topics. One user can be in zero, one or more topical networks as nodes, while the edges representing the following relationship. After topic modeling, user modeling is applied to identify user specific features that would be indicators of being influential. Focus rate, activeness, authenticity, and speed of getting reaction features have been calculated for each user and each topic. This step is conducted to increase the performance of influence modeling step and is has been proved that modeling users improves the identification of influential users rather than treating everybody as same. Finally, influence analysis is applied with two major methodologies. First one is Personalized PageRank (PPR) algorithm that incorporates user specific features to the well-known PageRank (PR) algorithm. The random surfer model of PR algorithm is modified such a way that transitions between nodes are favored with the higher user specific feature values. Hence more active, authentic, focused or fast getting reaction users became positively biased in the PPR algorithm. This algorithm has been implemented on topical networks rather than the entire network with the intuition of users being influential on specific topics rather than all. This work also proved that this theory holds in all topics. The results of this approach proved that modeling users as well as topics increases the performance of influence analysis. However, user specific features affect differently per topic, while one feature is more effective in one topic and for other topics another feature might be more effective. Hence, domain knowledge and extensive experimenting is required for different data sets and topics. Second influential user identification approach proposed in this work is Influence Factorization (IF) methodology. This approach utilizes Matrix Factorization to predict future influencers on top of identifying the current ones. Since a collected data set can contain only a snapshot of the global data, some influential users might not be as influential within this data set even though the collected network is really large and collection period is long. Hence unobserved values tried to be predicted with IF approach. This approach did not improve the performance of benchmark methodologies on all topics except one. Two different sub approaches identified in IF based on the matrices they use as the input. First one is User-User Influence Factorization (U-UIF) and the second one is User-Topic Influence Factorization (U-TIF). First one uses a user by user matrix where entries of the matrix are the normalized retweet rate of a user-user pair. This approach tries to fill non existing values of normalized retweet rates that is a direct indication of information spreaders, hence influencers. For each topic a user-user matrix was generated and unobserved normalized retweet rates were calculated with U-UIF methodology. This approach outperformed all benchmark methodologies on all topics, and also performed better than PPR in most of the topics. Especially when user specific features are combined with follower count information as a hybrid measure this approach proved to be superior than other approached implemented. Follower count information is an important feature when combined with other features, but not alone. In PPR, in-degree of nodes are important by nature since they all contribute to influence score of the node. We incorporated follower count to hybrid measures to capture that notion and obtained better results with U-TIF. Second IF approach is called U-TIF and it receives a user-topic matrix as the input. For each user specific feature, a user-topic matrix is generated where the entries were the values of that user specific feature. Some hybrid features that are combinations of single user specific features were also experimented. The U-TIF approach fills the unobserved feature values for user-topic pairs. For instance, a user might be highly focused on some topic but due to some reason, she might not focus on that topic during the data collection time. With this approach it is aimed to reveal this information. Output of all these approaches are a list of users with scores either PPR scores, normalized retweet rate totals, or user specific feature values. When we sort users with these scores, we get top influencers. Evaluation of these top influencers is another challenging task since there is no ground truth. For this purpose we also proposed a simple to calculate measure, spread score, that is a variation of normalized retweet rate that show potential diffusion that a user might initiate. We also evaluated our approaches with a human survey and another another commonly used evaluation methodology and verified that "spread score" is adequate measure to evaluate the performance of influential user identification process.