Tez No İndirme Tez Künye Durumu
641054
Farklı dil ve platformda semantik analiz / Semantic analysis in different language and platform
Yazar:VOLKAN ALTINTAŞ
Danışman: DR. ÖĞR. ÜYESİ MEHMET ALBAYRAK ; DR. ÖĞR. ÜYESİ KAMİL TOPAL
Yer Bilgisi: Süleyman Demirel Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Doğal dil işleme = Natural language processing ; Metin madenciliği = Text mining ; Ontoloji = Ontology
Onaylandı
Doktora
Türkçe
2020
97 s.
Teknolojinin hızlı gelişimi ile beraber, internet, yaygın bir şekilde günlük hayatımızda kullanılmaktadır. İnternet ve internet teknolojilerinin yaygınlaşması ve her alanda kullanılması ile birlikte, üretilen veri miktarı her gün artmaya devam etmektdir. Boyut olarak artan verinin biçimlendirilerek analiz edilebilir hale getirilmiş şekli, "Büyük Veri" olarak adlandırılmaktadır. Büyük verinin, bireyler tarafından analiz edilmesi, yorumlanması ve anlamlı sonuçlara varılabilmesi ihtimali, verinin boyutundan dolayı kalmamıştır. Büyük verinin işlenebilmesi, işlenen verilerden anlamlı sonuçlar çıkarılabilmesi ve verilerin içerisinde varolan tematik bilginin ortaya çıkarılması son yıllarda önem kazanmıştır. Devletler, şirketler ve kurumlar, izleyecekleri politikaları depoladıkları verileri analiz ederek belirlemektedir. Bu konuda gelişen teknoloji ile verinin işleneceği donanım özelliklerinin de gelişmesi, araştırmalara katkı sunmaktadır. Algılayıcılardan toplanan veriler, sosyal medya paylaşımları, firmaların ve devlet kurumların barındırdığı veriler, büyük veri için örnek olarak gösterilebilir. Bu verilerin büyük bir çoğunluğu kullanıcılar tarafından oluşturulmaktadır. Kullanıcı tarafından veri paylaşımının en fazla yapıldığı ortamlar olarak sosyal medya platformları ön plana çıkmaktadır. Sosyal medya platformlarında kullanıcılar karşılaştıkları bir problem, güncel bir sorun veya herhangi bir konu ile ilgili yorumlarını ve deneyimlerini paylaşmaktadır. Bu tez çalışmasında, iki farklı platform ve iki farklı dil için semantik analizi yapılmıştır. Türkçe ve İngilizce dillerinde kullanım oranları dikkate alınarak Reddit ve Ekşi Sözlük sosyal medya platformları seçilmiştir. Çalışmada, bu platformlarda teknoloji kanalında paylaşılan kullanıcı yorumları veri ön işleme adımlarının ardından, Gizli Anlam Analizi (GAA) ve Gizli Dirichlet Ayrımı (GDA) algoritmaları ile konu modellemesi işlemi gerçekleştirilmiştir. İki algoritmanın sonuçlarında oluşan benzerlikler ve farklılıklar hem aynı dilde hem de Türkçe ve İngilizce dilleri için ayrı ayrı incelenmiştir. Konu modellemede öne çıkan yorumlar üzerinden, Varlık İsmi Tanıma (VİT) metotları kullanılarak yorumlar içerisinde geçen varlık isimleri bulunmuştur. Çevrimiçi ansiklopedi olan WikiPedia' daki metinsel bilgilerin semantik algoritmalar yardımıyla formatlı bilgi haline getirildiği DBPedia üzerinde VİT metotları ile tespit edilen varlık isimleri açıklamaları ile eşleştirilmiştir. Analiz edilen büyük veri üzerinde belirlenen sosyal medya platformlarında konuşulan tematik konular tespit edildiği gibi, ayrıca konuların belirlenmesinde etkin olarak geçen yorumlardaki varlık isimleri ve açıklamaları da belirlenmiştir.
With the rapid development of technology, the internet is widely used in our daily life. With the spread of internet and internet technologies and their use in every field, the amount of data produced continues to increase every day. The format of the increasing data in size, which has been formatted and analyzed, is called "Big Data." The possibility of big data being analyzed, interpreted, and meaningful conclusions by individuals are not due to the size of the data. It has gained importance in recent years to be able to process big data, to draw meaningful conclusions from the processed data, to reveal the thematic information existing in the data. States, companies, institutions determine the policies they will follow by analyzing the data they store. In this regard, the development of the technology and the hardware features of the data will contribute to the research. Sensor data, social media shares, data hosted by companies, and government agencies can be shown as examples for big data. Users create the vast majority of this data. Social media platforms come to the fore as environments where data sharing is made most by the user. On social media platforms, users share their comments and experiences about a problem they face, a current situation, or any topic. In this thesis, the semantic analysis was done for two different platforms and two other languages. Reddit and Ekşi Sözlük social media platforms were selected by taking into consideration the usage rates in Turkish and English languages. In this study, the topic modeling process was carried out with Latent Semantic Analyzer (LSA) and Latent Dirichlet Allocation (LDA) algorithms after user comments data preprocessing steps shared on technology channel in these platforms. The similarities and differences in the results of the two algorithms are examined separately for both the same language and Turkish and English languages. Entity names in the comments were found by using Name Entity Recognition (NER) methods. The text names in Wikipedia, the çevrimiçi encyclopedia, are matched with the descriptions of the asset names determined by NER methods on DBPedia, where semantic algorithms are converted into formatted information. The thematic topics spoken on the social media platforms defined on the big data obtained were identified, as well as the asset names and their explanations in the comments that were actively involved in the determination of the topic.