Tez No İndirme Tez Künye Durumu
592704
Akan veriler için metasezgisel ve birleştirme tabanlı kümeleme algoritmalarının tasarımı ve gerçekleştirimi. / The design and implementation of metaheuristic and merging based clustering algorithms for streaming data.
Yazar:MUSA MİLLİ
Danışman: DOÇ. DR. HASAN BULUT
Yer Bilgisi: Ege Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2019
141 s.
Son zamanlarda sıkça araştırmalara konu olan, akademik çevrelerce ve iş dünyasında daha çok üstünde durulan konulardan bir tanesi büyük veridir. Büyük veriyi işlemek ve içerisinden anlamlı bilgiler elde etmek; yeni kararlar almak, trendi takip etmek ve geleceği öngörebilmek adına elzemdir. Güvenlik sistemleri, gözetleme sistemleri, interaktif sistemler vb. bazı alanlarda bilgi gerçek zamanlı gereklidir. Bu sebeple gelen büyük veri yığınlarını gerçek zamanlı işleyecek algoritmalara ihtiyaç vardır. Kümeleme analizi, anlamsız veri yığınları içerisinden anlamlı örüntüler bulması sebebi ile veri madenciliğinin, aynı zamanda öğreticisiz öğrenme tekniği olması sebebiyle makine öğrenmesinin konuları arasında yer almaktadır. Kümeleme bilgiye ulaşmak için kullanılan önemli bir analiz tekniğidir. Bu çalışma kapsamında, akan veriler üzerinde gerçek zamanlı kümeleme yapan farklı algoritmalar geliştirilmiştir. Geliştirilen bu algoritmalardan ikisi deterministik çalışan açgözlü tekniklerdir. Geliştirilen bir diğer algoritma ise stokastik çalışan metasezgisel bir algoritmadır. Geliştirilen algoritmaların başarımı literatürde çokça kullanılan F1-kesinlik, F1-hassaslık, saflık, SSQ, Silhouette Index ve Rand Index kümeleme doğruluk ölçütleri ile ölçülmüştür. Sonuçlar akan veri kümeleme alanındaki en yaygın algoritmalar ile karşılaştırılmış ve yorumlanmıştır. Deneysel sonuçlardan elde edilen veriler geliştirilen algoritmaların karşılaştırılan algoritmalardan daha iyi olduklarını göstermiştir.
Recently, one of the most frequently studied topics in academia and in the business world is the big data. Processing big data and obtaining meaningful information is essential to make new decisions, to follow the trend and to predict the future. In some areas, such as security systems, surveillance systems and interactive systems, getting information in real-time is required. Therefore, there is a need for algorithms to process incoming large data chunks in real time. Clustering analysis is among the topics of data mining, because of finding meaningful patterns within meaningless data stacks, and it is also among the topics of machine learning, because of being a unsupervised learning technique. Clustering is an important analysis technique used to obtain information. In this study, different algorithms have been developed for real time clustering on the data stream. Two of these algorithms are greedy techniques that work deterministically. Third algorithm is developed which is a stochastic metaheuristic algorithm. The performance of the developed algorithms has been measured with F1-precision, F1-recall, purity, SSQ, Silhouette Index and Rand Index clustering accuracy criteria which are widely used in the literature. The results were compared and interpreted with the state-of-art algorithms in the field of data stream clustering. The data obtained from the experimental results showed that the developed algorithms are better than the compared ones.