Tez No İndirme Tez Künye Durumu
212382
Bulanık kümeleme kullanılarak benzer belge aranması / Searching for similar documents using fuzzy clustering
Yazar:RIDVAN SARAÇOĞLU
Danışman: PROF. DR. NOVRUZ ALLAHVERDİ
Yer Bilgisi: Selçuk Üniversitesi / Fen Bilimleri Enstitüsü / Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2007
139 s.
Günümüzde teknolojinin gelismesi ile birlikte her geçen gün büyük miktarlarda veriler ortaya çıkmaya ve depolanmaya baslanmıstır. Bu verilerden faydalanmanın yolu ise onların verimli bir sekilde organize edilmesi ve yararlı bilgilere dönüstürülmesinden geçmektedir. Bunu amaçlayan veri madenciliginin bir çesidi ise metinsel veriler üzerinde çalısan metin madenciligidir. Metinsel belgelerin kullanıslı bir sekilde organize edilmesi, islenmesi ve faydalı bilgiler çıkarılması gibi amaçları yerine getirmek için gerekenlerin basında metin sınıflandırıcısı, metinsel belge arama mekanizmaları vb. araçlar gelmektedir. Bir metinsel belge arama islemini iki farklı yaklasımla ele almak mümkündür. Bunlardan biri genis bir alandaki belgeler üzerinde anahtar kelime seçilmesine dayalı olarak arama yapmaktır (internet arama motorları gibi). Bir digeri ise daha dar bir alanda metinin tüm kelimelerini kullanmak suretiyle daha ayrıntılı bir arama yapmaktır (bir kütüphanedeki kitaplar üzerinde yapılacak arama gibi). Bu çalısmada ele alınan konu ise bulanık kümeleme ve metinlerin tüm kelimelerini kullanarak bir arama yaklasımı ortaya koymaktır. Bu yaklasım; önisleme, kümeleme/sınıflandırma ve benzerlik ölçümü olmak üzere üç temel asamadan olusmaktadır. Bu çalısmada önisleme asaması ile ilgili olarak terim agırlıklandırma yöntemleri üzerinde durulmustur. Bulanık kümeleme kullanıldıgından dolayı mevcut terim agırlıklandırma yöntemlerinin bulanık kümeleme ile birlikte kullanımları incelenmis ve performansları karsılastırılmıstır. En iyi performansı gösteren yöntem belirlenerek daha sonraki asamalarda bu yöntem kullanılmıstır. Benzerlik ölçümü asaması için ise mevcut benzerlik ölçümlerinin önerilen arama yaklasımındaki performansları incelenmistir. Yine bu asama için verinin boyutuna dayalı yeni bir benzerlik ölçümü önerilmistir. Bu önerilen yeni benzerlik ölçümünün süre ve verimlilik açılarından önceki yöntemlere göre daha iyi oldugu görülmüstür. Son olarak, bir test belgesinin birden fazla kategoriye ait olması seklinde özetlenebilecek olan çoklu kategori problemi ele alınmıstır. Bu problemin çözümü için önerilen arama yaklasımının kümeleme/sınıflandırma asaması gelistirilmeye çalısılmıstır. Bu amaçla hangi belgelerin birden fazla kategoriye ait olduklarını tespit etmek için mevcut sınıflandırma yöntemi probleme adapte edilmistir. Ayrıca, kategorilerin arasında bir iliski matrisi olusturularak, bir belge birden fazla kategoriye ait ise bunların hangi kategoriler oldukları tespit edilmeye çalısılmıstır. Önceki çalısmalarda pek yer verilmemis olan bu çoklu kategori probleminde önemli ölçüde bir basarı saglanmıstır. Anahtar Kelimeler ? Benzer belge arama, bulanık kümeleme, bulanık benzerlik sınıflandırması, terim agırlıklandırma, benzerlik ölçümü, çoklu kategori problemi
Nowadays, large amount of data has started to arise and stored by development of technology. The way of benefitting these data are to organize them efficiently and convert them to useful information. A kind of data mining that aims this is text minig which works over textual data. The first of necessities for implementing the aims like being organized textual documents usefully, being processed them and extracted useful information are text classifier, textual document search mechanisms and tools like them. It is possible to discuss a textual document search operation with two diffrent approaches. One of them is to perform a search that bases on selection of a keyword in a large area (like internet search engines). The other is to perform a more detailed search by using all the words of text (a search that will be performed on the books in a library). The subject that is discusses in this study is to produce a search approach by using fuzzy clustering and all the words of text. This approach consists of three main stages like pre-processing, clustering/classification and similarity measurement. In this study, term weighting methods have been emphasized related to preprocessing stage. Because of using fuzzy clustering, the usage of existing term weighting methods with fuzzy clustering has been investigated and their performances have been compared.The method which shows the best performance has been determined and this method has been used in the following stages. For similarity measurement stage, the performances of existing similarity measurements in suggested search approach, have been investigated. Still for this stage, a new similarity measurement that bases on the size of data has been suggested. It is seen that this new similarity method that is suggested, is better than previous methods in terms of time and efficiency. As last, multiple category problems that can be summarized as a test document belonging to more that one category, has been discussed. Clustering/classification stage of the suggested search approach for solution of this problem has been tried to develop. For this aim, existing classification method has been adapted to the problem to determine which documents belong to more than one category. Besides, the categories have been tried to determine by being formed a relation matrix, if a document belongs to more than one category. In this multiple category problem that is not seen in the previous studies, a great amount of achievement has been obtained. Keywords ? Searching similiar document, Fuzzy clustering, Fuzzy similarity classification, Term weighting, Similarity measurement, Multiple category problem