Günümüzde teknolojinin gelismesi ile birlikte her geçen gün büyükmiktarlarda veriler ortaya çıkmaya ve depolanmaya baslanmıstır. Bu verilerdenfaydalanmanın yolu ise onların verimli bir sekilde organize edilmesi ve yararlıbilgilere dönüstürülmesinden geçmektedir. Bunu amaçlayan veri madenciliginin birçesidi ise metinsel veriler üzerinde çalısan metin madenciligidir. Metinsel belgelerinkullanıslı bir sekilde organize edilmesi, islenmesi ve faydalı bilgiler çıkarılması gibiamaçları yerine getirmek için gerekenlerin basında metin sınıflandırıcısı, metinselbelge arama mekanizmaları vb. araçlar gelmektedir.Bir metinsel belge arama islemini iki farklı yaklasımla ele almak mümkündür.Bunlardan biri genis bir alandaki belgeler üzerinde anahtar kelime seçilmesine dayalıolarak arama yapmaktır (internet arama motorları gibi). Bir digeri ise daha dar biralanda metinin tüm kelimelerini kullanmak suretiyle daha ayrıntılı bir aramayapmaktır (bir kütüphanedeki kitaplar üzerinde yapılacak arama gibi). Bu çalısmadaele alınan konu ise bulanık kümeleme ve metinlerin tüm kelimelerini kullanarak birarama yaklasımı ortaya koymaktır. Bu yaklasım; önisleme, kümeleme/sınıflandırmave benzerlik ölçümü olmak üzere üç temel asamadan olusmaktadır.Bu çalısmada önisleme asaması ile ilgili olarak terim agırlıklandırmayöntemleri üzerinde durulmustur. Bulanık kümeleme kullanıldıgından dolayı mevcutterim agırlıklandırma yöntemlerinin bulanık kümeleme ile birlikte kullanımlarıincelenmis ve performansları karsılastırılmıstır. En iyi performansı gösteren yöntembelirlenerek daha sonraki asamalarda bu yöntem kullanılmıstır.Benzerlik ölçümü asaması için ise mevcut benzerlik ölçümlerinin önerilenarama yaklasımındaki performansları incelenmistir. Yine bu asama için verininboyutuna dayalı yeni bir benzerlik ölçümü önerilmistir. Bu önerilen yeni benzerlikölçümünün süre ve verimlilik açılarından önceki yöntemlere göre daha iyi oldugugörülmüstür.Son olarak, bir test belgesinin birden fazla kategoriye ait olması seklindeözetlenebilecek olan çoklu kategori problemi ele alınmıstır. Bu problemin çözümüiçin önerilen arama yaklasımının kümeleme/sınıflandırma asaması gelistirilmeyeçalısılmıstır. Bu amaçla hangi belgelerin birden fazla kategoriye ait olduklarını tespitetmek için mevcut sınıflandırma yöntemi probleme adapte edilmistir. Ayrıca,kategorilerin arasında bir iliski matrisi olusturularak, bir belge birden fazlakategoriye ait ise bunların hangi kategoriler oldukları tespit edilmeye çalısılmıstır.Önceki çalısmalarda pek yer verilmemis olan bu çoklu kategori probleminde önemliölçüde bir basarı saglanmıstır.Anahtar Kelimeler ? Benzer belge arama, bulanık kümeleme, bulanık benzerliksınıflandırması, terim agırlıklandırma, benzerlik ölçümü, çoklu kategori problemi
|
Nowadays, large amount of data has started to arise and stored bydevelopment of technology. The way of benefitting these data are to organize themefficiently and convert them to useful information. A kind of data mining that aimsthis is text minig which works over textual data. The first of necessities forimplementing the aims like being organized textual documents usefully, beingprocessed them and extracted useful information are text classifier, textual documentsearch mechanisms and tools like them.It is possible to discuss a textual document search operation with two diffrentapproaches. One of them is to perform a search that bases on selection of a keywordin a large area (like internet search engines). The other is to perform a more detailedsearch by using all the words of text (a search that will be performed on the books ina library). The subject that is discusses in this study is to produce a search approachby using fuzzy clustering and all the words of text. This approach consists of threemain stages like pre-processing, clustering/classification and similarity measurement.In this study, term weighting methods have been emphasized related to preprocessingstage. Because of using fuzzy clustering, the usage of existing termweighting methods with fuzzy clustering has been investigated and theirperformances have been compared.The method which shows the best performancehas been determined and this method has been used in the following stages.For similarity measurement stage, the performances of existing similaritymeasurements in suggested search approach, have been investigated. Still for thisstage, a new similarity measurement that bases on the size of data has beensuggested. It is seen that this new similarity method that is suggested, is better thanprevious methods in terms of time and efficiency.As last, multiple category problems that can be summarized as a testdocument belonging to more that one category, has been discussed.Clustering/classification stage of the suggested search approach for solution of thisproblem has been tried to develop. For this aim, existing classification method hasbeen adapted to the problem to determine which documents belong to more than onecategory. Besides, the categories have been tried to determine by being formed arelation matrix, if a document belongs to more than one category. In this multiplecategory problem that is not seen in the previous studies, a great amount ofachievement has been obtained.Keywords ? Searching similiar document, Fuzzy clustering, Fuzzy similarityclassification, Term weighting, Similarity measurement, Multiple category problem |