Kullanım alanı sürekli genişleyen bilgisayarlar tarafından dijital ortamda depolanan verilerin boyutları günden güne büyümektedir. Ancak bu veriler işlenmediği ya da analiz edilmediği sürece sadece bir arşivden ibarettir. Bu nedenle, istatistikçiler, ekonomistler, iş planlayıcıları, reklam analistleri ve iletişim mühendisleri gibi birçok sektör çalışanları bu depolanan verilerden anlamlı bilgiler elde etmek amacıyla sürekli araştırma ve geliştirme yapmaktadırlar. Araştırmacılar temel olarak büyük veri yığınlarından genel bir sonuca ulaşma, bilinen ya da bilinmeyen problemleri bulma, bu problemleri çözme, problem çözüm yöntemleri geliştirme, yapılabilecek bir değişikliğin etkisini tahmin etme, işlem ve deneylerini zamandan ve veri kaynaklarından bağımsız olarak yapabilmenin yollarını araştırmaktadırlar.
Bu çalışmada ise, devasa doküman yığını içerisinden istenilen dokümanlara ve/veya bilgilere doğru bir şekilde erişmeyi amaçlamayan bilgiye erişim sistemlerinden biri olan Gizli Anlamsal Dizinleme (GAD) yönteminde kullanılan Tekil Değer Ayrışımına (TDA) alternatif bir düşük ranklı matris ayrışımı önerilmektedir. GAD modelinde, doküman yığını içerisindeki her bir terim ve bu terimleri içeren dokümanlar lineer cebir yöntemleri ile sayısallaştırılarak bir vektör uzayında temsil edilmektedir. Vektör uzayının elde edilmesinde kullanılan genel yöntem ise TDA'dır. Ancak TDA ile gerçekleştirilen bu işlemin hesaplama ve hafıza açısından çok maliyetli olması araştırmacıları alternatif yöntemlere yönlendirmektedir Düşük ranklı matris ayrışımı olarak önerilen Kesik ULV Ayrışımı ile (K-ULVA) vektör uzayının elde edilme sürecindeki maliyet TDA'ya göre daha düşüktür. Ayrıca, doküman yığınına eklenecek yeni dokümanların temsili için yapılan blok güncelleme sürecinin kolay ve maliyetinin az olması K-ULVA'nın bir diğer avantajıdır. K-ULVA ve TDA ile yapılan iki ayrı GAD sistemini karşılaştırılmak amacıyla bilgiye erişim çalışmalarında yaygın olarak kullanılan veri setleri tercih edilmiştir. Son olarak, bir bot yazılımı kullanarak Türkçe haber sayfalarından elde edilen haber metinleri ile Türkçe bir veri seti geliştirilmiş ve bu iki GAD sisteminin bu veri seti üzerindeki performansı da gözlemlenmiştir. Yapılan incelemeler sonucunda K-ULVA ve TDA tabanlı dizinleme modellerinin tüm veri setlerindeki başarılarının oldukça benzer olduğu görülmüştür. K-ULVA yönteminin blok güncelleme yöntemindeki kolaylığı ve maliyetinin az olması sebebiyle TDA yöntemine iyi alternatif matris ayrışımı olduğu sonucuna varılmıştır.
|
The size of the data stored in the digital environment is increasing day by day by the ever-expanding use of computers. However, this data is only an archive, unless it is processed or analyzed. For this reason, many sector employees, such as statisticians, economists, business planners, advertising analysts and communications engineers, are constantly researching and developing to obtain meaningful information from these stored data. Researchers are basically looking for ways to reach a general outcome from large data sets, finding known or unknown problems, solving these problems, developing problem-solving methods, estimating the effect of a possible change, and performing operations and experiments independently from data sources.
In this work, we propose an alternative low rank matrix decomposition for Singular Value Decomposition (SVD) which is used in the latent semantic indexing (LSI) method, which is one of the information retrieval systems that does not intend to access the desired documents and / or information from the gigantic collection of documents. In the LSI model, each term in the collection of documents and documents containing these terms are represented in a vector space by being digitized by linear algebra methods. The general method used to obtain the vector space is SVD. However, this process performed by the SVD is very costly in terms of calculation and memory, which diverts researchers to alternative methods. The cost of obtaining the vector space with Truncated ULV Decomposition (T-ULVD), which is proposed as a low-rank matrix decomposition , is lower than TDA. Another advantage of K-ULVA is that the block updating process for the representation of new documents to be added to the collection of documents is easy and low cost. In order to compare two different LSI systems with T- ULVD and SVD, data sets commonly used in information retrieval studies have been preferred. Finally, a Turkish data set has been developed with news texts from Turkish news pages using a bot software and the performance of these two LSI systems on this data set are also observed. Based on the experiments, it is seen that the success of K-ULVA and TDA-based indexing models in all data sets are very similar. Because of the simplicity and low cost of the T-ULVD method in the block updating method, it is the result of a good alternative matrix decomposition to the SVD method. |