Tez No İndirme Tez Künye Durumu
285161
Ontoloji tabanlı bir anlamsal ilintililik yöntemi geliştirilmesi ve yöntemin metin bağdaşıklığının otomatik olarak ölçümünde kullanılması / Development of an ontology-based semantic relatedness measurement method and its application to automatic measurement of text coherence
Yazar:GÖRKEM GİRAY
Danışman: YRD. DOÇ. DR. MURAT OSMAN ÜNALIR
Yer Bilgisi: Ege Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Ontoloji = Ontology
Onaylandı
Doktora
Türkçe
2011
263 s.
Bilim ve teknolojideki gelişmeler bilgisayarları, hayatımızın ayrılmaz ve önemli bir parçası haline getirmiştir. Bilgisayarların her alanda kullanımının yaygınlaşmasıyla birlikte elektronik ortamda üretilen ve saklanan verinin hacmi ciddi boyutlara ulaşmıştır. Elektronik ortamda saklanan verinin yönetimi ve bu veri üzerinde bilgisayarların zekice işlemler yapabilmesi gittikçe önem kazanmaktadır. Anlamsal web vizyonu çerçevesinde, bilgisayarların veri üzerinde zekice işlemler yapabilmesi için bilgisayarlara, verinin anlamı üzerinde yorum yapabileceği verinin biçimsel olarak ifade edilmiş şekilde sağlanması gerekmektedir. Anlamsal web çalışma alanı biçimsel olarak ifade edilmiş veri olarak ontolojilerin kullanımını önermektedir. Bilgisayarlar, ontolojileri kullanarak hem kavramlar arasındaki ilişkileri bulabilme hem de kendilerine sağlanan veriden ayrı olarak ifade edilmemiş veriye de çıkarsama yaparak ulaşma olanağı bulacaktır.Elektronik ortamda saklanan verinin önemli bir bölümünü de doğal dille yazılmış belgeler oluşturmaktadır. Bu belgelerin, birçok şirketin sahip olduğu elektronik veri hacminin yaklaşık %80-85'ini oluşturduğu tahmin edilmektedir (Uren et al., 2006). Bu belgelere örnek olarak web sayfaları, kelime işleme programlarıyla üretilmiş belgeler verilebilir. Bu belgelerin anlaşılabilir bir biçimde yazılmış olması, bu belgelerin başkaları tarafından kavranmasını kolaylaştıracaktır ve belgelerin kalitesini yükseltecektir. Doğal dille yazılmış bir metnin anlaşılır olması için, metindeki dil ögelerinin açıkladıkları özellik ve durumlar arasında anlam bağıntıları bulunması, yani metnin bağdaşık olması gerekmektedir. Bu koşulun otomatik olarak bilgisayarlar tarafından değerlendirilebilmesi, elektronik ortamda saklanan veri üzerinde yapılabilecek zekice işlemlere iyi bir örnektir. Bunun yapılabilmesi için doğal dille yazılmış metinlerin anlamsal olarak etiketlenmesi, yani metindeki kelimelerin ontolojilerdeki kavramlarla ilişkilendirilmesi gerekmektedir. Böylece bilgisayarlar, içeriğini bilmediği doğal dille yazılmış bir metnin anlamı hakkında işlenebilir bir veriye sahip olacaktır.Metin bağdaşıklığının otomatik olarak değerlendirilmesi için çeşitli yöntemler önerilmiştir. Yapılan deneyler sonucunda, bu yöntemlerden bazılarının ölçeklenebilir olmadığı, bazılarının ise güvenilir sonuçlar vermediği belirlenmiştir. Hem ölçeklenebilir hem de güvenilir sonuçlar veren bir yöntem olarak, metindeki ard arda gelen cümleler arasındaki anlamsal ilintililikler ya da benzerlikler ölçülerek metnin bağdaşıklığının değerlendirilmesi önerilmiştir (Foltz et al., 1998; Lapata and Barzilay, 2005). Bu tez kapsamında, metin bağdaşıklığının otomatik olarak değerlendirilmesi için, metindeki cümleler arasındaki benzerlik yerine ilintililiğin ölçülmesi önerilmiştir. Bunun için ontoloji tabanlı bir anlamsal ilintililik ölçüm yöntemi geliştirilmiştir. Bu yöntemin başarısı, insanların ilintililik yargıları ile karşılaştırılarak sınandıktan sonra metnin bağdaşıklığının otomatik olarak değerlendirilmesinde kullanılmıştır.
Advances in science and technology have made computers an integral part of our lives. With the widespread use of computers, the volume of electronic data produced and stored has grown exponentially; data management and intelligent data process capabilities are becoming increasingly important. Computers should be provided with formally described data in order to process data intelligently. Semantic web research recommends the use of ontologies for representing the meaning of data formally. By using ontologies, computers can explore relationships between concepts and discover implicitly stated facts by making inferences.An important part of electronically stored data is made up of documents written in natural language, such as web pages and products of text processing programs. It is estimated that such documents account for 80-85% of the data stored by many companies (Uren et al., 2006). The level of understandability these documents posess will directly affect readers? comprehension levels and document quality. For the sake of the understandability of a text written in natural language, there must be semantic connections among the language elements in the text, i.e. the text must be coherent. Being able to evaluate text coherence automatically is a good example of intelligent data processing, and in order to do this, texts written in natural language must be annotated with ontological concepts. Computers will then be able to process a text written in natural language at the semantic level.Various methods have been proposed for the automatic evaluation of text coherence. As a result of experiments, some of these methods are not scalable and some of them do not give reliable results. However, a method, which is both scalable and provides reliable results, evaluated text coherence by measuring relatednesses or similarities between the consecutive sentences (Foltz et al., 1998; Lapata and Barzilay, 2005). In this thesis, measuring relatedness between the consecutive sentences instead of similarity has been proposed in order to assess text coherence. An ontology-based semantic relatedness measurement method has been developed for this purpose. After the success of this method has been evaluated against human judgment, the method has been used for the automatic assessment of text coherence.