Tez No İndirme Tez Künye Durumu
182220
Web sayfaları için anlamsal erişim sistemi / A semantic retrieval system for Web pages
Yazar:EBRU SEZER
Danışman: PROF.DR. ADNAN YAZICI ; PROF.DR. ÜNAL YARIMAĞAN
Yer Bilgisi: Hacettepe Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2006
215 s.
Günümüzde internetin içerdiği web sayfalarının çeşitliliği ve sayısı sebebi ile engeniş çoklu ortam derlemi olduğu söylenebilir. Veri türünün böylesine çeşitlendiğive hacminin büyük olduğu bir ortamda ihtiyaca karşılık gelen bilgiye erişim;anlamsal erişim, içerik tabanlı erişim, nesne tanıma ve etiketlendirme, internetteknolojileri gibi alanlar için halen açık bir problemdir. Geliştirilen tez, kullandığıstandartlar ve metodoloji uyumu sebebi ile Anlamsal Web konu başlığı altında yeralmaktadır. Çalışmada tanımlanan problem ?farklı veri türlerinin aynı sorgucümleciği ile sorgulanabilmesi? olarak özetlenebilir. Bu sorgulama biçiminingerekliliği, farklı veri türlerinin kullanılma gerekliliğinden kaynaklanır. Yani farklıveri türleri bir anlamı vurgulamak ya da anlamı zenginleştirmek için kullanılır.Başka bir deyişle sayfanın anlamsal özelliklerini yatayda ya da dikeydegenişletirler. Bu katkının ele alınabilmesi için farklı veri türleri benzer biçimdedizinlenmeli ve sorgulanmalıdır.Tezde seçilen veri türleri metin ve görüntülerdir. Bu seçimin sebebi, her iki veritürünün daha sık birlikte kullanımı ve birbirini tamamlayabilme ilişkileridir.Dizinlemede öncelikle içerik özellikleri çıkarılır. Metinler için Vektör Uzayı Modelikullanılır. Görüntülerde nesneler elle etiketlenir ve konumsal ilişkiler otomatikçıkarılır. Üretilen içerik özellikleri ve bulanık alan ontolojisi anlamsal özelliklerinçıkarımında kullanılır. Sayfanın anlamsal ve içerik özellikleri sayfa üst verisindesaklanır. Kullanıcı sorguları bu üst veriler üzerinde işlenir.Bulanık ontoloji, önerilen NEK(Nesne, Eylem, Kavram) Modeli'ne göre araçkullanılarak geliştirilir. Bu öneri ile bir alanın, üç farklı katman aracılığı ile somut-soyut ya da varlık-anlam aralığında modellenebilmesi amaçlanmıştır. Kullanılanontoloji gösterim dili Web Ontology Language (OWL) ve sorgulama dili RDF DataQuery Language (RDQL)'dir.Sistemin başarımı biri gerçek ve diğeri sentetik olmak üzere toplam 2 ayrı deneykümesi üzerinde anma (recall), duyarlık (precision) ve Rnorm parametreleri ileiölçülmüştür. Sistemin anma ve Rnorm değerlerinde olumlu katkısı gözlenmiştir. Bugözlem ile farklı veri türlerinin, sayfanın anlamsallığını zenginleştirdiği düşüncesidesteklenmiştir.Anahtar kelimeler: Bulanık Ontoloji, Anlamsal Erişim, İçerik Tabanlı Erişim, OWL,RDF, RDFS.Danışman: Prof. Dr. Adnan Yazıcı, Orta Doğu Teknik Üniversitesi, BilgisayarMühendisliği Bölümü.Danışman : Prof. Dr. Ünal Yarımağan, Hacettepe Üniversitesi, BilgisayarMühendisliği Bölümü.ii
Information retrieval from web pages is still open problem for different topics:content based retrieval, semantic retrieval, object recognition, internettecnologies…etc. This thessis is placed under semantic retrieval topic for itsaccordance to semantic web standarts and methodologies. It represents a modelfor semantic retrieval of web pages. The problem of the model can be summarisedas ?querying different data types by using same query sentence?. The necessity ofthis querying style comes from necessity of different data types usage. Thismeans, different data types are used to emphasize some meanings or to increaserichness of the meaning. In other words, it enables vertical or horizantalexpansions on the web page semantics. This semantic contribution can behandled by indexing and querying different data types in the same style.In this study, text and images are selected as different data types. Because theirtogether usage are more frequently encountered and they have semanticcomplementary relationship between each other. In the indexing process, firstly,content features of each data types are extracted. Vector space model is used fortexts. Manual object annotation and automatic spatial relation extraction are usedfor images. Produced content features and a fuzzy domain ontology are used asinput for semantic feature extraction process. This means, semantics of the webpage is union of semantics of text and images. Produced semantic features arestored in the meta data of the web page with its content features. These metadatas can be queried by user.Fuzzy domain ontology is developed by tool accoding to suggested ontologymodel called OAC(Object, Action, Concept) Model. The aim of the model is tocontain all terms between concrete and abstract or entity and meaning interval.Ontology Web Language (OWL) is used to represent domain ontology and RDFData Query Language (RDQL ) is used to query meta datas.iiiPerformance of the system is measured by recall, precision and Rnorm parameterson two different experiment sets like real data and synthetic data. Positivecontributions are observed on recall and Rnorm parameters. This observationsupports that usage of different data types provides to increase richness or toemphasize semantics of the web page.Keywords: Fuzzy ontology, Semantic Web & Retrieval, Content based retrieval,OWL, RDF,RDFSAdvisor: Prof. Dr. Adnan Yazıcı, Middle East Technical University , Department ofComputer Engineering.Advisor: Prof. Dr. Ünal Yarımağan, Hacettepe University, Department of ComputerEngineering.iv