Tez No İndirme Tez Künye Durumu
286228
Exploiting information extraction techniques for automatic semantic annotation and retrieval of news videos in Turkish / Türkçe haber videolarının otomatik anlamsal etiketlenmeleri ve erişimleri için bilgi çıkarım tekniklerinin kullanımı
Yazar:DİLEK KÜÇÜK
Danışman: PROF. DR. ADNAN YAZICI
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Bölümü
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2011
128 s.
Bilgi çıkarımının (BÇ) haber metinlerinin otomatik anlamsal indekslenmesinde etkili bir teknik olduğu bilinmektedir. Bu çalışmada, Türkçe haber videolarının anlamsal etiketlenmeleri ve erişimleri için video metinlerinde çeşitli BÇ tekniklerini kullanan metin tabanlı tam otomatik bir sistem önermekteyiz. Sistem tarafından kullanılan BÇ teknikleri isimli nesne çıkarımı, otomatik üstmetin bağlantısı oluşturma, kişi nesnesi çıkarımı ile eşgönderge çözümleme ve olay çıkarımını kapsamaktadır. Sistem, bu BÇ tekniklerini gerçekleştiren bileşenlerin çıktılarını alttaki video arşivlerinin anlamsal etiketleri olarak kullanır. Önerilen sistem, BÇ bileşenleri dışında, bir haber videosu veritabanına ek olarak haber hikayesi bölütleme, kayan yazı tanıma, ve anlamsal video erişimi bileşenlerini de içermektedir. Biz ayrıca sistemin, elle tek müdahalenin metin çıkarımı sırasında gerçekleştiği yarı otomatik bir eşini de önermekteyiz. Her iki sistem de Türkiye Radyo ve Televizyon Kurumu tarafından yayınlanmış videolardan oluşan gerçek video veri kümeleri üzerinde çalıştırılmıştır. Bu çalışma, Türkçe haber videolarının anlamsal etiketlenmeleri ve erişimlerini kolaylaştıran ilk tam otomatik sistemi önermesi açısından önemlidir, bununla birlikte önerilen sistem ve onun yarı otomatik eşi oldukça geneldirler ve bu nedenle diğer dillerdeki video arşivleri için de benzer sistemler oluşturmak için uyarlanabilirler. Dahası, Türkçe metinlerde BÇ araştırmalarının seyrek olduğu bilinmektedir ve bu çalışma kapsamında biz Türkçe metinler üzerinde çeşitli BÇ işleri için yeni teknikler önerdik ve gerçekleştirdik. Bir uygulama örneği olarak, biz gerçekleştirilen BÇ bileşenlerinin çok dilli video erişimini kolaylaştırmada kullanımını gösterdik.
Information extraction (IE) is known to be an effective technique for automatic semantic indexing of news texts. In this study, we propose a text-based fully automated system for the semantic annotation and retrieval of news videos in Turkish which exploits several IE techniques on the video texts. The IE techniques employed by the system include named entity recognition, automatic hyperlinking, person entity extraction with coreference resolution, and event extraction. The system utilizes the outputs of the components implementing these IE techniques as the semantic annotations for the underlying news video archives. Apart from the IE components, the proposed system comprises a news video database in addition to components for news story segmentation, sliding text recognition, and semantic video retrieval. We also propose a semi-automatic counterpart of system where the only manual intervention takes place during text extraction. Both systems are executed on genuine video data sets consisting of videos broadcasted by Turkish Radio and Television Corporation. The current study is significant as it proposes the first fully automated system to facilitate semantic annotation and retrieval of news videos in Turkish, yet the proposed system and its semi-automated counterpart are quite generic and hence they could be customized to build similar systems for video archives in other languages as well. Moreover, IE research on Turkish texts is known to be rare and within the course of this study, we have proposed and implemented novel techniques for several IE tasks on Turkish texts. As an application example, we have demonstrated the utilization of the implemented IE components to facilitate multilingual video retrieval.