Tez No İndirme Tez Künye Durumu
149708 Bu tezin, veri tabanı üzerinden yayınlanma izni bulunmamaktadır. Yayınlanma izni olmayan tezlerin basılı kopyalarına Üniversite kütüphaneniz aracılığıyla (TÜBESS üzerinden) erişebilirsiniz.
Türkçe için istatistiksel bir bilgi geri-getirim sistemi / A statistical information retrieval system for Turkish
Yazar:BEKİR TANER DİNÇER
Danışman: PROF.DR. BAHAR KARAOĞLAN
Yer Bilgisi: Ege Üniversitesi / Fen Bilimleri Enstitüsü / Uluslararası Bilgisayar Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2004
395 s.
VII ÖZET TÜRKÇE İÇİN İSTATİSTİKSEL BİR BİLGİ GERİ-GETİRİM SİSTEMİ DİNÇER, Bekir Taner Doktora Tezi, Uluslararası Bilgisayar Enstitüsü Tez Yöneticisi: Prof. Dr. Bahar KARAOĞLAN Eylül 2004, 379 sayfa Bu tezde, Türkçe dilbilgisi özelliklerinin kullanımı ile BGG (Bilgi Geri-Getirim) sistemlerinde başarımın artırılması sağlanmıştır. Sınanan dilbilgisi özellikleri, sözcük türleri (isim, sıfat, zamir v.b.), cümle unsurları (fiil, fail/özne, nesne) ve kelime guruplarıdır. Sözcük türlerinin ve cümle unsurlarının başarımı anlamlı düzeyde arttırdığı bulunmuş, kelime guruplarının başarımı arttırdığı konusunda bir delil sağlanamamıştır. Hesaplamalı dilbilim sahası içine giren dört yöntem geliştirilmiştir: 1-) Türkçe yazılı belgelerin tespiti 2-) Cümle sonlarının tespiti 3-) Kelime gövdeleme 4-) Kelimelerin sözcük türü tespiti. İlk üç yöntemde, basan sağlanmış, ancak kelimelerin sözcük türü tespitinde, kabul edilebilir bir başarıma ulaşılamamıştır. Sadece, kelimelerin sözcük türü tespiti için, önerilen yöntemin rasgelelikten anlamlı düzeyde farklı olduğunu söyleyebilecek delile ulaşılmıştır. Türkçe yazılı belgelerle oluşturulan derlemlerde, Zipf ve Mandelbrot ifadeleri için en iyi uyumun parametreleri belirlenmiştir. Anahtar kelimeler: Bilgi geri-getirim, hesaplamalı dilbilim.
DC ABSTRACT A STATISTICAL INFORMATION RETRIEVAL SYSTEM FOR TURKISH DİNÇER, Bekir Taner PhD Thesis, International Computer Institute Supervisor: Prof. Dr. Bahar KARAO?LAN September 2004, 379 pages In this thesis, we have shown that an Information Retrival system performance for Turkish can be enhanced by the use of linguistic knowledge. The examined linguistic properties are part-of- speeches (noun, adjective, etc.), syntactic functions ( verb, subject, object etc.) and two-word phrases. An evidence of significant contribution on the performance is found in the training corpus for the part-of-speeches and syntactic functions. However, no such evidence is found for the phrases. Additionaly, four methods which are considered to be in the field of computational linguistics are developed. These are: 1-) Turkish texts recognizer, 2-) Sentence boundary detector, 3-) A stemming algorithm and 4-) A statistical part-of-speech tagger. Satisfactory (above 95%) results for first three methods are obtained, however the last method, the part-of-speech tagger, did not show the anticipated performance (85%). At this point, we can only say that the proposed method of part-of-speech tagging shows an evidence of significant difference from randomness. The best fit parameters of Zipf and Mandelbrot functions are, also, experimantally evaluated for selected Turkish corpora.