Tez No İndirme Tez Künye Durumu
336874
Characteristics ofweb-based textual communications / Web tabanlı yazılı iletişim karakteristikleri
Yazar:TAYFUN KÜÇÜKYILMAZ
Danışman: PROF. DR. CEVDET AYKANAT
Yer Bilgisi: İhsan Doğramacı Bilkent Üniversitesi / Mühendislik ve Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2012
192 s.
Bu tezde, Web tabanlı iletis¸im metotlarının farklı ¨ozelliklerini inceleyip, de?gis¸ikiletis¸im metotlarının ortak karakteristikleri oldu?gunu ¨one s¨urd¨uk. Bu tezimizikanıtlayabilmek ic¸in bu ortak ¨ozelliklerden iki tanesinin ¨uzerinde yo?gunlas¸acak vebu ¨ozellikleri derinlemesine inceleyece?giz. Bu ¨ozellikler: B¨ut¨un Web tabanlı iletis¸immetotları yazarlarına,alıcılarına, veya mesajların kendilerine atfedilebilecek ¨ozelliklertas¸ırlar. Ve b¨ut¨un Web tabanlı iletis¸im metotları benzer da?gılımsal ¨ozellikler g¨osterirler.Bu iki hipotezi kanıtlayabilmek amacıyla ¨uc¸ farklı, pratik, gerc¸ek yas¸amla ilgiliaras¸tırma problemi ¨uzerinde durduk ve bu iki hipotezi kullanarak sunulan aras¸tırmaproblemlerini c¸ ¨ozmeye c¸alı¨stık. Bu problemlerden ilkinde, halihazırda kullanılmaktaolan bir sorgu motoru ic¸in sorgu ¨ozelliklerine dayanan bir otomatik ¨o?grenme yaklas¸ımı¨one s¨urd¨uk. Bu c¸alıs¸mada, kullanıcı sorgularından c¸es¸itli ¨ozellikler c¸ıkartarak bu¨ozellikleri otomatik ¨o?grenilmis¸ bir model olus¸turmak ic¸in kullandık. Bu modele g¨ore her sorguya bir kalite metri?gi atayarak, arama motoru ¨on belle?gine kabulve atılma kararlarını bu metrik sayesinde yaptık. ?Ikinci problemde, kullanıcı vemesaj ¨ozelliklerini tahmin etmek amacı ile bir chat sunucusunun verilerini inceledik.Sonuc¸larımız birc¸ok kullanıcı ve mesaj bazlı ozelli?gin tahmin edilebilirli?gine ıs¸ıktuttu. Uc¸ ¨unc¨u c¸alıs¸mamızda, terim bazlı ters indekslerin ha ¨ fıza bazlı ve paralelolarak olus¸turulmalarını inceledik. Bu aras¸tırmada ise, is¸lemciler arası toplam iletis¸imzamanını minimize edebilmek amacı ile, Web sayfalarındaki terimlerin da?gılımsal¨ozelliklerini temel alan bir guruplama metodu ¨onerdik. Bu ¨ozellikleri kullanarak,is¸lemciler arası iletis¸im zamanını, is¸lemci g¨orev da?gılımını da dikkate alacak s¸ekildenasıl azaltabilece?gimiz y¨on¨unde aras¸tırmalar yaptık.Anahtar sozcukler ¨ : Arama Motoru, Sonuc¸ ¨onbellegi, ¨on bellek, Chat madencili?gi, verimadencili?gi, indeks tersleme, ters dizin.
In this thesis, we analyze different aspects of Web-based textual communicationsand argue that all such communications share some common properties. In order toprovide practical evidence for the validity of this argument, we focus on two common properties by examining these properties on various types of Web-based textualcommunications data. These properties are: All Web-based communications containfeatures attributable to their author and reciever; and all Web-based communicationsexhibit similar heavy tailed distributional properties.In order to provide practical proof for the validity of our claims, we provide threepractical, real life research problems and exploit the proposed common properties ofWeb-based textual communications to ?nd practical solutions to these problems. Inthis work, we ?rst provide a feature-based result caching framework for real life searchengines. To this end, we mined attributes from user queries in order to classify queriesand estimate a quality metric for giving admission and eviction decisions for the queryresult cache. Second, we analyzed messages of an online chat server in order to predictuser and mesage attributes. Our results show that several user- and message-basedattributes can be predicted with signi?cant occuracy using both chat message- andwriting-style based features of the chat users. Third, we provide a parallel frameworkfor in-memory construction of term partitioned inverted indexes. In this work, in orderto minimize the total communication time between processors, we provide a bucketingscheme that is based on term-based distributional properties of Web page contents.Keywords: Web search engine, result caching, cache, chat mining, data mining, indexinversion, inverted index, posting list.