Tez No İndirme Tez Künye Durumu
355632
Tamgacı: Artırımsal ve geri beslemeli Türkçe yazar çözümleme / Turkish authorship analysis with an incremental and adaptive model
Yazar:OĞUZ ASLANTÜRK
Danışman: PROF. DR. HAYRİ SEVER
Yer Bilgisi: Hacettepe Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2014
105 s.
Yazar Çözümleme, bir metnin özelliklerini kullanarak o metnin yazarına ilişkin bilgi çıkartma eylemidir. Yaklaşık 130 yıllık geçmişe sahip bu araştırma konusunun kriminal, edebi, ticari ve akademik çerçevede önemli kullanım alanları bulunmaktadır. Yazar Tanıma ise bir metnin aday yazarlar arasından hangisi tarafından yazıldığını tespit etmeye çalışan ve Yazar Çözümleme disiplininin bir alt kolu olarak değerlendirilen bir araştırma alanıdır. Yazar Tanıma temelde bir sınıflandırma problemi olduğundan, makine öğrenmesi tekniklerinden bu alanda sıklıkla faydalanılmaktadır. Ancak yapılan çalışmalarda bugüne kadar 1000 kadar özellik incelenmiş olmasına rağmen, metne ait hangi özelliklerin en iyi, en başarılı özellikler olduğu konusunda halen ortak bir uzlaşı yoktur. Kullanılan metin özellikleri yazarların yüksek doğruluk oranlarıyla tanınmasında önemli olduğu kadar, oluşturulan sınıflandırıcıların eğitilmeleri için harcanan kaynaklar açısından da önemlidir. Çünkü özellik vektörleri büyüdükçe, kestirimsel modellerin eğitim süreleri de uzamakta, sınıflandırıcılar daha karmaşık hale gelmektedir. Öte yandan, zaman geçtikçe yazar üsluplarında meydana gelebilecek değişiklikler de kullanılan metin özelliklerinin değiştirilmesi ya da sınıflandırıcıların yeniden eğitilmesini gerektirebilir. Bu tez çalışmasında Türkçe için Yazar Tanıma amacıyla kullanılabilecek sözcüksel ve sözdizimsel metin özelliklerinden hangilerinin yazarları doğru olarak belirlemede en yüksek başarım oranını verdiği, buna ek olarak da başarımı yüksek bir en küçük metin özellikleri kümesinin tespiti araştırılmıştır. Bu amaçla Kaba Küme teorisinden faydalanılarak sınıflandırıcılar oluşturulmuş, belirlenen 37 metin özelliğinden hareketle tanımlanan 6 özellik grubunun bütün kombinasyonları ile, "Zamana Bağımlı" ve "Zamandan Bağımsız" modeller ile değişik zaman aralıkları için deneyler yapılmıştır. Deneyler gerçekleştirilirken, metin özelliklerinin yanısıra sınıflandırıcıların başarımlarının geçen zamanla birlikte değişip değişmediği, değişiyorsa nasıl değiştiği ve ne kadar süre boyunca yeniden eğitilmelerine gerek kalmadan kullanılabilecekleri de incelenmiştir. 12.000'den fazla köşe yazısı üzerinde yapılan 1134 deneyin sonuçları, Türkçe yazar tanımada en başarılı metin özelliklerinin bazı noktalama işaretleri (tire işareti, alt çizgi, taksim (slash) karakteri, ters taksim (back slash) karakteri, parantez, ampersand işareti), olduğunu, ayrıca hangi metin özelliklerinin kullanıldığından bağımsız olarak, sınıflandırıcıların en fazla 1 yıl süre ile yeniden eğitilmelerine gerek olmadan kullanılabileceklerini göstermiştir.
Authorship Analysis is the analysis of a text to get information about the author of that text. It has a long history about 130 years with a wide range of studies, and is an important research topic for criminal, literary, commercial, and academic disciplines. Authorship Attribution is one of the distinct problems of Authorship Analysis and it deals with the identification of the author of a disputed text within a predefined set of candidate authors. Since it is basically a classification problem, machine learning techniques are widely employed for Authorship Attribution studies. However, although approximately 1000 stylistic features have been studied in different researches, there is still no consensus on which are the best and most distinctive. Stylistic features are very important for high prediction accuracies, as well as the resources needed to train the classifiers, because classification models become more complex when the size of input increased. On the other hand, changes of writing styles of authors in time may require to retrain the classifiers, or change the feature sets used. In this thesis, lexical and syntactical stylistic features were analyzed for Authorship Attribution in Turkish. As well as finding the most distinctive features for author detection, the smallest but distinctive sets of these features were investigated. Rough Set-based classifiers were constructed for this purpose, and all of the combinations of 6 feature groups defined from 37 features were analyzed with experiments which were performed using Time Dependent or Time Independent models for various periods of texts. By means of these models and periods, the effects of a possible temporal change on classifiers' performances were analyzed, as well as the distinctiveness of the features. Results of 1134 experiments performed on more than 12.000 articles pointed that the most distinctive feature sets for Authorship Attribution in Turkish are some of the punctuation marks (hyphen, underscore, slash, back slash, paranthesis, ampersand). Additionally, independently of the features selected to train the them, classifiers should be used for at most 1 year before they are retrained.