Tez No İndirme Tez Künye Durumu
414138
Ardışık şartlı rastgele alanlarla sekans etiketleme / Sequence labeling with stacked conditional random fields
Yazar:METİN BİLGİN
Danışman: YRD. DOÇ. DR. MEHMET FATİH AMASYALI
Yer Bilgisi: Yıldız Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2015
105 s.
Sekans etiketleme bir giriş dizisine karşılık bir çıkış dizisinin üretimidir. Giriş ve çıkış dizisinin içeriklerine göre doğal dil işlemenin birçok konusu (varlık isim tanıma, makine çevirisi, morfolojik analiz, cümleleri öğelerine ayırma vb.) sekans etiketleme olarak tanımlanabilir. Cümle analizi ve cümleden bir anlam çıkarılması, doğal dil işlemenin ana konularından biridir. Eğer ilgili cümlenin söylemek istediği gerçek anlam çıkartılabilirse bu cümle makineler tarafından eyleme dönüştürülebilir, bir dilden başka bir dile çeviri yapılabilir ya da cümleden duygusal bir anlam çıkartılması sağlanabilir. Bağlılık ayrıştırması, bir cümle içerisindeki sözcükler arasındaki ilişkilerin ve ilişki türlerinin belirlenmesidir ve bir cümlenin anlamsal analizinin yapılabilmesi için şarttır. Bağlılık ayrıştırması sekans etiketleme problemi olarak tanımlandığında iki çıkış dizisinin (ilişki türü, ilişkili kelime) birden üretilmesi gerekmektedir. Bir cümlenin çözümlenmesi, ilgili dilin cümle yapısına bağlıdır. Türkçe, bitişken ve cümle içi öğe dizilişleri serbest bir dildir. Bu nedenle diğer dil ailelerine göre çözümlemesi daha zor bir dildir. Literatürde Türkçe ile ilgili yapılan çalışmalar mevcut olmasına rağmen ağırlıklı olarak İngilizce için gerçekleştirilmiş çalışmalar bulunmaktadır. Türkçe için yapılan çalışmalarda, Destek Vektör Makineleri (Support Vector Machine) tabanlı bir yapı kullanan Malt Parser ile belirli bir doğruluk oranlarına erişilmiştir. Diğer diller için yapılan çalışmalar incelendiğinde bu başarının artırılması için yeni hipotezler üretilmesi ve bunların denenmesi gereği açıktır. Bizim önerimiz, özellikle sekans etiketleme problemlerinin çözümünde sıklıkla kullanılan Şartlı Rastgele Alanların bağlılık ayrıştırması problemi içinde kullanılabilir olduğudur. Ancak Şartlı Rastgele Alanlar tek çıkış üreten bir yöntemdir. Bu zorluğu aşabilmek için iki çıkışlı (Bağlılık Türü ve Bağlanılan Kelime) bir problem olan Bağlılık Ayrıştırması iki parçaya bölünerek çözülmüştür. Ardından elde edilen sonuçlar birleştirilerek sistemin çıktısı olarak verilmiştir. Türkçe için gerçekleştirilen çalışma sonuçları ile literatürdeki sonuçlar karşılaştırıldığında daha yüksek bir başarı oranına ulaşıldığı görülmüştür. Türkçe dışındaki İsveç Dili, Danimarka Dili, Hollanda Dili ve Portekiz dili için de önerdiğimiz yöntem denenmiştir. İlişki türünü belirlemede literatürdeki çalışmaların başarıları aşılmıştır. İlişkili kelimeyi belirleme de ise daha kötü bir performans sergilenmiştir. Buna, Türkçe dışındaki bu dillerin cümle içi bağlılık yapılarının çok daha değişken olmasının sebep olduğu görülmüştür. Gelecek çalışma olarak geliştirilen yöntemin diğer dillerdeki performansını arttırmak için daha dinamik bir yapının geliştirilmesi düşünülmektedir.
Sequence labeling is the production of an output sequence in return for an input sequence. Many issues (name entity recognition, machine translation, morphological analysis, resolving the sentence into its elements, etc.) of natural language processing based on the contents of the input and output sequence can be defined as sequence labeling. Sentence analysis and making out the meaning of a sentence are one of the main topics of natural language processing. If real meaning requiring saying the relevant sentence can draw, this sentence can convert into action by machines, translate from one language to other language or enable to get the emotive meaning of the sentence. Dependency Parsing determines the relationships and types of relationships between words within a sentence and is essential to the semantic analysis of a sentence. When attachment discrimination is defined as the problem of sequence labeling, two-output sequence (relationship type, related word) should be generated together. Analysis of a sentence depends on the sentence structure of the relevant language. Turkish is an agglutinative language and free-intrasentence arrangements of element. Therefore, it is a language difficult to analyze compared to other language families. Although some studies exist in the literature about Turkish, there have mainly been studies on English. Studies performed for Turkish were achieved a certain degree of accuracy with Malt Parser using a Support Vector Machines-based structure. When examining the studies performed for other languages, it is clear that new hypothesis should develop and test in order to increase this success. Our suggestion is that conditional random fields used often especially in solving the sequence labeling problems can be available in dependency parsing problem. However, the conditional random fields is a method of producing a single output. In order to overcome this challenge, dependency parsing being a problem with dual outputs (attachment type and connected word) is resolved by dividing into two parts. After, the results is provided as an output of the system by combining. Compared the studies carried out for Turkish with the results in the literature, it shows that a higher success rate was reached. Apart from Turkish, the method we recommended has also been tested for Swedish, Danish, Dutch and Portuguese languages. The success of studies in the literature has been exceeded to determine the kind of relationship. A poorer performance was exhibited to determine related word. This results from more variable of intra-sentence attachment structures of these languages other than Turkish. A more dynamic structure should develop to enhance the performance of the method developed as future work in other languages.