Tez No |
İndirme |
Tez Künye |
Durumu |
798159
|
|
POS etiketlerinin N-gramlarına dayalı bir intihal tespit sistemi / A plagiarism detection system based on POS tag N-grams
Yazar:KADİR YALÇIN
Danışman: PROF. DR. İLYAS ÇİÇEKLİ
Yer Bilgisi: Hacettepe Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Dijital aşırmacılık = Digital plagiarism
|
Onaylandı
Doktora
İngilizce
2022
144 s.
|
|
İki farklı doküman ya da metin içindeki benzer öğeleri bulma sıklıkla karşılaşılan bir problemdir. Özellikle intihal şüphesi taşıyan bir metnin, intihal yapılan kaynak metin ile benzer nitelikler taşıması olasıdır. İntihal kavramı, başka kişilere ait yazıların bazı bölümlerinin veya tamamının alınarak, kendisine aitmiş gibi gösterilmesi veya başkalarına ait fikirlerin kaynak göstermeden farklı şekillerde anlatılmasıdır Günümüzde teknolojinin gelişmesiyle birlikte, intihal vakalarında gittikçe artış olduğuna ilişkin değerlendirmeler gözlenmektedir. Bu nedenle, intihalin önüne geçmek amacıyla üniversitelerde çeşitli intihal tespit programları kullanılmaya başlanmış, eğitim ve öğretim yönetmeliklerine intihal ve bilimsel etik ile ilgili esaslar eklenmiştir.
Bu tez çalışması ile harici intihal tespitine ilişkin özgün bir yöntem önerilmiştir. Metin içindeki intihal edilmiş bölümleri belirlemek için hem sözdizimsel hem de anlamsal benzerlik özelliklerinden faydalanılmıştır. Şüpheli metinlerdeki intihal edilmiş bölümleri ve kaynak metinlerde bunlara karşılık gelen orijinal bölümleri tespit etmek için sözcük türü (POS) etiketi n-gramları kullanılmıştır. Her bir kaynak cümle, olası intihal adayı cümlelere hızlı bir şekilde erişilebilmesi amacıyla bir arama motoru tarafından sözcük türü (POS) etiketi n-gramlarına göre indekslenir. Sözcük türü etiketi n-gram'larına dönüştürülen şüpheli cümleler, kaynak cümlelere erişmek için sorgu olarak kullanılır. Sorgulardan dönen arama motoru sonuçları, şüpheli belgenin intihal edilmiş bölümlerinin tespit edilmesini sağlamaktadır. Verilen iki sözcük arasındaki anlamsal ilişki sözcük temsillerini kullanma tekniği olan Word2Vec ile hesaplanır. Diğer taraftan, cümle düzeyinde anlamsal benzerliğin hesaplanması için en uzun ortak sıra (LCS) algoritması uygulanmaktadır.
Bu tez çalışması kapsamında, otomatik intihal tespit algoritmalarının değerlendirilmesi için oluşturulan PAN-PC-11 adlı veri seti kullanılmıştır. Testler, sonuçların çeşitliliğini değerlendirmek amacıyla farklı parametre ve eşik değerleri ile gerçekleştirilmiştir. Bu veri seti ile yapılan test sonuçlarına göre önerilen yöntem, 3. Uluslararası İntihal Tespiti Yarışması'nda (PAN11) yer alan intihal tespit sistemlerine göre düşük ve yüksek karmaşıklığa sahip intihal durumlarında en iyi performansı elde etmiştir.
|
|
It is a common problem to find similar parts in two different documents or texts. Especially, a text suspected of plagiarism is likely to have similar characteristics with the source text. Plagiarism is defined as taking some or all of the writings of other people and showing them as their own, or expressing the ideas of others in different ways without citing the source. Today, it is observed that there is an increase in plagiarism cases with the development of technology. Therefore, in order to prevent plagiarism, various plagiarism detection programs have been used in universities and principles regarding plagiarism and scientific ethics have been added to education regulations.
In this thesis, a novel method for detecting external plagiarism is proposed. Both syntactic and semantic similarity features were used to identify the plagiarized parts of the text. Part-of-speech (POS) tags are used to identify the plagiarized sections of suspicious texts and the original sections corresponding to these sections in the source texts. Each source sentence is indexed by a search engine according to its POS tag n-grams to access possible plagiarism candidate sentences rapidly. Suspicious sentences that converted to their POS tag n-grams are used as query to access source sentences. The search engine results returned from the queries enable to detect plagiarized parts of the suspicious document. The semantic relationship between two given words is calculated with Word2Vec, which is a method for using word embeddings. On the other hand, the longest common subsequence (LCS) algorithm is applied to calculate semantic similarity at the sentence level.
In this thesis, PAN-PC-11 dataset, which was created to evaluate automated plagiarism detection algorithms, is used. The tests are carried out with different parameters and threshold values to evaluate the diversity of the results. According to the experimental results with this dataset, the proposed method achieved the best performance in low and high obfuscation plagiarism cases compared to the plagiarism detection systems in the 3rd International Plagiarism Detection Competition (PAN11). |