Tez No İndirme Tez Künye Durumu
538909
Trafik yorumlarının sınıflandırılmasında normalizasyonun etkisi / The effect of normalization on the classification of traffic comments
Yazar:ZEYNEP ÖZER
Danışman: DOÇ. DR. OĞUZ FINDIK
Yer Bilgisi: Karabük Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2019
167 s.
Trafik sıkışıklıkları, kazalar, hatalı sürücüler, araç arızaları ve yol çalışmaları gibi durumlar hem sürücüler için hem de trafik yönetim birimleri için zaman ve para kaybına neden olan ciddi problemler doğurmaktadır. Trafik olaylarının yer ve tipinin gerçek zamanlı olarak belirlenebilmesi sürücüler ve trafik yöneticilerine problemin çözülebilmesi veya alternatif güzergâh seçilebilmesi adına önemli kolaylıklar sağlayacaktır. Günümüzde trafikle ilgili olayların tespit edilmesi ve sıkışıklarının takibi için yaygın olarak kameralar ve fiziksel sensörlere dayanan sistemler kullanılmaktadır. Öte yandan sosyal medya platformlarında yapılan paylaşımlarda trafikle ilgili çok değerli bilgiler bulunmaktadır. Bu tez çalışmasında trafikle ilgili olayları sosyal medya mesajlarını (SMM) kullanarak makul bir doğruluk oranı içerisinde, maliyet etkin bir çözümle, geniş bir kapsama alanı içerisinde tespit edebilecek bir yöntem önerilmektedir. Bu doğrultuda yapılan çalışmalarda öncelikli olarak SMM'lerdeki gürültü probleminin azaltılması için kullanılan Türkçe metin normalizasyon yaklaşımları belirsizlik durumları için kelime temsilleri ile genişletilmiştir. Ayrıca trafik alanına özel yaklaşık 1,5 M etiketsiz tweetten oluşan bir derlem hazırlanarak kelime temsilleri elde edilmiştir. Sonrasında ise etiketli veriden elde edilen kelime temsilleri ve etiketsiz veriden elde edilen alana özel kelime temsilleri kullanılarak tekrarlayan yapay sinir ağları, uzun kısa dönem bellek ağları, çift yönlü uzun kısa dönem bellek ağları, kapılı tekrarlamalı ünite ağları ve konvolüsyonel ağlar kullanılarak trafik veri setinin sınıflandırılması gerçekleştirilmiştir. Özellikle Twitter son yıllarda kullanıcıların duyguları, düşünceleri ve olaylar hakkında bilgi paylaştıkları önemli bir platform haline geldi. Kullanıcıların gün içerisinde yaşadıkları olaylar hakkında anlık olarak bilgi paylaşımında bulunmaları bu platformdan sağlanan verileri olay tespiti açısından oldukça kıymetli bir hale getirdi. Bununla birlikte bu paylaşımlar mobil cihaz kullanımı, kullanıcı alışkanlıkları ve mesajlardaki karakter sayısı kısıtlamaları gibi sebeplerden dolayı yüksek miktarda gürültülü veri içermektedir. Bu tez çalışmasında öncelikli olarak SMM'lerdeki gürültünün azaltılabilmesi için Türkçe normalizasyon araçlarında kullanılan diyakritik, aksan ve ünlü harf restorasyon modülleri ile yazım denetimi modülü Word2vec tabanlı belirsizlik giderme modülü ile genişletilmiştir. Ayrıca normalizasyon işlemi için bütünüyle kaskad bir mimari yerine paralel ve kaskad yapıdan oluşan hibrit bir mimari kullanılmıştır. Sonuç olarak trafik veri seti üzerinde gerçekleştirilen normalizasyon işleminde güncel tekniklere kıyasla %25,95'lik bağıl hata azaltımına denk %10,41'lik bir iyileşme sağlanarak %70,29'luk bir başarım elde edilmiştir. Trafik verilerinin sınıflandırılması işlemi hem iki sınıflı veri seti üzerinde hem de trafikli kaza, yol çalışması ve hava durumu gibi özel durumlarıda içeren 8 sınıflı veri seti üzerinde gerçekleştirildi. Ayrıca sınıflandırılma işlemindeki normalizasyonun etkinliğini değerlendirmek üzere temelde iki grup çalışma gerçekleştirildi. Bunlardan birincisinde kelime temsilleri (Word embedding) sadece sınıflandırma veri setindeki tweetler kullanılarak elde edilirken, ikinci grup çalışmada kelime temsillerinin elde edilmesi için yaklaşık 1,5 M tweetten oluşan alana özel bir derlem kullanıldı. Derlemin oluşturulurken trafik veri setinde kullanılan anahtar kelimelerin aynıları kullanıldı ve ilave olarak doğrudan trafikle ilgili "@radyotrafik" ve "@radyotrafik06" gibi hesaplardan elde edilen tweetler kullanıldı. 2 sınıflı veri seti üzerinde, sınıflandırma işlemindeki etiketli veriden elde edilen kelime temsillerinin kullanıldığı durumda normalizasyon işlemi tüm modellerde sınıflandırma başarımını arttırmıştır. Etiketli kelime temsillerinde normalizasyon işlemi yaparak sınıflandırma yapmak en iyi durumda LSTM modeli ile %3'lük katkı sağlarken, alana özel kelime temsili kullanmak %8,9'luk çok daha iyi bir katkı sağlamıştır. 2 sınıflı veri setinde en yüksek başarım %96,15 ile alana özel kelime temsili kullanarak normalizasyon işlemi yapılmadan elde edilmiştir. Alana özel kelime temsili kullanımı çok sınıflı veri seti üzerinde tüm modeler için sınıflandırma başarımında en iyi durumda %32,08'lik bir iyileşme sağlamıştır. En iyi sınıflandırma başarımı alana özel kelime temsilllerine ilave olarak normalizasyon yapılmasıyla %89,92 GRU modeline aittir. Bununla normalizasyon yapılmadan elde edilen %88,5'lik LSTM modeline kıyasla normalizasyonun katkısı yalnızca %1,42'dir. Genel olarak normalizasyon işlemi sınıflandırma performansını arttırmakla birlikte etkisi alana özel kelime temsili kullanılmasında kıyasla çok daha düşüktür. Bu durumda trafik veri seti için normalizasyon işlemi yapmadan alana özel kelime temsilleri ile oldukça yüksek başarımlar elde edilebilmektedir. Ayrıca hem 2 sınıflı hem çok sınıflı veri seti için etiketli veriden kelime temsili kullanılması durumunda CNN modeli diğer modellere kıyasla belirgin şekilde daha iyi sonuç vermektedir. Bu durumda önerilen normalizasyon yaklaşımı en iyi durum için LSTM modeli ile %3'lük snıflandırma performansı artışı sağlanırken, en kötü durumda sınıflandırma performansındaki artış %0,25 ile CNN modelinde gerçekleşmiştir. Buna ilave olarak etiketli veriden elde edilen kelime temsillerinde en yüksek sınıflandırma başarım skorları CNN ile elde edilmiştir. Orjinal veri, önerilen normalizasyon yaklaşımı ve manuel normalizasyon için sırasıyla %93,05, %93,3 ve %93,35 olarak gerçekleşmiştir. Öte yandan alana özel kelime temsili kullanılmasıyla birlikte 2 sınıflı veri seti üzerinde en yüksek başarım oranı %96,15 ile orjinal veri kullanılarak LSTM modeli ile elde edilmiştir. Ayrıca bu koşul için normalizasyon işlemi LSTM modelinin sınıflandırma performansını arttırmamıştır.
Situations such as traffic jams, accidents, faulty drivers, vehicle failures and roadworks lead to serious problems that cause loss of time and money for both drivers and traffic management units. The fact that the location and type of traffic events can be determined in real time will provide drivers and traffic managers with important facilities for solving the problem or choosing an alternative route. Nowadays, systems based on cameras and physical sensors are widely used for detecting traffic incidents and tracking congestion. On the other hand, there is very valuable information about traffic on social media platforms. In this thesis, we propose a method that can detect traffic related events within a wide coverage area with a cost effective solution at a reasonable rate of accuracy by using social media messages (SMM). In this respect, primarily the Turkish text normalization approaches, which are used for reducing noise problems in SMMs, are expanded with word embeddings for umbiguity situations. In addition, a collection of 1.5 M unlabeled tweets specific to the traffic area was prepared and word representations were obtained. Then, word embeddings obtained from labeled data and domain spesific word embeddings, which are obtained from unlabeled data, are used to classification of traffic data set via recurrent neural networks, long short term term memory networks, bidirectional long short term term memory networks, gated recurrent unit networks and convolutional neural networks. Especially in recent years, Twitter has become an important platform where users share information about emotions, thoughts and events. The fact that the users shared information about the events they experienced during the day made the data from this platform very valuable in terms of event detection. However, these shares contain a high amount of noisy data due to mobile device usage, user habits, and number of characters in messages. While users share important information about events, these shares have many noisy text problems, such as the diacritic character problem, typographical errors, laughing in random letters, and the use of acronyms and accents. In this thesis primarily, in order to reduce the noise in SMMs, the diacritic, accent and vowel letters restoration modules and spell-checking module used in Turkish normalization tools were extended with umbiguity module based on Word2vec. In addition, a hybrid architecture consisting of parallel and cascade structure is used instead of a completely cascade architecture for the normalization process. As a result, in the normalization process carried out on the traffic data set, an improvement of 10.41% corresponding to 25.95% relative error reduction was achieved compared to the state of the art techniques and a performance of 70.29% was achieved. The classification process of the traffic data was carried out on both the two-class data set and the 8-class data set, which included special cases such as traffic accident, road work and weather. In addition, two groups of studies were conducted to assess the effectiveness of normalization in the classification process. In the first, word embedding was obtained using tweets only in the classification data set, while the second group study used a special collection of about 1,5 M tweet to obtain word embeddings. The same keywords used in the traffic data set were used to create the corpus, and also tweets obtained from directly traffic related accounts such as "@radyotrafik" and "@radotrafik06". The normalization process increased the classification performance on all models when word representations obtained from the labeled data in the classification process were used on the 2-class data set. In the case of normalization and labeled word embeddings, the LSTM model contributed 3% in the best case, while the use of domain-specific word embeddings provided a much better contribution of 8,9%. The highest performance in the 2-class data set was obtained without normalization by using a domain-specific word embeddings with 96,15%. The use of domain-specific word embeddings has provided a 32,08% improvement in the best case classification performance for all models on the multi-class data set. The best classification performance belongs to 89,92% GRU model by normalization in addition to domain-pecific word embeddings. With this, the contribution of normalization is only 1,42% compared to the 88.5% LSTM model obtained without normalization. However, compared to the 88.5% LSTM model without normalization, the contribution of normalization is only 1,42%. In this case, without the normalization process for the traffic data set, highly specific achievements can be obtained with domain-specific word embeddings. In addition, for both the 2-class and the multi-class data set, the CNN model is significantly better when the word embeddings is used from the labeled data. In this case, the proposed normalization approach achieved the performance improvement of 3% with the LSTM model in the best case, whereas in the worst case, the performance in the classification performance was realized in the CNN model with 0,25%. In addition, the highest classification performance scores were obtained with CNN in word embeddings obtained from labeled data. For original data, proposed normalization approach, and manual normalization were accured 93,05%, 93,3% and 93,35%, respectively. On the other hand, with the use of domain-specific word embeddings, the highest performance rate was obtained with the LSTM model using the original data with 96,15% on the 2 class data set. Furthermore, the normalization process for this condition did not increase the classification performance of the LSTM model.