Tez No İndirme Tez Künye Durumu
736325
Statistical feature learning and signal generation for time-series sensor signals / Zaman serisi sensör işaretleri için öznitelik öğrenimi ve işaret üretimi
Yazar:ERKAN KARAKUŞ
Danışman: PROF. DR. HATİCE KÖSE
Yer Bilgisi: İstanbul Teknik Üniversitesi / Lisansüstü Eğitim Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:K-En Yakın Komşu Algoritması = K-Nearest Neighbor Algorithm ; Sensörler = Sensors ; Zaman serileri = Time series
Onaylandı
Doktora
İngilizce
2022
101 s.
İnsan Aktivitesi Tanıma (İAT) problemi akademi dünyasında oldukça ilgi gören bir araştırma konusu olmuştur. İAT, akıllı ev destekli yaşam sistemleri, sağlık izleme sistemleri, spor, iç ve dış mekân aktivitelerini izleme gibi birçok farklı uygulamada görülebilmektedir. İAT uygulamaları, video kameralar, giyilebilir sensörler veya insan hareketlerinin kodlanmış şekilde temsil eden WiFi veya radar işareti gibi diğer herhangi bir işaretten yararlanarak insan faaliyetlerini tanımlamak ve sınıflandırmak için gelişmiş makine öğrenimi tekniklerini içerir. Tanımlanmak ve sınıflandırılmak istenilen insan aktiviteleri uygulamadan uygulamaya farklılık gösterebilmektedir. Yürüme, koşma, oturma, uyuma, ayakta durma, duş alma, yemek pişirme, araç sürme, kapı açma ve normal dışı aktiviteler gibi çeşitli insan hareketleri İAT ile tanınabilir. Belli bir spor etkinliğinde yürüme, koşma, durma veya sprint atma gibi hareketlerin algılanması ve tanınması ilgi alanı dahilinde olabilirken, başka bir spor etkinliğinde o spor etkinliğine özgü hareketleri algılamak ve tanımak söz konusu olabilmektedir. Sağlık izleme uygulamalarında yaşlı, kronik rahatsızlığı bulunan bireylerde yere düşme aktivitesini bu tür sensörler yardımıyla tanıyabilmek hayati önem taşımaktadır. Giyilebilir akıllı cihazlar insanların günlük yaşamında yaygın olarak kullanılmaktadır. Bu tür akıllı cihazlar, üç eksenli ivme ve açısal hızı ölçmek için ivmeölçer ve jiroskop gibi sensörler içerir. Akıllı saatler, akıllı telefonlar veya bu tür giyilebilir sensör cihazları, cihaza gömülü olarak kullanıma hazır bu tür sensörler ile donatılmıştır. İnsan aktivitesi tanıma, giyilebilir akıllı cihazlar veya akıllı telefonlar tarafından kaydedilen ivmeölçer, jiroskop gibi sensör verilerinin bilinen hareketlere göre sınıflandırılması sorunudur. Sensörün vücut üzerindeki doğru yerleşimi hareketin sınıflandırılma hassasiyeti açısından önem taşımaktadır. Eğer aynı anda birden fazla aktivite söz konusu olursa, hareketin tanınması zorlaşabilmektedir. Öte yandan eğer sensörler bir ev ortamında kullanılıyorsa, evde yaşayan birden fazla kişinin hareketlerini ayırt etmek ve sınıflandırmak zor hale gelebilmektedir. Aktiviteye bağlı olarak her saniyede sensör tarafından üretilen çok sayıda gözlem, bu gözlemlerin zamana bağımlılığı ve sensör verilerinin hareketlerle ilişiklendirmenin net bir yolunun olmaması göz önüne alındığında İAT zor bir problem olarak karşımıza çıkmaktadır. İnsan hareketlerinin kodlanmış olduğu bu tür işaretler makina öğrenmesine tabi tutulmadan önce işaret işleme teknikleri kullanılarak bir ön işlemeye tabi tutulur. Ham veriler, bu işaret işleme tekniğinin uygulanması esnasında yüksek frekanslı bileşenler filtrelenir ve işaretler sabit uzunluklu pencere yöntemi ile çerçevelendikten sonra normalize/standardize edilerek makina öğreniminde kullanılmak üzere hazır hale getirilir. Doğrusal olmayan alçak geçiren medyan filtre, kayan pencere medyan filtre, Laplace ve Gauss filtreleri yüksek frekanslı gürültüyü filtre etmek için kullanılan işaret önişleme teknikleri arasında yer almaktadır. İnsan hareketine ait ivmeyi elde edebilmek için, yerçekimi ivmesinin ivmeölçer sensör işaretinden filtrelenmesi gerekir. Bu amaçla yüksek geçiren bir filtre uygulanarak yerçekimi ivmesi ivmeölçer sensör işaretinden filtrelenebilir. Literatürde İAT problemine yönelik çeşitli makina öğrenmesi tekniklerinin kullanımı görülmektedir. Karar Ağaçları, K En Yakın Komşu (KNN), Destek Vektör Makinası, Evrişimli Sinirsel Ağlar, insan aktivitesi tanıma ve sınıflandırmada kullanılan makina öğrenme teknikleri arasında gösterilebilir. Makine Öğrenmesi tekniklerinden yararlanarak bu tür işaretlerden insan faaliyetlerinin tanımlanması ve sınıflandırılması, ilgili insan aktivitesini temsil eden işaretten özniteliklerin belirlenmesi, seçilmesi ve bu özniteliklerin işaretten çıkarımını gerektirir. Özniteliklerin, işaretten insan hareketini en yakın temsil edecek şekilde seçilmesi ve ayırt edici olmayan özniteliklerin elenmesi gerekmektedir. Ardışıl ileri-geri seçim, Pudil algoritması tabanlı yüzen ileri-geri arama bu tür öznitelik belirlemede kullanılan teknikler arasında gösterilebilir. Literatürde bu tür zaman serisi işaretlerinden birçok öznitelik seçimi ve çıkarımı teknikleri bulunmaktadır. Derin öğrenme modellerini eğitmek amacıyla, bu tür sensör işaretlerinden işarete ait özniteliklerin çıkarılması için çeşitli teknikler literatürde sunulmuştur. Zaman ve frekans bölgesi tabanlı öznitelik çıkarımı, sensör tabanlı insan etkinliği sınıflandırması için yaygın olarak kullanılan bir tekniktir. Ortalama değer, medyan, standart sapma, entropi, korelasyon katsayıları gibi yapısal tabanlı öznitelik çıkarım tekniklerinin yanı sıra, FFT (Fast Fourier Transform), DWT (Discrete Wavelet Transform), HHT (Hilbert Huang Transform) gibi dönüşüm teknikleri de kullanılarak işarete ait özniteliklerin belirlenmesi söz konusu olabilmektedir. Zaman ve frekans bölgesi öznitelik çıkarma teknikleri çok verimli olmasına rağmen, zaman ve frekans bölgesi özniteliklerinin seçimi, genel sınıflandırma hassasiyeti üzerinde önemli bir etkiye sahip olabilir. Alternatif olarak, enerji tabanlı üretken modeller, öğrenme modelinde bir öznitelik çıkarma katmanına olan ihtiyacı ortadan kaldırır. Derin İnanç Ağları, sensör tabanlı insan etkinliği sınıflandırması için zaman ve frekans tabanlı öznitelik çıkarma ihtiyacını ortadan kaldıran derin öğrenme modellerine alternatiftir: Kısıtlı Boltzmann Makineleri (KBM), Derin İnanç Ağlarının yapı taşlarıdır. KBM'ler, bir rastgele değişkenin olasılık dağılımını ikili bir olasılık dağılımı üzerinde faktorize eden enerji tabanlı olasılıksal grafik modellerdir. Görünür RBM katmanı, gerçek değerli rastgele değişkeni ve gizli katman, karşılık gelen ikili değerli olasılık dağılımını temsil ederler. Koşullu Kısıtlı Boltzmann Makineleri (KKBM), KBM modelinden farklı olarak zaman serisi işaretlerine özgü işaretin kendi içerisindeki zamana bağımlılığını algılamada güçlü bir model olarak karşımıza çıkmaktadır. KKBM modelinin, KBM modeline göre işaretin zaman içerisindeki özgü bağımlılığını algılama kabiliyetinden ötürü, sensör tabanlı insan aktivitesi tanımlama ve sınıflandırma makina öğrenmesi problemlerinde güçlü bir model olarak karşımıza çıkmaktadır. Bu çalışmada insan aktivite verisi olarak Kaliforniya Üniversitesi, Irvine (UCI) veri deposundan sağlanan insan aktivite verileri kullanılmıştır. Bu veriler 19-48 yaşlar arasında 30 gönüllüden elde edilen aktivite sensör kayıtlarını içermektedir. Verileri elde etmek için katılımcıların bel hizasına giyilen bir bel çantası içerisine yerleştirilmiş Samsung Galaxy S II akıllı telefon ile aktivite sensör kayıtları gerçekleştirilmiştir. Kullanılan Samsung marka akıllı telefon 3-eksenli doğrusal ivme ve 3-eksenli açısal hızı ölçebilecek sensörler ile donatılmıştır. Deney sırasında video kaydı kullanılmış ve veriler bu video kaydı yardımıyla etiketlenmiştir. KKBM'nin gerçek değerli bir rastgele değişkene ait olasılık dağılımının, ikili değerli bir olasılık dağılımına dönüştürebilme kapasitesi, makina öğrenmesinde gerekli olan öznitelik çıkarım ihtiyacını zaman serisi işaretleri için ortadan kaldırır. Bu çalışma ile KKBM modelinin sensör tabanlı insan aktivitesi tanıma probleminde, zaman serisi bir sensör işaretinin özniteliklerini öğrenmek için nasıl eğitildiği ve eğitilen modelden işaretin yeniden nasıl elde edilebileceği gösterilmiştir. KKBM model eğitiminin ardından işaret, eğitilen model tarafından üretilir ve yeniden yapılandırılır. İşaretin yeniden elde edilmesi amacıyla eğitim veri kümesinden farklı olarak test veri kümesi kullanılmıştır. KKBM ile birlikte, KBM, GAN, WGAN-GP diğer üretken modellerin sonuçları da sunulmaktadır. Üretken modellerin performansını karşılaştırmak için, üretken modellerin gerçek işaretlere en yakın işaretleri üretmedeki performansını göstermek için bir performans kriteri olarak benzerlik metrikleri kullanılır. Euclid, Canberra ve Dinamik Zaman Bükme (DTW) mesafeleri bu tür performans kriterleri olarak kullanılır.
The Human Activity Recognition (HAR) problem has attracted substantial attention from academia. HAR has many applications like smart home assisted living systems, healthcare monitoring systems, sports activity monitoring, and monitoring indoor and outdoor activities. HAR applications involve advanced machine learning techniques to identify and classify human activities by leveraging video cameras, wearable sensors, or any other signal like Wi-Fi or radar which eventually encodes the human activity. Human activities are encoded in signals and signal processing techniques are required to pre-process raw signals to filter out high-frequency components and to frame the signals into the fixed-length window. Wearable smart electronics are widely used in human daily life. Those smart devices contain sensors like accelerometer and gyroscope to measure triaxial acceleration and angular velocity respectively. Smartwatches, smartphones, or any such wearable sensor devices contain out-of-the-box sensors embedded in the device. Identification and classification of human activities from such signals by leveraging machine learning techniques require features to be extracted from the signal which represents the corresponding human activity. Many feature extraction techniques from such time-series signals exist in the literature. Time and frequency domain-based feature extraction is a widely used technique for sensor-based human activity classification. To train deep learning models, one needs features to be extracted from the signal. Though time and frequency domain feature extraction techniques are very efficient, the selection of the time and frequency domain features may have a significant impact on the overall classification accuracy. Alternatively, energy-based generative models eliminate the need for a feature extraction layer in the learning pipeline. Deep Belief Networks are alternatives to deep learning models eliminating the need for time and frequency-based feature extraction for sensor-based human activity classification: Restricted Boltzmann Machines (RBM) are the building blocks of Deep Belief Networks. RBMs are energy-based probabilistic graphical models which factorize the probability distribution of a random variable over a binary probability distribution. The visible layer of RBMs represents the real-valued random variable and the hidden layer represents the corresponding binary valued probability distribution. Conditional Restricted Boltzmann Machine (CRBM) is an extension to RBMs and is strong in capturing temporal dependency information encoded in time-series signals. They can be used in the classification of sensor-based human activities. The capacity of CRBM by factorizing a real-valued random variable probability distribution over a binary valued probability distribution eliminates the need for feature extraction from the signal by applying certain feature extraction techniques. This work shows how CRBM is trained to learn signal features. Once trained the signal is generated and reconstructed by the trained model. Along with CRBM, the results of other generative models RBM, GAN, WGAN-GP, and predictive model LSTM are also presented. To compare the performance of the models, similarity metrics are used as a performance criterion to show the performance of the generative models in generating the signals closest to the real signals. Euclidean, Canberra, and Dynamic Time Warping (DTW) distances are used as performance criteria. The results indicate that CRBM outperforms GAN, WGAN-GP, and RBM generative models in generating the signal closest to the original signal. LSTM performs close to CRBM. The capacity of the CRBM in generating signals closest to the original signal indicates that CRBM can learn features from the signal and can also be used in supervised classification.