Ulusal Tez Merkezi

Tez No	İndirme	Tez Künye	Durumu
753040		Lifelong learning for auditory scene analysis / İşitsel sahne analizi için hayat boyu öğrenme Yazar:BARIŞ BAYRAM Danışman: DOÇ. DR. GÖKHAN İNCE Yer Bilgisi: İstanbul Teknik Üniversitesi / Lisansüstü Eğitim Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Bilim ve Teknoloji = Science and Technology Dizin:Sahne = Stage ; Yaşam boyu öğrenme = Lifelong learning ; İşitsellik = Audial	Onaylandı Doktora İngilizce 2022 148 s.

Sensör teknolojisindeki son gelişmeler ile yapay zekâ ve makine öğrenmesinde gerçekleşen evrim niteliğinde değişimlerden dolayı sahne analizi, durağan ve durağan olmayan sahnelerde bulunan çeşitli hedefler, hedef olmayan nesneler ve gürültüler dâhil olmak üzere akustik olayların ve aktivitelerin dinamik olarak algılanması ve anlaşılması için son zamanlarda daha yoğun bir ilgi görmektedir. Akustik sensörlerin çeşitli çevrelerde yakaladığı veriler, o sahnedeki olayları, aktiviteleri ve bunlarda yer alan nesnelerden yüksek başarımlı bir şekilde anlam çıkarmak için analiz etmek mümkündür. Bununla birlikte, gerçek dünyadaki dinamik ortamlar, arka plan sesleri ve gürültüleri, birbiriyle örtüşen hedef ses kaynakları, hesaplama için yüksek zaman ve alan gerekliliği vb. gibi sahne analizinde gerçek zamanda hayat boyu öğrenme için verimli algılamayı ve veri işlemeyi olumsuz etkileyen birçok sorun mevcuttur. Otomatik sahne analizi konusu, bu tip dinamik olarak değişen sahnelerde bulunan ortamları, durumları, olayları ve aktiviteleri analiz etmek için nesneler ve olaylar hakkında faydalı bilgiler toplama ve tespit etme sürecinin önemli bir yönüdür. Sahne analizi çalışmalarında çeşitli ortamlardaki objelerin analizi için çoğunlukla bilgisayarda görü (computer vision) alanındaki problemlere odaklanılmıştır. Sahne analizi gerektiren farklı görevlerde işitsel yetilerin avantajları, İşitsel Sahne Analizi (Auditory Scene Analysis, ASA) araştırma konusu altında çevresel olaylardan, arka plan seslerinden ve insan seslerinden gelen durağan ve durağan olmayan seslerin dinamik olarak algılanmasına ve analizine dayanan çeşitli çalışmalarda ele alınmıştır. Gerçekçi akustik ortamlardaki seslerin, durağan olmayan uzamsal-zamansal doğası ve daha önce gözlemlenmemiş farklı olayların ortaya çıkma ihtimali nedeniyle işitsel sahne analizi performansı zamanla olumsuz olarak etkilenmektedir. Bu nedenle, gerçek dünya ortamlarında işitsel veriler ile sahne analizi derinlemesine incelenmemiş zor bir problemdir. Yapay zekâ alanında her geçen gün önem kazanan hayat boyu öğrenme, dinamik ortamlarda elde edilen verilerin hayat boyu öğrenildiği bir süreci ifade etmektedir. Bu tezde, dinamik işitsel sahnelerde ortaya çıkabilecek yeni olayları tespit etmek, bu olayları modele öğretmek ve öğrenilen olaylara ait yeni verileri tanımak için işitsel sahne analizi yönteminde Akustik Yenilik Tespiti (Acoustic Novelty Detection, AND) ve Akustik Olay Tanıma (Acoustic Event Recognition, AER) yetileri için gerekli algoritmalar ile hayat boyu öğrenme (lifelong learning) yaklaşımları sunulmaktadır. Bu yaklaşımlar ile yapay zekanın, işitsel sahnedeki sesleri insan müdahalesi olmadan hayat boyu öğrenmesi amaçlamaktadır. Bu tez kapsamında gerçek dünya öğrenme probleminde, hayat boyu öğrenme tabanlı sahne analizi performansını etkileyebileceği öngörülen ve bu doğrultuda araştırmalar ve geliştirmeler yapılan temel sorunlar şunlardır; (i) yeni ses sınıflarının varlığı, (ii) ortamda yeni ve daha önce öğrenilmiş ses sınıflarına ait etiket bilgisi olmayan büyük miktarda verinin varlığı, (iii) makine öğrenmesi alanındaki en maliyetli iş olan veri etiketlemenin zorluğu, (iv) yeni sınıfların tespit edildiği anda yeterli miktarda verisi olmama ihtimali, (v) sınıflar arası etiketli veri dengesizliği, (vi) kullanılan tanıma ve yeni olay tespit modellerinin daha önceden öğrendiği verileri ve sınıfları yıkıcı unutabilmesi (catastrophic forgetting) ve (7) sahne analizinde hayat boyu öğrenme amacıyla elde edilen verilerin depolanması için ihtiyaç duyulan alan ile (8) bu yöntemler için gereken hesaplama gücü yetersizliğidir. Dinamik olarak değişen ve durağan olmayan akustik ortamlarda, akıllı bir sisteme, makineye veya araca kazandırmak için gerçek zamanda hayat boyu öğrenme yetisinin geliştirilmesi hala araştırılmakta olan bir problemdir. Ek olarak, gerçek dünya ortamlarının sorunları söz konusuyken ASA için en güncel derin öğrenme tabanlı algoritmalarından ve ses işleme yöntemlerinden faydalanılabilir. Bu tezde işitsel sahne analizinde de karşılaşılabilecek bu temel sorunların ele alındığı hayat boyu öğrenme için (1) gerçek zamanlı ve (2) derin öğrenme tabanlı olarak 2 farklı yaklaşım, araştırılmış, geliştirilmiş ve tartışılmıştır. Ancak, her iki hayat boyu öğrenme yaklaşımının belirli temel sorunları vardır. Bunlar gerçekçi işitsel ortamlarda sahne analizi için gerçek zamanlı yaklaşımda artan öğrenme (incremental learning) yeteneğinin uygulanabilirliği ve derin öğrenme tabanlı yaklaşımda hesaplama süresidir. Bu çözümlerin temel farklılıklarından biri, gerçek zamanlı ASA'nın akış sinyali üzerinde gerçekleştirilmesidir. Bu nedenle, sinyalleri verimli bir şekilde analiz etmek için belirgin ve güçlü ses kaynaklarının bir Ses Kaynağı Lokalizasyonu (Sound Source Localization, SSL) yöntemi ile gerçek zamanda tespit edilip ve lokalize edilmesi sağlanmıştır. Aynı zamanda, gerçek zamanlı ASA için, olayları ve sahneleri verimli bir şekilde analiz edebilmek amacıyla mikrofon ile elde edilen akan sinyaller ile mevcut akustik aktivitelere ait değişken uzunluktaki zaman serisi ses örüntülerini ayrıştırmak için bir segmentasyon yöntemi gereklidir. Bu gerçek zamanlı ve derin öğrenme tabanlı çözümler, algoritmaların ve gerçek zamanlı işlemenin gereksinimlerine bağlı olarak AER ve AND için kullanılan ses öznitelikleri türlerinde de farklılık gösterir. Çok katmanlı Gizli Markov Modeli (multilayered Hidden Markov Model, multilayered HMM) tabanlı gerçek zamanda ASA için ilk önerilen hayat boyu öğrenme yöntemi beş ana adımdan oluşur: (1) Kaynağa özel analiz gerçekleştirmek için bir sahnedeki en belirgin ses kaynağının tespiti ve konumunun izlenmesi için kullanılan bir SSL adımı, (2) akan sinyal üzerinde zaman serisi ses örüntülerin segmentasyonu, (3) bu örüntülerden öznitelik çıkarma ve her bir örüntüye karşılık bir özellik setinin oluşturulması, (4) AER, her bir bilinen sınıfa özgü eğitilmiş HMM'ler tarafından gerçekleştirilen yarı denetimli (semi-supervised) olay tespiti adımı, (5) yeni sınıfların tespiti amacıyla AER adımında bulunan HMM'lerin çıktıları ile tüm sınıflar için yaratılan bir adet HMM algoritmasının kullanıldığı AND adımı, (6) insan müdahalesi olmadan hayat boyu kendi kendine öğrenme. Hayat boyu öğrenme adımında, AER adımını içeren ve çok katmanlı HMM'in alt katmanında kullanılmak için yakın zamanda tespit edilmiş yeni bir akustik olay sınıfına ait kısıtlı miktardaki öznitelik setleri kullanılarak yeni bir HMM eğitilmesi ve bilinen bir olayın tanınmasından sonra bu sınıfın alt katmanda bulunan modeli, bu işitsel olay sınıfına ait tüm eski ve yeni öznitelik setleri arasından seçilen bu sınıfı en iyi temsil edebileceği düşünülen en değerli öznitelik setleri ile yeniden eğitilmesi gerçekleştirilmektedir. Aynı zamanda, bu hayat boyu öğrenme adımında, üst katmanda bulunan HMM, yeni bir sınıfın tespiti ve bilinen bir sınıfın tanınmasından sonra HMM çıktılarına göre belirlenen en ideal öznitelikler ile yeniden eğitilmesi sağlanmaktadır. Bölüm~\ref{Ch4}'de, sırasıyla tespit edilen bir dizi ses örneği ve gerçek bir ev ortamından yerleştirilen 4-kanallı mikrofon dizisi ile elde edilen ses sinyalleri kullanılarak yürütülen gerçek zamanlı olan deneyler ayrıntılı olarak paylaşılmıştır. Birçok deney ile geleneksel makine öğrenmesi algoritmalarının da kullanıldığı hayat boyu öğrenme ile gerçek zamanlı ASA için akan sinyalden zaman serisi ses örüntülerini çıkarmak ve modellemek amacıyla önerilen çok katmanlı HMM'nin AER ve AND adımlarını yerine getirmek için en ideal algoritma olduğu gösterilmiştir. Bölüm~\ref{Ch5}'te, ASA için derin öğrenme tabanlı hayat boyu öğrenme yöntemindeki adımlar detaylı açıklanmıştır. Bu adımlar sırasıyla: (1) ham akustik sinyal üzerinde ön işleme, (2) düşük-seviyeli geleneksel, zamanla değişen spektral temsil (spektrogram) ve derin ses temsil özniteliklerinin çıkarılması için işitsel öznitelik çıkarma adımı (3) yeni ses sınıflarının tespiti için benzer bir AND adımı, (4) yeni sınıfa ait kısıtlı miktardaki verinin sayısını çoğaltmak için akustik sinyal artırım adımı, (5) bilinen sınıfların tespitinin gerçekleştiği AER adımı ve (6) yeni olayların işitsel öznitelikleri ile Artımlı Sınıf Öğrenimi (Incremental Class-Learning, ICL) adımı. Geleneksel algoritmaların kullanıldığı gerçek zamanlı ASA yönteminde olduğu gibi çeşitli işitsel olayların akustik sinyallerinden çıkarılan farklı özelliklerdeki ses öznitelikler ile bu derin ağ tabanlı artımlı hayat boyu öğrenme de, insan denetimi olmadan gerçekleştirilmektedir. Bu öznitelikler arasında bulunan derin ses özniteliklerinin çıkarılması için Görsel Geometri Grubu (Visual Geometry Group, VGG) ve Artık Sinir Ağı (Residual Neural Network, ResNet), Faktörize Zaman Gecikmeli Sinir Ağı (Factorized Time-Delay Neural Network, F-TDNN) ve TDNN tabanlı Uzun Kısa Süreli Bellek (TDNN based Long Short-Term Memory, TDNN-LSTM) ağları, çok büyük ölçekli bir ses veri seti olan Google AudioSet kullanılarak eğitilmiştir. Bu derin sinir ağlarından, VGG ve ResNet için Mel spektrogramları, F-TDNN için Mel-Frekans Cepstral Katsayısı (Mel-Frequency Cepstral Coefficient, MFCC) öznitelikleri ve TDNN-LSTM için ham ses sinyalleri girdi olarak işlenip bu derin ses özniteliklerini üretilmektedir. ESC-10, ESC-50, UrbanSound8K (US8K) ve tez kapsamında gerçek zamanlı ASA deneyleri için toplanılmış ev ortamındaki sesleri içeren veri setinden çıkarılan bu derin öznitelikler ve Mel-spektrogram ile çeşitli AND ve ICL tabanlı AER modellerinin performansları karşılaştırılıp değerlendirilmiştir. Bu elde edilen sonuçlar, 16 katmanlı VGG'nin derin öznitelikleri üzerinde Gauss Karışım Modeli (Gaussian Mixture Model, GMM) algoritmasının çeşitli AND senaryolarında en iyi performansları sağladığı ve FearNet algoritmasının, işitsel problemlerde yeni sınıfların öğrenilmesi ve tanıması için daha umut verici olduğu gösterilmiştir. Ayrıca bu deneylerde AND ile ICL için, FearNet ve GMM'nin entegre edilmesi, yeni olayların tespit edilmesi, bu yeni olayların öğrenilmesi ve ortamda bulunan etiketlenmemiş verilerin tanınması için sunulan yaklaşımlar ile sahne analizinin güvenilirliği ve verimliliği gösterilmiştir. Bunun yanında, F-TDNN derin özniteliği ile tatmin edici AND ve ICL tabanlı AER performansları ve iCaRL algoritması ile de bu veri setlerinde etkin ICL performansları elde edilmiştir.

Due to the evolution in artificial intelligence and machine learning with the recent advancements in sensor technology, scene analysis is getting more attention for automatic sensing and understanding of dynamic environments including various targets, non-target objects, and noises. The sensory information stemming from the environments can be efficiently analyzed to infer the events, activities, and related objects. However, many issues encountered in the real world, exist that prevent robust sensing and information processing required for important real-time tasks in real dynamic environments with background noises, overlapping targets, high processing complexity, and so on. Automatic scene analysis is a major aspect of the process of collecting and extracting useful knowledge of objects and events to analyze scenes in terms of the places, situations, events, and activities. A significant number of scene analysis studies have mainly focused on visual processing approaches for the analysis of objects in various environments. Auditory Scene Analysis (ASA) has been used in various real-world tasks, which relies on the perception and analysis of stationary and non-stationary sounds from environmental events and activities, background noises, human voices, and other sound sources. In realistic environments, the dynamic spatio-temporal nature and complexity of environmental sounds, and the existence of novel events may eventually deteriorate the performance of ASA. Therefore, ASA in real-world environments is a difficult task and has not been extensively investigated. Lifelong learning that is progressively becoming a more crucial task in artificial intelligence is a continuous learning process in acquiring and adapting knowledge from dynamic environments. In this thesis, the task of lifelong ASA for Acoustic Event Recognition (AER) with Acoustic Novelty Detection (AND) is addressed to detect novel acoustic events, recognize known events, and learn in a self-learning manner. The problem is investigated by identifying and tackling various issues that may or will affect the ASA in a real-world learning environment. The main issues of lifelong learning in realistic environments are (i) existence of novel acoustic classes, (ii) existence of unlabeled data, (iii) cost of annotation, (iv) lack of adequate data for novel classes, (v) imbalanced data between classes, (vi) forgetting of previous data, and (vii) lack of memory for storing all the data and (viii) computational power for lifelong learning. In dynamic acoustic environments, the lifelong ASA for intelligent systems, agents, or robots in real-time is still an open issue. Also, recent deep learning methods for ASA have not been investigated yet while avoiding the issues of real-world environments. In this thesis, two approaches regarding the main issues, 1) a real-time ASA approach and 2) a deep learning-based ASA approach are investigated, which are able to recognize acoustic events, detect the novel events and then learn by the AER and AND models. However, both lifelong learning approaches have certain issues; which are the lack of incremental learning capability in the real-time approach for the ASA in a realistic environment, and the computational time in the deep learning-based approach. One of the main differences between the approaches is that the real-time ASA is applied to the streaming signal. Thus, each salient sound source in an acoustic scene is identified and localized by a Sound Source Localization (SSL) method to robustly perform the source-specific analysis of its signal. In addition to the SSL method, a segmentation technique is employed to segment variable-length time-series audio patterns of acoustic activities from the streaming signal to efficiently analyze the events and scenes. Moreover, the approaches differ in their audio features used for AER and AND taking into account the requirements of the algorithms and real-time processing. The first approach for lifelong learning in ASA based on a multilayered Hidden Markov Model (HMM) comprises five main steps: (1) SSL used for detection and location monitoring of the most salient sound source in a scene to perform source-specific analysis, (2) segmentation of time-series audio patterns on the streaming signal, (3) feature extraction from the segmented patterns and construction of a feature set for each pattern, (4) AER in a semi-supervised manner performed by class-specific HMMs associated with known events, (5) AND carried out using a single HMM for all the known events, from the outputs of AER module, and (6) lifelong self-learning (Chapter 4). In the step of lifelong learning, the updates of the models are realized, in which after recognizing an event, the HMM is retrained using more likely knowledge selected among all the previous and new knowledge of the event, and for a new acoustic event recently detected, a class-specific model is generated and the AND model is retrained. In Chapter 4, the offline and real-time experiments are given in detail, which are conducted using streaming signals from a real domestic environment. In the experiments, it is demonstrated that for real-time ASA, HMM for modeling the time-series audio patterns from the streaming signal is the most efficient algorithm for the AER and AND. In Chapter 5, the steps of the other proposed lifelong learning approach which is a deep learning-based approach for ASA in offline mode are explained, which are: (1) raw acoustic signal pre-processing, (2) extraction of low-level, time-varying spectral representation (spectrogram), and deep audio features, (3) AND, (4) acoustic signal augmentation, (5) AER, and (6) Incremental Class-Learning (ICL) of the audio features of the novel events. The self-learning on different types of audio features extracted from the acoustic signals of various events occurs without human supervision. For the extraction of deep audio representations, in addition to Visual Geometry Group (VGG) and Residual Neural Network (ResNet), Factorized Time-Delay Neural Network (FTDNN) and TDNN-based Long Short-Term Memory (TDNN-LSTM) networks are pre-trained using a large-scale audio dataset called Google AudioSet. As the input of the networks, Mel-Frequency Cepstral Coefficient (MFCC) and raw signals are used by F-TDNN and TDNN-LSTM, respectively, and Mel-spectrograms are taken by the VGG and ResNet. The performances of ICL with AND using Mel-spectrograms, and deep features with TDNNs, VGG, and ResNet are validated on benchmark audio datasets such as ESC-10, ESC-50, UrbanSound8K (US8K), and an audio dataset collected in a real domestic environment, also used with the proposed real-time ASA approach. The results demonstrate that the FearNet algorithm with the VGG-16 features is a more promising algorithm for incremental learning of new acoustic classes in the audio domain, and the GMM algorithm provided the best AND performances in various AND scenarios. Moreover, for the ICL with AND, the FearNet integrated with a GMM exhibits the effectiveness of scene analysis in a real-world acoustic environment to deal with novel events and recognition of unlabeled data using the ICL-based AER. The efficient performances in the experiments of AND and AER tasks are observed also using F-TDNN, and iCaRL has the ICL performances with VGG close to the performances of FearNet in ESC-10 and Domestic datasets.