Ulusal Tez Merkezi

Tez No	İndirme	Tez Künye	Durumu
709912		Identification of object manipulation anomalies for service robots / Servis robotları için nesne etkileşim anomalilerinin tanısı Yazar:DOĞAN ALTAN Danışman: DOÇ. DR. SANEM SARIEL UZER Yer Bilgisi: İstanbul Teknik Üniversitesi / Lisansüstü Eğitim Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control Dizin:	Onaylandı Doktora İngilizce 2021 140 s.

Yapay zeka alanındaki son gelişmelerle, servis (hizmet) robotları gündelik hayatın içinde yer almaya başlamışlardır. Özellikle ev, okul ve fabrika gibi ortamlarda hizmet sunmaktadırlar. Bu ortamlardaki işlerin doğası gereği, robotların ortamda bulunan insanlarla ve diğer başka robotlarla etkileşimde olmaları gerekmektedir. Bu etkileşimler nedeniyle, etik konuların gündeme alınması ve robotların güvenli çalışmaya yönelik gerekli olan bilişsel yeteneklere sahip olmaları gerekmektedir. Bu tez kapsamında bu amaca yönelik çalışmalar yürütülmüştür. Servis robotları çoğunlukla birden fazla eylemi içeren karmaşık görevler yürüttüğünden, görev yürütmesi sırasında beklenmeyen durumlar ile karşılaşılması kaçınılmazdır. Bu tip beklenmeyen durumlar anomali olarak isimlendirilir. Anomaliler robotun kendi yürüttüğü eylemlerin bir sonucu olarak ortaya çıkabileceği gibi, içerisinde bulunduğu ortamda bulunan başka robotlar veya insanlar nedeniyle de ortaya çıkabilir. Anomali durumlarının ortamda bulunan insanlar, diğer robotlar veya robotun kendisi için tehdit oluşturacak herhangi bir duruma yol açmaması güvenli görev yürütme açısından önemli bir kriterdir. Bu nedenle, bilişsel bir robotun öncelikle ortamını devamlı bir şekilde gözlemleyerek potansiyel anomali durumlarını sezmesi gerekmektedir. Anomalinin sezilmesinden sonra, robotun etkin bir şekilde anomali kotarımı yapabilmesi için meydana gelen bu anomalinin tipini belirleyebilmesi oldukça önem taşımaktadır. Bu sebeple, bilişsel bir robotun bu tip anomali durumlarını tespit edip çözümlemesi için bir anomali tanısı yordamına ihtiyacı vardır. Bu tezde, robotun hedeflerine ulaşabilmesi için görev yürütmesi sırasında karşılaşabileceği potansiyel anomali durumlarının sınıflandırması problemi ele alınmıştır. Bu problemde, robotun üzerinde taşıdığı sensörlerinden (görüntü, ses, kuvvet vb.) gelen verileri yorumlayarak anomali tanımını yapabilmesi ele alınır. Bu sensör verilerinin her biri, doğaları gereği farklı karakteristiklere sahip olabilirler. Bu nedenle robot, ortamını mevcut sensörleri ile algıladıktan sonra, mevcut gözlemlerini bir arada değerlendirerek etkin bir şekilde işleyebilmeli ve anomaliler üzerine çeşitli çıkarım algoritmaları yürütebilmelidir. Fakat, robotun anomali durumlarını tam olarak analiz edebilmesi için yürütmeye ilişkin önceki gözlemlerini de göz önüne alması gerekir. Örneğin, bazen anomaliler önceki adımlarda yürütülen eylemler nedeniyle oluşabilir. Tüm bu zorluklarla başa çıkabilmek için anomali tanısı probleminin zamansal bir boyutta analiz edilmesi gerekir. Bu analiz ile, potansiyel anomali durumları ve sınıfları arasında zamansal ilişkilendirmelerin yapılması gereklidir. Bu tezde, servis robotları için anomali tanısı problemi, özniteliklerin işlenmesi açısından farklı seviyelerde ele alınmış ve iki farklı derin öğrenme tabanlı çok kipli (multimodal) anomali tanısı mimarisi önerilmiştir. İlk olarak sunulan mimaride, öznitelikler sembolik seviyede oluşturulmuş ve işlenmiştir. Bu mimaride robot, sahip olduğu kamerasından gelen iki boyutlu görüntü verisini, mikrofonundan gelen ses verisini ve tutucusundan gelen uygulanan kuvvet bilgisini işlemektedir. Bu bilgiler bir araya getirilmeden önce, yüksek seviyeli sembollerin çıkartılması gerekmektedir. İki boyutlu görüntülerden görsel sembollerin çıkartılması işini yerine getirmek amacıyla bir sahne modelleme sistemi kullanılmaktadır. Bu sayede robot, sahneye ilişkin bilgilere (nesne bilgileri, uzamsal ilişkiler vb.) sahip olmaktadır. Daha sonra, mikrofondan alınan ses verisi, bir ön işleme aşamasından geçmekte ve veriye ait öznitelikler çıkartılmaktadır. Bu aşamayı, ilgili özniteliklerden yüksek seviyeli sese ilişkin sembolik yüklemlerin destek vektör makineleri (Support vector machines, SVM) kullanılarak çıkartılması izler. Tutucudan alınan işlenmemiş bilginin de (kuvvet, tutucu açıklı bilgisi vb.) sembollere dönüştürülmesi ile işlenmemiş sensör verisinden yüksek seviyeli sembolik verinin elde edilmesi işlemi tamamlanmış olur. Robotun sensörlerinden gelen veriler her zaman senkron olmayabilir ve bu durum elde edilen gözlemlerin zamansal olarak bir araya getirilmesinde zorluklara yol açabilir. Bu nedenle önerilen yöntem, sensor bilgisinin bir araya getirilmesinde zamansal bir erken füzyon yöntemini benimser. Bu aşamadan sonra, farklı sensör kiplerine (modality) ait verilerin elde edilme zamanları tutarlı olacak şekilde bir araya getirilmiş olur. Daha sonra, anomali semptomları bir derin öğrenme mimarisinde öğrenilir. Bu çalışmada, uzun kısa süreli bellekler (Long short-term memories, LSTM) kullanılarak anomali semptomlarının bir modeli öğrenilmiştir. Yürütme anında elde edilen ardışık gözlemler, bu model kullanılarak etiketlendikten sonra bir çoğunluk oylaması yöntemi ile anomalinin nedenine karar verilir. Tez kapsamında ele alınan ikinci mimari, evrişimli (convolutional) özniteliklerin analiz edilerek anomali tanısının yapılması fikrini baz alır. Geliştirilen mimari, görsel algı (vision), işitsel algı (audition) ve iç algı (proprioception) özniteliklerin işlendiği üç aşamaya sahiptir. Her bir aşamada, farklı sensör kiplerine ait verilerin işlenmesi görevi yerine getirilir. Bu mimaride, bir önceki mimariden farklı olarak, görsel özniteliklerin çıkartılması için herhangi bir sahne yorumlama sistemine gerek duyulmaz. Aksine, ilgili öznitelikler doğrudan iki boyutlu görüntüler üzerinden evrişimli sinir ağları (Convolutional neural networks, CNN) kullanılarak çıkartılır. Çıkartılan görsel öznitelikler, uzun-kısa süreli bellekler ve bir odak (attention) mekanizması aracılığı ile anomali semptomlarının öğrenilmesinde kullanılır. Bu aşamanın tamamlanması ile, görsel verinin işlenmesi aşaması sona ermiş olur. Diğer aşamada ise işitsel verinin işlenmesi görevi yürütülür. Robotun yürütme anında mikrofonu aracılığı ile aldığı işitsel veriden, ilk olarak Mel frekansı kepstrum katsayıları (Mel frequency cepstral coefficients, MFCC) öznitelikleri çıkartılır. Daha sonra çıkartılan bu öznitelikler, bir evrişimli sinir ağları yapısından geçirilerek, işitsel veri işleme görevinin sonuna gelinir. Üçüncü sensör verisi olarak tutucuya ilişkin tutucunun açıklık bilgisi ve tutucu tarafından uygulanan kuvvet bilgisi bu veriyi işlemek üzere tasarlanan bir evrişimli sinir ağı yardımıyla işlenir. Mimaride son aşama olarak bir geç füzyon tekniği kullanılarak görsel algı, işitsel algı ve iç algı bileşenleri bir araya getirilir. Füzyon ile birleştirilmiş bu bilgi, bir sinir ağı yardımıyla işlenerek oluşan anomalinin sınıfı belirlenir. Önerilen mimariler, Baxter robotu üzerinde çeşitli anomali durumlarını içeren gündelik nesne etkileşim senaryolarında test edilmiştir. Deneyler kapsamında, karşılaştırmalı performans analizleri, parametre analizleri ve kullanılan sensör kiplerinin anomali tanısına etkilerinin analizleri irdelenmiştir. Deney sonuçlarında, iki mimarinin de anomali durumlarını başarıyla (sırasıyla %92 ve %94 f-skorları ile) belirleyebildikleri görülmüştür. Elde edilen sonuçlara göre, gereksinimler göz önüne alındığında ilk mimarinin sahne yorumlayıcı ve sembolik seviyede ses sınıflandırıcı gibi, bir robot mimarisinde her zaman mevcut olamayabilecek modüllere gereksinim duyduğu durumu ortaya çıkmıştır. Aynı zamanda, özellikle bir anomali durumunda görsel olarak sahnenin karmaşık bir hal almasının, sahnenin tam ve doğru bir şekilde yorumlanmasında sorunlara yol açtığı ve bu nedenle anomali tanıma performansını etkilediği görülmüştür. Bu sonuçlar doğrultusunda, evrişimli özniteliklerin göz önüne alınarak ayrı aşamalarda incelendiği mimarinin daha genel bir çözüm sunmasından ve daha iyi performans sağlamasından dolayı, daha tercih edilir olduğu gösterilmiştir. Tez kapsamında ele alınan problem ve sunulan çözüm, robotların yeteneklerinin arttırılması doğrultusunda önemli bir adımdır. Aynı zamanda elde edilen sonuçlar, güvenli görev yürütmesi ve etik açısından önemli olup, umut vericidir.

Recent advancements in artificial intelligence have resulted in an increase in the use of service robots in many domains. These domains include households, schools and factories to facilitate daily life in domestic tasks. Characteristics of such domains necessitate the intense interaction of robots with humans. These interactions necessitate extending the abilities of service robots to deal with safety and ethical issues. Since service robots are usually assigned to complex tasks, unexpected deviations of task state are highly probable. These deviations are called anomalies, and they need to be continually monitored and handled for robust execution. After an anomaly case is detected, it should be identified for effective recovery. For the identification task, a time series analysis of onboard sensor readings is needed since some anomaly indicators are observed long before the detection of the anomaly. These sensor readings need to be fused effectively for correct interpretations as they are generally taken asynchronously. In this thesis, the anomaly identification problem of everyday object manipulation scenarios is addressed. The problem is handled from two perspectives by considering the feature types that are processed. Two frameworks are investigated: the first one takes into account domain symbols as features while the second framework considers convolutional features. Chapter 5 presents the first framework to address this problem by analyzing symbols as features. It combines and fuses auditory, visual and proprioceptive sensory modalities with an early fusion method. Before they are fused, a visual modeling system generates visual predicates and provides them as inputs to the framework. Auditory data are fed into a support vector machine (SVM) based classifier to obtain distinct sound classes. Then, these data are fused and processed within a deep learning architecture. The architecture consists of an early fusion scheme, a long short-term memory (LSTM) block, a dense layer and a majority voting scheme. After the extracted features are fed into the designed architecture, the occurred anomaly is classified. Chapter 6 presents a convolutional three-stream anomaly identification (CLUE-AI) architecture that fuses visual, auditory and proprioceptive sensory modalities. Visual convolutional features are extracted with convolutional neural networks (CNNs) from raw 2D images gathered through an RGB-D camera. These visual features are then fed into an LSTM block with a self-attention mechanism. After attention values for each image in the gathered sequence are calculated, a dense layer outputs the attention-enabled results for the corresponding sequence. Mel frequency cepstral coefficients (MFCC) features are extracted from the auditory data gathered through a microphone in the auditory stage. This is followed by feeding these auditory features into a CNN block. The position of the gripper and the force applied by it are also fed into a designed CNN block. These resulting sensory modalities are then concatenated with a late fusion mechanism. Afterward, the resulting feature vector is fed into fully connected layers. Finally, the anomaly type is revealed. The experiments are conducted on real-world everyday object manipulation scenarios performed by a Baxter robot equipped with an RGB-D head camera on top and a microphone placed on the torso. Various investigations including comparative performance evaluations, parameter and multimodality analyses are studied to show the validity of the frameworks. The results indicate that the presented frameworks have the ability to identify anomalies with f-scores of 92% and 94%, respectively. As these results indicate, the CLUE-AI framework outperforms the other in classifying occurred anomaly types. Due to the requirements that the frameworks necessitate, the CLUE-AI framework does not require additional external modules such as a scene interpreter or a sound classifier as the other one does and provides better results compared to the symbol-based solution.