Tez No İndirme Tez Künye Durumu
695775
A context-aware model for stochastic planning in environments with hidden states / Saklı durumları olan ortamlarda stokastik planlamaiçin bağlam-farkındalığı olan model
Yazar:ÖMER EKMEKCİ
Danışman: PROF. DR. FARUK POLAT
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2021
85 s.
Kısmi Gözlemlenebilir Markov Karar Süreçleri (KGMKS) belirsizlik altında çözülmesi gereken stokastik planlama problemlerinin gösterimlerinin formalize edilmesi için yaygın bir biçimde kullanılmaktadır. Bu düzende, otonom etmenler durum bilgisine kusursuz bir biçimde sahip değildir. Bunun için, etmenler gözlemlerine bağlı olarak hangi durumda olduğunun bilgisini saptamak için bellek tutma gereksinimi duyarlar. Durum uzayının büyük olduğu alanlarda plan oluşturmak çok masraflı hale gelebilir. Bu problemin üstesinden gelmek için, önermesel mantık ve/veya gramer-tabanlı modeller kullanılarak elde edilen kompakt gösterimler oldukça faydalıdır. Bu gösterimler, verilen bir problemde bulunan durum-aksiyon ilişkilerinden faydalanır. Yine de, KGMKS'ler bu ilişkileri kodlamazlar. KGMKS planlaması için var olan kesin çözüm algoritmaları çok büyük durum uzayına sahip bir görev için işe yarar bir poliçe bulma konusunda verimsizlerdir. Buradan hareketle, bu tezde, daha önceki bir çalışmadan ilham alarak kısmi gözlemlenebilir ortamlarda Markov ardışık karar verme problemlerini daha yapısal bir biçimde temsil etmek için Bağlam-Farkında KGMKS (BF-KGMKS) isimli yeni gramer-tabanlı bir model sunduk. BF-KGMKS, KGMKS yapılarını durum, aksiyon ve gözlemler arasındaki nedensel ilişkileri entegre ederek değiştirerek geliştirir ve böylece görevlerin yapısal, mümkünse kompakt, gösterimini sağlar. BF-KGMKS'nin ifadesel avantajını göstermek için, KGMKS ve BF-KGMKS arasındaki dönüşümün karmaşıklığının kuramsal sınırlarını çizdik. İkinci olarak, tam gözlemlenebilir alanlar için, daha iyi bir performans adına yerel ilişkileri de kullanan ve kısmi gözlemlenebilir ortamlar için olabilecek çözüm yöntemine de yol göstermesi için bir plan üretme algoritması sunduk. Çözüm algoritmamızın kuramsal tanımını ve analizini yapmış olup farklı problemler ile gerçekleştirdiğimiz deneylerimizi sunduk. Sonuçlar, içerik bilgisinin çözüm algoritmasında kullanılmasının poliçe oluşturulmasını önemli ölçüde geliştirdiğini göstermiştir.
Partially Observable Markov Decision Processes (POMDP) have been used extensively to formalize representations for decision-theoretic planning problems to be solved under uncertainty. In this setting, autonomous agents do not have the perfect state information. Thus, agents need to store a memory for keeping track of which state it is in depending on the observations. In domains with huge state spaces, policy generation becomes costly. In order to overcome this problem, compact representations using propositional logic and/or grammar-based models are needed. These representations benefit from the underlying state-action relationship in a given problem setting. However, plain POMDPs do not encode these relationships. Existing exact solution algorithms for POMDP planning are inefficient at determining a useful policy in task with huge state space. Based on this motivation, in this thesis, we take our inspiration from an earlier work and propose a new grammar-based model called Context-Aware POMDP (CA-POMDP) for the purpose of representing Markovian sequential decision making problems in a more structured manner in partially observable environments. CA-POMDP changes and augments POMDP facilities by integrating causal relationships between states, actions and observations thereby enabling structural, compact if possible, representation of the tasks. To show the expressive power of CA-POMDP, we give the theoretical bounds for complexity of conversion between POMDP and CA-POMDP. Second, we enhance a policy generation algorithm for fully observable domains to reveal the way for solution procedures for partially observable domains which uses the local relationships for improved performance. We give theoretical definition and analysis of our solution algorithm then present our conducted experiments on numerous problems. Results show that incorporation of context dependent information to solver algorithm significantly improved policy generation.