Tez No |
İndirme |
Tez Künye |
Durumu |
181311
|
|
Autonomous strategy planning under uncertainty / Belirsizlik altında özerk strateji geliştirme
Yazar:ALP SARDAĞ
Danışman: PROF. DR. HÜSEYİN LEVENT AKIN
Yer Bilgisi: Boğaziçi Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
|
Onaylandı
Doktora
İngilizce
2006
151 s.
|
|
Gerşek dünya, bu ortamdaki etmenler tarafından gürültülü algılayıcılar ya dac u u u uueksik algı nedeniyle kısmi olarak güzlemlenebilir. Belirsizlik altında üzerk stratejio ogeliştirmenin karşısında iki büyük engel vardır. Verilen bir gürev işin sürekli du-s s uu o c urum uzayının üzerk olarak bülgelere ayrılmasıve bu bülgeler uzerinde amaca yüneliko o o ü oügkarmaşık davranışların ortaya şıkarılması. Bu tezde isimleri ARKAQ-Oğrenme, KAFAQ-s s cügOğrenme ve KBVI olan ve şeşitli tekniklerin bir araya getirilmesinden oluşan uş yenics s ücügyaklaşım ünerilmektedir. ARKAQ-Oğrenme yapısında Kalman ï¬ltreleme üzelliği ek-so o güg üglenmiş, ART2-A ağı ve Q-Oğrenme metodları kullanılmıştır. KAFAQ-Oğrenme, Kalmans g sügï¬ltreleme ve Q-Oğrenme yüntemlerini kullanan bir sonlu durum makinasıdır. KBVIoise Monte Carlo metodlari kullanmakta ve sürekli durum ortamlarında Q-değerlerininu ghesaplanması işin yeni bir teknik ortaya koymaktadır.cBütün yordamlar gerşek zamanlıdır ve güreceli olarak düşuk yer ve zaman karma-uu c o us üşıklıkları vardır. Yordamlar iyi bilinen Kısmen Güzlemlenebilir Markov Karar Süreşs o ucproblemleri uzerinde uygulanmıştır. Burada sürekli dağılımlar kullanıldığı işin değerü s u g gc gfonksiyonunun güsterimi daha zorlaştırılmıştır. Yordamlar Markov olmayan güzlemlerio s s oiş inanş durumları ile ilişkilendirerek saklı durumları ortaya şıkarabilmiş ve iş inanşc c s c s c cdurum uzayı uzerinde yaklaşık olarak en iyi bir davranış politikası oluşturabilmişlerdir.ü s s s s
|
|
A real world environment is often partially observable for agents either becauseof noisy sensors or incomplete perception. Autonomous strategy planning under uncer-tainty has two major challenges. The ï¬rst one is autonomous segmentation of the statespace for a given task, and the second, emerging complex behaviors, that deal with eachstate segment. This thesis proposes three new approaches, namely ARKAQ-Learning,KAFAQ-Learning and KBVI, that handle both challenges by utilizing combinations ofvarious techniques. ARKAQ makes use of ART2-A Networks augmented with KalmanFilters and Q-Learning. KAFAQ is a ï¬nite state automaton using Kalman ï¬lters andQ-Learning. KBVI uses Monte Carlo methods and introduces a new technique tocalculate Q-values for continuous domains.All are online algorithms with relatively low space and time complexity. Thealgorithms were run for some well-known Partially Observable Markov Decision Processproblems, where the problem of representing the value function is more diï¬cult thanthe discrete case because inputs are continuous distributions. The algorithms couldreveal the hidden states, mapping non-Markovian observations to internal belief states,and also could construct an approximate optimal policy on the internal belief statespace. |