Tez No İndirme Tez Künye Durumu
442358
A heuristic temporal difference approach with adaptive grid discretization / Adaptif ızgara ayrıklaştırması ile sezgisel zamansal fark yaklaşımı
Yazar:OZAN BORA FİKİR
Danışman: PROF. DR. FARUK POLAT
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Mühendislik Bilimleri Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Ayrımlı pekiştirme = Differential reinforcement ; Değer fonksiyonu = Value function ; Makine öğrenmesi yöntemleri = Machine learning methods ; Markov karar süreçleri = Markov decision processes
Onaylandı
Yüksek Lisans
İngilizce
2016
59 s.
Makine öğreniminin bir alt dalı olan pekiştirmeli öğrenme, otonom bir etmenin herhangi bir çevrede aksiyon alarak nihai bir hedefe ulaşmaya çalıştığı problemlere odaklanmaktadır. Bu problemlerde çevre bir Markov karar süreci olarak modellenmektedir. Ancak, gerçek hayat problemlerinde çevre, bu şekilde modellenebilecek kadar kusursuz değildir, bu durumda Markov karar sürecinin kabul ettiği tam gözlemlenebilirlik varsayımdan vazgeçmemiz gerekmektedir. Ortaya çıkan kısmi gözlemlenebilir Markov karar süreci modeli, daha gerçekçi olup daha zor bir problem alanı tanımlar. Bu problemlerin çözümünde karşımıza çıkan en önemli sorun otonom etmenin gözünde modelin hesaba dayalı denemelerinin sonuçsuz kalabilmesidir. Bu modelde, otonom etmen kanı adı verdiğimiz ve çevrenin gerçek durumları üzerine tanımlanmış bir olasılık dağılımı ile Markov özelliğini sağlar ancak bir olasılık uzayında çalışmak zorundadır. Bu tezde, kısmi gözlemlenebilir Markov karar süreç problemlerinde karşımıza çıkan ve bir sürekli olasılık olayı olan kanı uzayının iki farklı yöntemle iyi tanımlanmış ve düzenli bölgelere ayrıştırılarak kanı uzayı karmaşıklığının bu soyutlama yöntemi ile azaltılamasına çalışılmıştır. Sonrasında, bu soyutlamayı sezgisel bir kestirme yöntemi içinde kullanılarak iki farklı çevrim içi pekiştirmeli öğrenme yöntemi sunulmuştur.
Reinforcement learning (RL), as an area of machine learning, tackle with the problem defined in an environment where an autonomous agent ought to take actions to achieve an ultimate goal. In RL problems, the environment is typically formulated as a Markov decision process. However, in real life problems, the environment is not flawless to be formulated as an MDP, and we need to relax fully observability assumption of MDP. The resulting model is partially observable Markov decision process, which is a more realistic model but forms a difficult problem setting. In this model agent cannot directly access to true state of the environment, but to the observations which provides a partial information about the true state of environment. There are two common ways to solve POMDP problems; first one is to neglect the true state of the environment and directly rely on the observations. The second one is to define a belief state which is probability distribution over the actual states. However, since the belief state definition is based on probability distribution, the agent has to handle with continuous space unlike MDP case, which may become intractable easily in autonomous agent perspective. In this thesis, we focus on belief space solutions and attempt to reduce the complexity of belief space by partitioning continuous belief space into well-defined and regular regions with two different types of grid discretization as an abstraction over belief space. Then we define an approximate value function which can be used in an online temporal difference learning.