Tez No İndirme Tez Künye Durumu
355335
Abstraction in reinforcement learning in partially observable environments / Kısmi gözlemlenebilir ortamlar için pekiştirmeli öğrenmede soyutlama
Yazar:ERKİN ÇİLDEN
Danışman: PROF. DR. FARUK POLAT
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Bölümü
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2014
98 s.
Pekiştirmeli öğrenme, özerk etmen bakış açısıyla, makine öğrenme yöntemleri arasında önde gelen bir yönlendirmesiz yöntem ailesi tanımlar. Markov karar süreci modeli, pekiştirmeli öğrenme algoritmaları için sağlam bir biçimsel temel oluşturur. Pekiştirmeli öğrenme yöntemlerinin üstüne zamansal soyutlama mekanizmaları inşa edilerek başarımlarında kayda değer artış elde edilebilmektedir. Eğer Markov karar süreci modelinin tam gözlemlenebilirlik varsayımı esnetilirse, ortaya çıkan kısmi gözlemlenebilir Markov karar süreci modeli, daha gerçekçi, ancak zor bir problem alanı tanımlar. Kısmi gözlemlenebilirlik altında pekiştirmeli öğrenme araştırmaları, algısal aynılık ve çok büyük durum uzayı sorunlarının yol açtığı olumsuz etkileri azaltacak tekniklere odaklanmıştır. Genel olarak, bu çalışmalar iki kategoriye ayrılabilir. Model tabanlı yaklaşımlar durum geçiş modelinin etmen tarafından erişilebilir olduğu varsayımına dayanır. Modelden bağımsız yaklaşımlarda ise durum bilgileri etmenden tamamen saklıdır. Bu tezde, bilinen bir sıralama tabanlı otomatik zamansal soyutlama tekniğini (genişletilmiş dizi ağacı metodu) kısmi gözlemlenebilir problemler için genelleştiren yöntemler önerilmektedir. Probleme hem model tabanlı, hem de modelden bağımsız bakış açısıyla yaklaşılmış, önerilen yöntemlerin her iki bakış açısının önde gelen temsilcilerinde hızlanma sağladığı gösterilmiştir. Yöntemlerin etkinliği, yaygın kabul gören problemler üzerinde deneylerle gösterilmiştir. Anahtar Kelimeler: Pekiştirmeli Öğrenme, Kısmi Gözlemlenebilir Markov Karar Süreci, Zamansal Soyutlama, Genişletilmiş Dizi Ağacı
Reinforcement learning defines a prominent family of unsupervised machine learning methods in autonomous agents perspective. Markov decision process model provides a solid formal basis for reinforcement learning algorithms. Temporal abstraction mechanisms can be built on reinforcement learning and significant performance gain can be achieved. If the full observability assumption of Markov decision process model is relaxed, the resulting model is partially observable Markov decision process, which constitutes a more realistic but difficult problem setting. Reinforcement learning research for partial observability focuses on techniques to reduce negative impact of perceptual aliasing and huge state-space. In the broadest sense, these studies can be divided into two categories. Model based approaches assume that the state transition model is available to the agent. In the model free approaches, states are completely hidden from the agent. In this thesis, we propose methods to generalize a known sequence based automatic temporal abstraction technique -namely, extended sequence tree method- to partial observability. We attack the problem in both model based and model free approaches, showing that our methods accelerate well known representatives of each perspective. Effectiveness of our methods are demonstrated by conducting experimentation on widely accepted benchmark problems. Keywords: Reinforcement Learning, Partially Observable Markov Decision Process, Temporal Abstraction, Extended Sequence Tree