Tez No İndirme Tez Künye Durumu
603471
Improving reinforcement learning using distinctive clues of the environment / Çevreden gelen belirgin ipuçlarını kullanarak pekiştirmeli öğrenmeyi geliştirme
Yazar:ALPER DEMİR
Danışman: PROF. DR. FARUK POLAT ; DR. ERKİN ÇİLDEN
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2019
140 s.
Etkili ayrıştırma ve soyutlamanın Pekiştirmeli Öğrenme performansını arttırdığı birçok çalışmada gösterilmiştir. Bir etmen, çevrenin ipuçlarını ya sorunu alt sorunlara bölmek ya da verilen bir görevdeki ilerleyişi hakkında bilgilenmek için kullanabilir. Tamamen gözlenebilir bir ortamda bu tür ipuçları, alt hedeflerden gelebilirken, kısmen gözlenebilir bir ortamda ender gözlenen tecrübeler ile sağlanabilir. Bu tezde iki aşamalı bir katkı sunulmuştur; tamamen gözlemlenebilir ortamlarda otomatik alt hedef tanımlama ve seçenek oluşturma konusunda iyileştirmeler önerilirken, otomatik olarak bir yer işareti tanımlaması ve kısmen gözlenebilir ortamlardaki destek noktalarına dayanan bir yönlendirme mekanizması da tanıtılmıştır. Ayrıca, her iki model türü için de tez, birkaç ölçüt problemdeki temel öğrenme algoritmalarından daha iyi performans gösteren genel bir çerçeve önermektedir.
Effective decomposition and abstraction has been shown to improve the performance of Reinforcement Learning. An agent can use the clues from the environment to either partition the problem into sub-problems or get informed about its progress in a given task. In a fully observable environment such clues may come from subgoals while in a partially observable environment they may be provided by unique experiences. The contribution of this thesis is two fold; first improvements over automatic subgoal identification and option generation in fully observable environments is proposed, then an automatic landmark identification and an anchor based guiding mechanism in partially observable environments is introduced. Moreover, for both type of problems, the thesis proposes an overall framework that is shown to outperform baseline learning algorithms on several benchmark domains.