Tez No İndirme Tez Künye Durumu
199362
Abstraction in reinforcement learning / Pekiştirmeli öğrenmede soyutlama
Yazar:SERTAN GİRGİN
Danışman: PROF. DR. FARUK POLAT
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2007
127 s.
Pekiştirmeli üğrenme dinamik bir ortam ile deneme-yanılma etkileşimleri aracılığylas og s gdavranış üğrenmeye calışan bir etmenin karşılaştığı problemdir. Genellikle, cüzülmesis og şs s sg şo ugereken problem durum uzayının farklı bülgelerinde tekrar eden altgürevler barındırır.o oHerhangi bir yünlendirme olmadan etmen tüm bu tekrarlamaları birbirinden bağımsızo u golarak üğrenmek zorundadır ve bu durum da üğrenme performansının düşmesine yolog og usaşmaktadır.cBu tezde, arama uzayının farklı bülgeleri arasında bağlantı kurarak edinilen deney-o gimin daha verimli kullanımını ve üğrenmenin hızlanmasını sağlayan iki yaklaşım üne-og g sorilmektedir. Birinci yaklaşımda, McGovern'in mevcut calışması geliştirilerek dahas şs syüksek temsil gücüne sahip stokastik koşullu sonlanan diziler tanımlanmıştır. Dahau uu s ssonra, bu dizilere dayalı olarak üğrenme esnasında yararlı soyutlamaların nasıl keşfedi-og slebileceği ve kullanılabileceği anlatılmıştır. Yüntem sıkşa kullanılan hareket dizilerinig g s o cziyaret edilen durumlar ile birlikte takip edebilmek işin bir ağaş yapısı kurmaktadır.c gcBu ağaş ile her adımda seşilecek hareketlere karar verilmektedir.gc c˙Ikinci yaklaşımda, benzer alt-davranış bişimlerine sahip durumları belirlemek işins sc couüzgün bir yüntem ünerilmiş ve mevcut algoritmalar ile nasıl entegre edilebileceğio o s ggüsterilmiştir. Yüntem güzlemlenen durumlardan başlayan ortak hareket dizilerinio s o o sbulmak işin verimli bir veriyapısı kullanmakta ve bu dizilerin sayısına bağlı olarakc gdurumlar arasında bir benzerlik fonksiyonu tanımlanmaktadır. Bu fonksiyon ile birvidurumun hareket-değer fonksiyonu uzerindeki güncellemeler tüm benzer durumlarag ü u uyansıtılmakta ve dolayısıyla üğrenme esnasında edinilen deneyimin daha geniş birog salana uygulanmasına olanak sağlamaktadır.g˙Iki yaklaşımın da başarısı ceşitli problemler uzerinde kapsamlı deneyler ile güsteril-s s şs ü omiştir.sügAnahtar Kelimeler: Pekiştirmeli Oğrenme, Soyutlama, Benzerlik, Opsiyonlar, Koşullus sSonlanan Dizilervii
Reinforcement learning is the problem faced by an agent that must learn behaviorthrough trial-and-error interactions with a dynamic environment. Generally, the prob-lem to be solved contains subtasks that repeat at different regions of the state space.Without any guidance an agent has to learn the solutions of all subtask instancesindependently, which degrades the learning performance.In this thesis, we propose two approaches to build connections between differentregions of the search space leading to better utilization of gained experience andaccelerate learning is proposed. In the first approach, we first extend existing workof McGovern and propose the formalization of stochastic conditionally terminatingsequences with higher representational power. Then, we describe how to efficientlydiscover and employ useful abstractions during learning based on such sequences. Themethod constructs a tree structure to keep track of frequently used action sequencestogether with visited states. This tree is then used to select actions to be executed ateach step.In the second approach, we propose a novel method to identify states with sim-ilar sub-policies, and show how they can be integrated into reinforcement learningframework to improve the learning performance. The method uses an efficient datastructure to find common action sequences started from observed states and definesa similarity function between states based on the number of such sequences. Usingthis similarity function, updates on the action-value function of a state are reflectedivto all similar states. This, consequently, allows experience acquired during learningbe applied to a broader context.Effectiveness of both approaches is demonstrated empirically by conducting exten-sive experiments on various domains.Keywords: Reinforcement Learning, Abstraction, Similarity, Options, ConditionallyTerminating Sequencesv