Tez No İndirme Tez Künye Durumu
729328
Overcoming hard exploration problem in Markov decision process using inverse reinforcement learning and human demonstrations / Markov karar sürecinde zor keşif probleminin ters pekiştirmeli öğrenme ve insan gösterimleri kullanılarak aşılması
Yazar:WADHAH ZEYAD TAREQ TAREQ
Danışman: DOÇ. DR. MEHMET FATİH AMASYALI
Yer Bilgisi: Yıldız Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Markov süreci = Markov process ; Pekiştirme = Intensification ; Öğrenme teknikleri = Learning techniques
Onaylandı
Doktora
İngilizce
2022
79 s.
Bu çalışmada, Derin Pekiştirmeli Öğrenme (Deep Reinforcement Learning, DRL) algoritmalarının zorlu keşif ortamlarında dışsal bir ödül sistemi kullanılarak performanslarının iyileştirilmesi önerilmiştir. Bunun için öncelikle insan gösterimleri dışsal bir ödül olarak kullanılmıştır. Algoritmanın insan performansını taklit etmesi ve dışsal ödüllerden yararlanması için insan gösterimlerini içeren bir eğitim aşamasını (Ön eğitim aşaması) tamamlaması gerekmektedir. Bunun ardından, algoritmanın daha iyi performans elde etmesi için ek bir eğitim aşamasında da (Etkileşim aşaması) Ters Pekiştirmeli Öğrenme (Inverse Reinforcement Learning, IRL) ilkeleri kullanılarak bir ödül fonksiyonu kurulmuştur. Bu tez, Ön eğitim aşaması için, dışsal ödüller kullanarak basit ve etkili bir Derin Pekiştirmeli Öğrenme algoritması eğitmeyi önermektedir. İnsan gösterimleri içeren eğitim kümesini oluştururken insan tarafından yapılan eylemler doğru diğer tüm olası eylemler yanlış olarak etiketlenmiştir. Bu veri kümesini eğitmek için Öncelikli Çift Derin Q-Ağları (Prioritized Double Deep Q-Networks, PDDQN) algoritması seçilmiştir. Eğitilen bu modelin zorlu keşif ortamlarında doğru eylemi tahmin etmesi mümkün hale gelmiştir. Buna ek olarak, algoritmanın performansını artırmak için önemli görülen örneklerin seçilme oranı optimize edilmiştir. Sonuç olarak, PDDQN algoritması zorlu keşif ortamlarında tüm temel algoritmalardan daha iyi performans göstermiştir. Bu tez, Etkileşim aşaması için, Ters Pekiştirmeli Öğrenme ilkelerini kullanan bir ödül fonksiyonu önermektedir. İnsan gösterimlerindeki dışsal ödüllerle ortam ödülleri arasındaki farkın etkileşim aşamasında algoritmanın verimliliğinde bir azalmaya yol açtığı belirlenmiştir. Bu sorunu çözmek için son yıllarda geliştirilen yaygın tekniklerden biri olan Ters Pekiştirmeli Öğrenme ile ödüller kullanarak insan/uzman davranışlarını tahmin eden bir ödül fonksiyonu oluşturulmuştur. Ödül fonksiyonu birinci aşama insan gösterimlerinden çıkarılan veriler kümesiyle eğitilmekte ve daha sonra tahmin ettiği ödüller gerçek ortam ödülleriyle birlikte kullanılabilmektedir. Bu özelliği sayesinde yapılan deneylerde, daha iyi performans sağladığı görülmüştür.
In this study, performance enhancement of Deep Reinforcement Learning (DRL) algorithms on hard exploration environments have been proposed by using external reward systems. For this, first, human demonstrations were used as an external reward. A complete training phase (Pre-training phase) includes the human demonstration is performed to imitate the human performance and get the advantage of embedded rewards. After that, an independent Reward Function using Inverse Reinforcement Learning (IRL) principles is established to gain better performance on an additional training phase (Interacting phase). This thesis proposes to train a notable and simple Deep Reinforcement Learning algorithm using external rewards in the Pre-training phase. During building the human demonstrations dataset, the actions made by the human are tagged as correct, and all other possible actions are tagged as wrong. Prioritized Double Deep Q-Networks (PDDQN) algorithm was chosen to train on this dataset. It has become possible for this trained model to predict correct action in hard exploration environments. In addition, the important samples selection ratio has been optimized to improve the performance of the algorithm. As a result, the PDDQN algorithm outperformed all baseline algorithms in hard exploration environments. This thesis proposes a reward function for the Interacting phase using the principles of Inverse Reinforcement Learning. It has been determined that the difference between the environmental rewards and external rewards in human demonstrations leads to a decrease in the efficiency of the algorithm in the interaction phase. In order to solve this problem, an Inverse Reinforcement Learning reward function, which is one of the common techniques developed in recent years, has been created to predict human/expert behaviors by using rewards. The reward function is trained with a set of data extracted from phase one human demonstrations, and then the rewards it predicts can be used in conjunction with environment rewards. With this feature, better performance has been seen in the experiments.