Tez No İndirme Tez Künye Durumu
752906
Deep reinforcement learning for partially observable markov decision processes / Kısmi gözlemlenebilir markov karar süreçleri için derin pekiştirmeli öğrenme
Yazar:MEHMET HAKLIDIR
Danışman: PROF. DR. HAKAN TEMELTAŞ
Yer Bilgisi: İstanbul Teknik Üniversitesi / Lisansüstü Eğitim Enstitüsü / Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı / Kontrol ve Otomasyon Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Derin öğrenme = Deep learning ; Karar verme = Decision making ; Öğrenme algoritmaları = Learning algorithms
Onaylandı
Doktora
İngilizce
2022
85 s.
Derin pekiştirmeli öğrenme, robotik ve oyunlardaki birçok başarılı gerçek dünya uygulaması sayesinde son zamanlarda popülerlik kazanmıştır. Geleneksel pekiştirmeli öğrenme, yüksek boyutlu ortamlar için etkili algoritmalar geliştirmede önemli bir zorlukla karşı karşıyadır. Derin öğrenmenin pekiştirmeli öğrenmede bir fonksiyon tahmincisi olarak kullanılması, bu zorluğun üstesinden gelmek için iyi bir yaklaşımdır. Derin pekiştirmeli öğrenmede, çevrenin genellikle tamamen gözlemlenebilir olduğu düşünülür ki, bu da etmenin çevrenin gerçek durumunu algılayabileceği ve dolayısıyla mevcut duruma uygun şekilde hareket edebileceği anlamına gelir. Gerçek dünya problemlerinin çoğu esasen kısmen gözlemlenebilir olup ve çevresel model bilinmemektedir. Bu nedenle, etmenin çevrenin durumunu kısmen ve gürültülü olarak algılaması nedeniyle bunları çözmek için pekiştirmeli öğrenme yaklaşımlarına önemli bir ihtiyaç vardır. Literatürde, çoğu derin pekiştirmeli öğrenme yaklaşımı Markov karar süreçlerine uygulanmıştır. Ancak kısmi gözlemlenebilir Markov karar süreçleri için derin pekiştirmeli öğrenme yeterince çalışılmamıştır. Rehberli pekiştirmeli öğrenme yöntemleri, öğrenme sürecinde pekiştirmeli öğrenme algoritmalarına ek durum bilgisi sağlayarak bu sorunu çözer ve kısmen gözlemlenebilir Markov karar sürecini (POMDP) daha etkin bir şekilde çözmelerine olanak tanır. Bununla birlikte, bu rehberli yaklaşımlar literatürde nispeten nadirdir ve mevcut yaklaşımların çoğu model tabanlıdır, yani öncelikle uygun bir çevre modelinin öğrenilmesini gerektirir. Rehberli politika arama yaklaşımları, önceki kısaltılmış gözlem-eylem çiftlerini mevcut durum-eylem temsillerine dahil ederek kısmi gözlemlenebilir problemleri çözmek için pekiştirmeli öğrenme ve gözetimli öğrenmeyi birleştirmek için ilham vericidir. Model tabanlı yaklaşımların, gerçek dünyada gereken etkileşim miktarını azaltmak için dinamik bir çevre modelini öğrenmesi gerekir. Ancak, bu karmaşık görevler için zorlayıcı olabilir ve kapsamlı hesaplama gerektirir. Öte yandan, modelsiz yaklaşımlar, bir politikayı doğrudan çevre ile etkileşimlerden öğrenir ve çevrenin tam bir temsiline ihtiyaç duymadıkları için çok daha fazla esnekliğe sahiptir. Modelsiz yaklaşımları kullanarak etkili sonuçlara ulaşmak için, görevin karmaşıklığına bağlı olarak çevre ile yeterli sayıda etkileşim sağlanmalıdır. Bu nedenle, çoğu geleneksel rehberli politika arama yönteminin aksine, bu çalışamada modelsiz bir yaklaşıma odaklanılmıştır. Bu tez çalışmasında, gerçek dünya sorunlarını çözmek için soft aktör-kritik yöntemini ve denetimli öğrenme kavramını birleştiren ve bunları POMDP'ler olarak formüle eden yeni bir modelsiz yaklaşım önerilmektedir. Yaklaşımımızda, soft aktör-kritik'in orijinal konseptinden farklı olarak, eğitim aşamasında, rehberli soft aktör-kritik mimarisi iki aktör ve bir eleştirmenden oluşur. Örnekleri oluşturmak için iki aktör aynı ortamla yinelemeli olarak etkileşime girer. Son kontrol aktörü, eylemleri kısmi gözlemlere dayalı olarak seçerken, rehberlik eden aktör eylemleri tam durum gözlemlerini algılayarak seçmektedir. Hem nihai kontrol hem de rehberlik politikaları hem beklenen ödülü hem de entropiyi en üst düzeye çıkarmak için eğitilmiştir. İlaveten, bir derin yapay sinir ağı, kontrol politikası aktörüne yol gösterici bir politika aktörü olarak hareket etmeyi öğretmek için eğitilmiştir. Yaklaşımımızda, çeşitli politikaların ürettiği örnekleri kullanmak için iki politikanın dağılımlarının benzer olması gerekmektedir. Bu nedenle, yöntemin performansını ve kararlılığını geliştirdiği ve aynı ilkeye yakınlaşmalarını garanti ettiği için ayarlanabilir entropi sıcaklığı α'yı kullanmak için ek bir güncelleme adımı eklenmiştir. Yaklaşımımızın performansını, değiştirilmiş, kısmen gözlemlenebilir MuJoCo görevlerini kullanarak değerlendirdik. Açık kaynaklı bir simülasyon platformu olan OpenAI Gym'de gerçekleştirilen deneylerde, rehberli soft aktör-kritik yaklaşımımız diğer temel algoritmalardan daha iyi performans göstermiş ve sürekli kontrol problemlerine dayalı olarak oluşturulan ve MuJoCo'da simüle edilen kısmen gözlemlenebilir beş görevde %7∼20 daha fazla maksimum ortalama getiri elde etmiştir. Önerilen rehberli Soft Aktör Kritik yaklaşımımız, klasik Soft Aktör Kritik için önerilen yeni mimarimiz ve etkileşim döngüsü sayesinde kısmen gözlemlenebilir sürekli kontrol deneylerinde karşılaştırma yöntemlerinden daha iyi performans göstermektedir. Bu tez çalışması kapsamında geliştirilen rehberli soft aktör-kritik yaklaşımımızın performansının gözlemlenebilmesi için, sürekli zamanlı robotik görevleri dışında, belirsizlik altında otonom sürüş problemine uygulanması için deneyler de gerçekleştirilmiştir. Belirsizlik altında otonom sürüş, gerçek dünyada durumların ve eylemlerin yüksek boyutlu uzayda olduğu zorlu bir problemdir. Bu görevleri için, otonom aracın herhangi bir statik engel veya diğer dinamik trafik kullanıcıları (araçlar ve yayalar) ile çarpışmadan hedefe ulaşması beklenmektedir. Yoldaki yayaların veya diğer araçların davranışları ve hava koşulları yüksek belirsizlik içermektedir. Yayaların davranışlarını tahmin etmek zordur ve diğer trafik unsurlarının davranışlarının belirsizliği de kazalara neden olabilir. Dinamik nesnelerin davranışı zamanla değişen ve tahmin edilemezken, otonom aracın kısmi gözlemlerle eylemlere karar vermesi gerekir ki, bu da problemin zorluk derecesini artırmaktadır. Bu nedenle, belirsizlik altında mevcut duruma en uygun kararların verilebilmesi için daha uzun bir geçmiş verisini değerlendirmek gereklidir. Aksi takdirde, araç "kör" alana girdiğinde yayaların bilgilerini tamamen kaybedebilir. Otonom araçların belirsizlik altında karar verme problemi, otonom araç tarafından gerçek zamanlı olarak çevrimiçi çözülecek, kısmen gözlemlenebilir Markov karar süreci (POMDP) olarak modellenebilir. Bu çalışmada, otonom aracın kısmen veya tamamen çevreyi gözlemleme yeteneğini kaybettiği durumlara odaklanılmıştır. Çalışmada, geliştirdiğimiz rehberli soft aktör-kritik yöntemimiz kullanılarak, belirsizlik altında karar verme odaklı otonom sürüş problemini kısmi gözlemlenebilir Markov karar süreci olarak çözmek için yeni bir yaklaşım önerilmektedir. Deneyler, MATLAB/SIMULINK üzerinde gerçekleştirilmiş ve otonom aracın ve yayanın başlangıç hızlarının, birbirlerine olan başlangıç mesafenin farklı olduğu, otonom aracın yoldan karşıya geçen bir yaya ile karşılaştığı senaryolar oluşturularak eğitim ve testler gerçekleştirilmiştir. Rehberli soft aktör kritik çözümünün, kısmi gözlemlenebilir durumlar karşısındaki performansını tam gözlemlenebilir durumlar ile karşılaştırılması için 1000 farklı koşum ile performans testler gerçekleştirilmiş ve sonuçları sunulmuştur. Test sonuçları, kontrol etmeninin istenen kontrol davranışını sergilediğini ve çeşitli belirsiz durumları altında tamamen gözlemlenebilir duruma yakın bir şekilde gerçekleştirildiğini göstermektedir.
Deep reinforcement learning has recently gained popularity owing to its many successful real-world applications in robotics and games. Conventional reinforcement learning faces a substantial challenge in developing effective algorithms for high-dimensional environments. The use of deep learning as a function approximator in reinforcement learning is a viable solution to overcome this challenge. Furthermore, in deep reinforcement learning, the environment is often thought to be fully observable, meaning that the agent can perceive the true state of the environment and so act appropriately in the current state. Most real-world problems are partially observable and the environmental models are unknown. Therefore, there is a significant need for reinforcement learning approaches to solve these problems, in which the agent perceives the state of the environment partially and noisily. Guided reinforcement learning methods solve this issue by providing additional state knowledge to reinforcement learning algorithms during the learning process, thereby allowing them to solve a partially observable Markov decision process (POMDP) more effectively. However, these guided approaches are relatively rare in the literature, and most existing approaches are model-based, which means that they require learning an appropriate model of the environment first. In this thesis, we present a novel model-free approach that combines the soft actor-critic method and supervised learning concept to solve real-world problems, formulating them as POMDPs. We evaluated our approach using modified partially observable MuJoCo tasks. In experiments performed on OpenAI Gym, an open-source simulation platform, our guided soft actor-critic approach outperformed other baseline algorithms, gaining 7∼20% more maximum average return on five partially observable tasks constructed based on continuous control problems and simulated in MuJoCo. To solve the autonomous driving problem, we focused on decision making under uncertainty, as a partially observable Markov decision process, using our guided soft actor-critic approach. A self-driving car was trained in a simulation environment, created using MATLAB/SIMULINK, for a scenario in which it encountered a pedestrian crossing the road. Experiments demonstrate that the agent exhibits desirable control behavior and performs close to the fully observable state under various uncertainty situations.