Tez No İndirme Tez Künye Durumu
238790
Development of an autonomous sailor: An application of hierarchical reinforcement learning to sailing / Yelken yapmayı öğrenen sanal etmenlerin pekiştirmeli öğrenme yöntemleri kullanılarak benzetim ortamındaki eğitimi
Yazar:HÜSEYİN ŞENCAN
Danışman: DOÇ. DR. BORAHAN TÜMER
Yer Bilgisi: Marmara Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Yüksek Lisans
İngilizce
2009
69 s.
Yelkencilik dünya üzerinde yüzbinlerce insanın ilgisini çeken popüler bir spor ve eğlence dalıdır. Bir yelkenli ile ortamda yeterli rüzgar olduğu sürece istenilen herhangi bir noktadan başka bir noktaya seyir yapmak mümkündür. Yelkenli tekneler, yelkenleri yardımıyla topladığı rüzgar enerjisini hareket enerjisine herhangi başka bir dış etmene ihtiyaç duymadan dönüştürerek uzun mesafeler katadebilirler. Yelkenlilerin kendilerine has fiziksel özellikleri, farklı disiplinlerden araştırmacıları yelkenli tekne hareket temellerini keşfetmeleri için bu alana yöneltmiştir. Son on yılda yelkenli tekne seyirleri bir bilgisayar mühendisliği alanı olan makine öğrenmesi ve yapay zeka altında incelenmeye ve özerk olarak hareket eden yelkenli dizayn etme çalışmaları başlanmıştır. Bizde bu çalışmamız ile öncelikle yelkenli tekne üzerine etki eden kuvvetleri ve teknenin bu kuvvetlere verdiği tepkileri modelleyerek bir benzetim ortamı gerçekleştirdik. Daha sonra modellenen benzetim ortamında tekne üzerindeki etmenlerin (dümenci ve yelken tirimcisi) makine öğrenmesi prensiplerini kullanarak, belirlenen bir rota üzerindeki en uygun seyir ve yelken ayarlarını yapmayı öğrenip öğrenemediklerini test ettik.Yaptığımız deneyler sonucunda doğru ve kesin sensör bilgileri ışığında yeterli bir öğrenme süresi tanındığında, yelken ve dümen kontrollerinin sanal etmenler tarafından pekiştirmeli öğrenme algoritmaları kullanılarak doğru bir biçimde öğrenilebildiğini gördük. Teoride, ulaşılmak istenen değerlere temel pekiştirmeli öğrenme algoritmaları ile erişmek mümkün gibi görünsede, büyük durum uzayı problem, kabul edilebilir öğrenme zamanları içerisinde çözüme ulaşmayı mümkün kılmamaktadır.Bu çalışmada büyük durum uzayı problemine çözüm olarak hiyerarşik öğrenme modelleri ve yarı Markov karar süreçleri yardımıyla ulaşılan geçici soyutlama metodları sunulmuştur. Gözlemlenen sonuçlarda hedeflenen stratejilere kabul edilebilir öğrenme süreleri zarfında ulaşılabilmiştir.
Sailing is a very popular transportation, sports and entertainment branch that has attracted millions of people for many years from all around the world. Sailing boats move by transforming energy of wind accumulated on the sail surfaces to a driving force for themselves. The unique nature of sailing that a sailboat does not need any external force to move on its course other than wind force, has diverted people who have different scientific background to investigate the underlying physical rules governing the motion of sailboats. In the last ten years sailing is studied as a control problem under the machine learning domain. In this thesis we present the general principles for a particular type of simulated sailboat that we created to use as a test bed for machine learning applications, and further, we share the results of our learning attempts to find optimum sail controls at different wind situations and to find an optimum path to travel in a triangular racing course using reinforcement learning. The experiments we did with our simulator showed that with accurate sensor information and after a certain amount of training period, effective sail and rudder controls can be taught to virtual agents using reinforcement learning. In theory, the optimum or near-optimum solutions can be reached using conventional reinforcement algorithms; while, in practice, because of the large state space problem alternative approaches are required to find an optimum or near-optimum solution in finite training episodes. In this study in order to overcome large state space problem a temporal abstraction method (Semi-Markov Decision Processes) that facilitates hierarchical learning methods is applied and near-optimum solutions are found in feasible training episodes.