Tez No İndirme Tez Künye Durumu
286356
Multi-resolution model plus correction paradigm for task and skill refinement on autonomous robots / Özerk robotlar üzerinde görev ve beceri iyileştirme için çoklu-çözünürlüklü model artı düzeltme paradigması
Yazar:ÇETİN MERİÇLİ
Danışman: PROF. DR. H. LEVENT AKIN ; PROF. DR. MANUELA VELOSO
Yer Bilgisi: Boğaziçi Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Mühendislik Bilimleri = Engineering Sciences
Dizin:Robotik = Robotics
Onaylandı
Doktora
İngilizce
2011
136 s.
Robotlar kendilerinden hangi görev ve becerileri icra etmeleri beklendiği ve bu görev ve becerileri nasıl gerçekleştirecekleri konusunda bilgilendirmeye ihtiyaç duyarlar.Bu bilgilendirmenin nasıl yapılacağı konusunda üzerinde anlaşılmış evrensel bir metod henüz bulunmamakla birliktepopüler olarak kullanılan metodlar arasında en yaygın olanı ilgili görev ya da beceriyi gerçekleştirebilecek bir algoritmanın geliştirilmesidir.Böyle bir algoritma geliştirmek, sistemin bir modelinin bulunmasını gerektirir.Dahası, basit durumlar için görevi yerine getirecek bir algoritma geliştirmek kolay olsa da, algoritmanın varsaydığı modeli daha karmaşık durumları da kapsayabilecek şekildegüncellemeye devam etmek giderek daha çok zaman alan bir sürece dönüşmektedir.Gösterimden öğrenme (GÖ), robotu programlamadan görev ve beceri bilgisini aktarmak için kullanılan bir yöntemdir.Bu yöntemde robotu programlamak yerine bir öğretmen görev ya da becerinin nasıl icra edileceğini robota gösterir ve robot bu gösterimleri sistemin o anki durumu ile birlikte kaydeder. Bu işlemi takiben gösterilen görev ya da beceriyi tekrarlayabilmek için kaydedilen veri üzerinden bir icra politikası oluşturulur.Söz konusu görev ya da becerinin karmaşıklığına bağlı olarak düzgün genelleştirilmiş bir icra politikası oluşturabilmek için gereken sayıda gösterimirobota sunmak çok zaman alıcı bir süreç olabilir.Bu tez, yeni bir tamamlayıcı düzeltici gösterim anlayışı olan Model Artı Düzeltme (M+D) paradigmasını bir görev ve beceri başarım iyileştirme yöntemi olarak sunmaktadır.M+D yöntemi model-tabanlı ve veri-güdümlü yaklaşımlar arasında bir denge kurarak bu yöntemleri birbirlerini tamamlayacak şekilde birleştirmektedir.Bu yöntemde, söz konusu görev ya da beceriyi sınırlı bir başarım ile gerçekleştirebilen bir algoritmanın var olduğunu varsayıyoruz. Yaklaşımımız, söz konusu görevi mevcut algoritma ile icra eden robotun eylemini algoritmanın yanlış bir karar alması halinde devreye girerekdüzeltecek bir insan öğretmen kullanmaktadır. Sistemin o anki durumu ile damgalanarak saklanan gösterim bilgisi daha sonra bir düzeltim kullanımı fonksiyonu ve sistemdurumuna gore varsayılan algoritmanın hesapladığı eylemin uygun bir şekilde değiştirilmesinde kullanılır.Bu tez ayrıca aynı tamamlayıcı düzeltici gösterim yaklaşımının birden fazla detay çözünürlüğünde kullanılabilmesi için de bir algoritma sunmaktadır.Çoklu-Çözünürlüklü Model Artı Düzeltme (ÇÇM+D) algoritması her biri ayrı detayda durum ve eylem tanımlarına ve değişik karmaşıklıkta varsayılan algoritmalara sahip bir dizidetay çözünürlüğü tanımlanmış olduğunu varsayar. Daha az detaylı bir durum ve eylem tanımı ve daha az karmaşık bir algoritmanın kullanılması, durum uzayının daha büyük bir kısmınındaha az hesaplama maliyeti ile kapsanmasını sağlar. Gosterim sırasında öğretmen robota o anki detay çözünürlüğünde düzeltici gösterim yapmasının yanında hangi durumda hangi detay çözünürlüğünün kullanılması gerektiği konusunda da gösterimde bulunur.Farklı karmaşıklık seviyelerine sahip birden çok detay çözünürlüğünün bulunması, sistemin daha detaylı durum ve eylem tanımları ve daha karmaşık algoritmaları ancak gerektiğinde kullanabilmesini sağlar.Öğrenilen detay seçim politikası ön tanımlı olarak en düşük detay çözünürlüğünü kullanmaya çalışır ve daha yüksek bir detay çözünürlüğüne ancak daha önce benzer bir durumda öğretmen tarafından detay çözünürlüğünü arttırma komutu verilmişse geçer.Sunduğumuz deney sonuçları M+D yönteminin önce beceri iyileştirmeye bir örnek olarak karmaşık bir iki ayaklı yürüme eyleminin dengesini iyileştirme problemine uygulanmasının,sonra da görev iyileştirmeye bir örnek olarak robot futbolu ortamında tanımlanmış bir top sürme problemine uygulanmasının sonuçlarını içeriyor.Bunlara ek olarak, ÇÇM+D yönteminin bir insansı robotun bir robot futbolu sahasında engel savuşturması problemine uygulanması ile ilgili deney sonuçları da sunuyoruz.Son olarak, önerilen algoritmaların ortamdaki belirsizlikten ne kadar etkilendikleri ve birden çok detay çözünürlüğü kullanmanın tek bir çözünürlük kullanmaya göre hesaplamasal maliyet karşılaştırmaları üzerine bir deneysel analizi insansı robot engel savuşturması probleminin benzetim ortamında modellenmiş bir halini kullanarak sunuyoruz.
Robots need to be taught what type of tasks or skills they are expected to perform, and how to perform those particular tasks or skills.However, there is no universally accepted single approach for transferring the task and skill knowledge to a robot.Among several popular approaches, the most widely adopted method for transferring the task or skill knowledge to the robot is to developan algorithm for performing the task or skill in question.Such development require a model of the system to be available.Moreover, despite that it usually is easier to develop a simple algorithm tohandle trivial cases, it becomes a time consumingprocess to keep refining the algorithm by modifying the underlying model to handle more complex situations.Learning from Demonstration (LfD) is another populer approach for transferring the task andskill knowledge to the robot.Instead of explicit programming, a teacher demonstrates the robot how to perform the task or skill andthe robot records the demonstrated action together with the perceived state of the system at the time of demonstration.An execution policy is then derived out of the recorded demonstration data for reproducing the task or skill.Depending on the complexity of the task or skill in question and the robotic platform to be used, providing sufficient number of examplesin order to be able to extract a generalized execution policy can be a very time consuming process.\newpageThis thesis contributes a novel complementary corrective demonstration para-digm called Model Plus Correction (M+C) for task and skill refinement on autonomous robots.The M+C approach strikes a balance between model-based and data-driven methods by combining them in a complementary manner.We assume the availability of an algorithm capable of performing the task or skill in question with limited success in termsof performance. Our approach utilizes a human teacher who observes the partially successful execution of the task, and corrects the action of the robot when the default algorithmis unable to select an appropriate action to be executed. The collected demonstration data stamped with the state of the system at the time of demonstration is then usedto augment the default algorithm by modifying the action computed by the algorithm according to a correction reuse function, and the state of the system.This thesis also introduces an algorithm for using the same complementary corrective demonstration approach at multiple detail resolutions.The Multi-Resolution Model Plus Correction (MRM+C) algorithm assumes that a set of detail levels are defined with different state and action representations together with a different model-based controller for each detail level are available at hand.The teacher provides demonstration for which detail resolution to use at a particular state of the system in addition to delivering corrective demonstration for the controller associated with the current detail resolution.Having multiple detail resolutions with different complexities allows the system to use more detailed state and action representations and more complex model-based controllers only when needed.Using a less detailed state and action representation with a simpler controller makes it possible to cover the solution space at a lower computational cost and using fewer number of demonstrations.The learned detail resolution selection policy favors the least detailed resolution by default and switches to a more detailed resolution if commanded to do soin a similar state before.We present experiment results where the M+C approach is first applied to a complex biped walk stability improvement problem as an example to the skill refinement,and to a ball dribbling problem in a robot soccer environment as an example to the task refinement. We also present experiment results where the MRM+C approach is appliedto a humanoid obstacle avoidance task on a robot soccer field. Finally, we present an experimental analysis of the proposed algorithms in termsof their robustness against uncertainty and the cost analysis of using multiple detail resolutions over using a single detail resolution in a simulated version of the obstacle avoidance task.