Ulusal Tez Merkezi

Tez No	İndirme	Tez Künye	Durumu
418997		Neurocomputational models for action selection and their implementation on robots / Hareket seçimine ilişkin beyin esinlenmeli hesaplamalı modeller ve robotlar üstünde gerçekleme Yazar:EMEÇ ERÇELİK Danışman: PROF. DR. NESLİHAN SERAP ŞENGÖR Yer Bilgisi: İstanbul Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı / Elektronik Mühendisliği Bilim Dalı Konu:Elektrik ve Elektronik Mühendisliği = Electrical and Electronics Engineering Dizin:	Onaylandı Yüksek Lisans İngilizce 2015 89 s.

Bu tezin bir amacı, merkezi sinir sistemindeki süreçlerden yararlanılarak oluşturulmuş hesaplamalı modeller ile fonksiyonel açıdan beyni incelemek ve bilişsel süreçler ile davranışsal süreçleri açıklamada bu hesaplamalı modellerin faydalı olabileceğini göstermektir. Diğer bir amacı ise bu hesaplamalı modellerin robotlar üzerinde gerçeklenerek somutlaştırılabileceğini ve karmaşık, bilişsel süreçlere ilişkin görevleri gerçeklemede kullanılabilineceğini göstermektir. Ele aldığımız hesaplamalı modellerin bir donanım üzerinde de işlevsel olabileceğini ve donanım aracılığı ile çevresel uyaranların algılanıp, hesaplamalı model aracılığı ile değerlendirilebileceğini göstermek amacıyla ilk olarak Bioloid robotu kullanılmıştır. Bioloid, kullanılan hesaplamalı modellerin, hareket özelliği olan bir donanım ile birlikte kullanılmasını sağlayan bir ortam olsa bile, karmaşık modelleri çalıştırmak için işlemci gücü açısından yetersiz kalmıştır. Ayrıca bu robot üzerinde kullanılan sensörler, daha karmaşık görevlerin gerçekleştirilebilmesi için gerekli veriyi bilişsel modellere iletmekte yetersiz kalacağından, daha sonraki çalışmalar için Darwin-OP insansı robotu tercih edilmiştir. Darwin-OP insansı robot, üzerinde taşıdığı mini-bilgisayar ile hareketli bir bilgisayar özelliği taşımaktadır. Ubuntu işletim sistemi aracılığı ile de daha farklı modellerin çalıştırılmasına imkan sağlamakta, ayrıca gömülü bulunan kamerasıyla çevreyi algılamayı da başarabilmektedir. Tez çalışmasında ele alınan bilişsel süreçlere ilişkin hesaplamalı modeller, sinirbilim konusunda yapılan çalışmalar ile belirlenen beyindeki ilgili yapıların özellikleri ve bağlantıları gözönüne alınarak geliştirilmiştir. Bu hesaplamalı modellerin etkinliğini, özellikle ortam ile etkileşimini test etmek için robotlar üzerinde "ödül öngörülü uyaran" görevi kullanılmıştır. Bu görevde robotlar, öncelikle ortamdaki uyaranları, onaylanan bir hareket ile eşleştirmeyi, yine ortamdan alacakları ödül ile öğrenebilmiştir. Sonrasında, hesaplamalı modeldeki kimi bağlantıları ödül öngörüsü ile pekiştirip, bastırılarak eşleştirmeyi öğrendikleri, bu uyaran-hareket çiftine ait gösterimi, değiştirebildikleri de gösterilmiştir. Böylece, aynı uyaranı farklı bir hareket ile eşleştirmeyi, yine ödüle bağlı olarak tekrardan öğrenebileceği gösterilmiştir. Bu uyaran- hareket eşleştirme görevi sırasında kullanılan uyaranlar renk kartlarıdır. Kırmızı, sarı ve mavi renk kartları robotun hareket uzayında tanımlı olarak bulunan üç hareketle eşleştirilmiştir. Kullanılan robotların özellikleri ve gerekli yazılımsal donanımlar ile ele alınan görev Bölüm 2'de tanıtılmıştır. Tanımlanan ödül öngörülü uyaran görevinde robot, kamerasını kullanarak algıladığı renk uyaranına karşılık bir hareket seçmektedir, bu harekete karşılık bir ödül alırsa, sonrasında bu renk uyaranını gördüğünde istenilen hareketi seçmeyi pekiştirmektedir. Görevde tanımlanan hareket seçme işlemi temelde beynin bazal ganglia, talamus ve korteks (BTK) bölümlerinin etkinliği ile ilişkilendirilmektedir. Bütüncül olarak baktığımızda beyindeki birçok devre hareket seçimine etki ederken, temelde bu üç bölümün ele alınması, bilişsel süreçlere ait modellerin kullanışlılığını ve gerçek süreçlere ait verilerin elde edilmesinde yararlı olabileceğini göstermek açısından yeterlidir. Bundan dolayı, beynin BTK parçaları ele alınan görevi gerçeklemek için farklı seviyelerde modellenmiştir. öncelikle BTK devresi olarak doğrusal olmayan dinamik sistemler bakış açısıyla, bir grup sinir hücresinin etkinliğini modellemede yararlanılan yığın modeli yaklaşımı ile modellenmiştir. Bu model, beynin bölümlerinin birbiriyle ilişkisini tanımlayan fark denklemlerinin çözülmesiyle hareket seçimini gerçekleştirmektedir. BTK yığın modelinin biyolojik gerçekçiliği olmasına rağmen, nöron seviyesinde bir modelin sağlayacağı biyolojik öğrenme kurallarının etkisini inceleme şansını sağlamaz. Yığın modeli, beyin yapılarının davranışlarını bir nöron popülasyonunun davranışlarının ortalaması olacak şekilde fark denklemlerine indirger. Bu tez çalışmasında nöron seviyesindeki modelleme de ele alınmış ve BTK yapısı modellenirken korteks yapısı nokta nöronlar ile modellenmiştir. Tüm modeli daha gerçekçi olan nokta nöron modelleri ile gerçeklemek istememize rağmen, sadece korteksin nokta nöronlar ile gerçeklenmesi, bu tezin kapsamında nokta nöron modelinin robotlar üzerinde somutlaştırılabileceğini göstermek açısından yeterlidir. Hesaplamalı modeli, oluştururken ele alınan bu farklı yaklaşımların yanı sıra öğrenme süreci için de yapılara bağlı olarak farklı yaklaşımlar ele alınmıştır. Robotun öğrenmesini sağlamak için biyolojik gerçekçiliğe sahip hareket seçme devresinin kullanılması yanında yine biyolojik olarak anlama sahip bir pekiştirmeli öğrenme yöntemi olan zamansal farklarla öğrenme yöntemi kullanılmıştır. Bu yöntem ile hareket seçimi ve hareket seçiminin ardından ortamdan gelen ödül kullanılarak hareket seçimine ait modelin parametreleri makine öğrenmesi yaklaşımı ile güncellenmektedir. Böylelikle uyarana karşı seçilen hareket de değiştirilmiş olur. Biyolojik olarak anlama sahip olmasına karşın kullanılan yöntemin makine öğrenmesi metodu olmasından dolayı bu yöntemi nokta nöron modeli ile elde edilen devrelere uygulamak zordur. O yüzden vuru zamanına bağlı plastisite (STDP) yöntemi nokta nöron modelleri ile kullanılmak üzere gözönüne alınmıştır. Bu yöntem de zamansal farklarla öğrenme yöntemi gibi ödülü kullanmakta, ancak nokta nöronlarla modellenmiş yapılar arasındaki bağlantıları ödüle ve nöronların vuru zamanlarına bağlı olarak değiştirmektedir. Yığın modelleri üzerindeki öğrenmeden farklı olarak bu modelde hücre seviyesinde öğrenme de ele alınmaktadır. Dolayısya, yığın modeli ile sadece zamansal fark metoduna dayalı pekiştirmeli öğrenme kullanılırken, korteksin nokta hücre modeli ile gerçekleştirldiği durumda, STDP ile zamansal fark metodları öğrenme için kullanılmıştır. Tezde, ilk olarak bazal ganglia, talamus ve korteksten oluşan yığın modelindeki parametreler zamansal fark öğrenme yöntemi kullanılarak güncellenmiş ve ödül öngörülü uyaran görevi gerçekleştirilmiştir. Yığın modeli içinde yer alan parametreler, çevreden gelen uyarana karşılık modelin seçeceği hareketin belirlenmesinde etkindir. Ele alınan modelde öğrenme için güncellenen parametreler, Wc ve Wr, sırasıyla çevreye ilişkin oluşan algıyı ve modeldeki dopamin seviyesini ifade eder. Ele alınan beyin yapıları arasındaki bağlantıları etkiliyen parametrelerin (Wc ve Wr) ve gelen uyaranın ne kadar kuvvetli aktarıldığının, öğrenme üzerindeki etkisi incelenmiştir. Böylelikle tezdeki amaçlardan biri olan hesaplamalı modeller aracılığı ile ele alınan bilişsel süreçte rol alan nöral yapıların etkinliğinin incelenmesine ilişkin sonuçlar elde edilmiştir. Yığın modeli ile elde edilen sonuçlar Bölüm 3'de verilmiştir. Yukarıda da değinildiği gibi, özellikle ödül öngörülü öğrenme için makine öğrenmesine ilişkin bir yapı olan zamansal fark yöntemi yerine biyolojik olarak daha gerçekçi bir öğrenme kuralı ile ele alınan bilişsel süreci modellemek amacıyla, gerçeğe uygunluğu daha fazla olan nokta nöron modelleri ele alınmıştır. Nokta nöron modelleri her ne kadar kablo denklemleri ile ifade edilen ve sinir hücrelerinin morfolojik özelliklerini de içeren modellere göre basit olsa da temel yapı olarak sinir hücresinin özelliklerini barındırması ve hesaplama yükünün daha karmaşık modellere göre oldukça az olmasından dolayı gerçekçilik-performans ölçütünde önemli bir avantaja sahiptir. Bundan dolayı ele alınan hareket kararına ilişkin hesaplamalı modeli daha gerçekçi bir yapıya taşımak için nokta nöron modeli kullanılmış ve BTK yığın modelinde bulunan korteks nokta nöron modeli ile değiştirilmiştir. Böylelikle iki modlu bir hesaplamalı model ile hareket seçimi görevi gerçekleştirilmiştir. Bunu sağlamak için iki farklı boyuttaki modelin çalışma aralıkları birbirine uygun hale getirilmiştir. Korteksteki belirli zaman aralığında eşik değerini geçerek, vuru üreten nöronların sayısının ortalaması alınıp $0-1$ arasında bir değere ölçeklenerek yığın modeli denklemlerine bir terim olarak eklenmiştir. Aynı şekilde yığın modelindeki değişkenlerin değerleri ölçeklenerek nöron girişlerine akım olarak eklenmiştir. Böylelikle iki modelin eş zamanlı çalışması sağlanmıştır. Yığın modeli ile nokta nöron modellerinin birlikte Darwin-OP insansı robot üzerinde gerçeklenmesi sırasında NEST nöral simülasyon kütüphanesi kullanılmıştır. Darwin-OP'un motor komutlarının bulunduğu ve C++ ile kodlanmış kısım ile Python ortamı üzerinde çalışan NEST kütüphanesinin birlikte çalışması sağlanmıştır. Böylelikle gerçekçi bir hesaplamalı modele ait gerçek zamanlı çalışma, Darwin-OP üzerinde test edilmiştir. Bu sonuçlar Bölüm 4'de verilmiştir. Biyolojik gerçekçilik için ilk adım olarak BTK modelinde kortekse ilişkin model, yığın modeli yerine nokta hücre modeli ile değiştirilse de öğrenme için zamansal fark yöntemi yerine, vuru üreten sinir ağları için kullanılan STDP öğrenme yöntemi Bölüm 5'de ele alınmıştır. STDP, birbirine sinapslarla bağlı iki nöronun vuru üretme sürelerine bakarak aralarındaki sinapsları ödülü de kullanarak kuvvetlendiren ya da zayıflatan bir öğrenme yöntemidir. Bu yöntem de NEST kütüphanesi kullanılarak vuru üreten sinir ağları modeli ile oluşturulmuş korteks ile birleştirilmiştir. Böylelikle ödül öngörülü uyaran görevi basit ama gerçekçi modellere sahip olarak gerçeklenmiştir. Basit bir modelin hareket seçimi için kullanılmasının sebebi, zamansal faktörlerin önemli olduğu STDP'nin hareket seçim devresi ile birlikte kullanılabileceğinin gösterilmesi ve özelliklerinin araştırılmasının işlem yükü ve zaman açısından daha avantajlı olmasındandır. Bu çalışmalar sonucunda, hesaplamalı modeller farklı seviyelerde gerçeklenerek hem bu modellerin gerçek sonuçlar ile ilişkisi gözlenmiş, hem de bu modellerin gerçek zamanlı görevler için robot üzerinde gerçeklenmesi sağlanmış oldu. Yığın modeli ile yapılan çalışma sonucunda, modele verilen uyaranların sırasının modelin öğrenme başarısında ve süresinde etkili olduğu belirlendi. Bununla birlikte, uyaranın alt birimlere aktarılma kuvveti de öğrenmenin gerçekleşmesi için önemli bir yere sahip olduğu gözlemlendi. Alt birimlere uyaran bilgisinin çok fazla aktarılması, istenilen hareketlerin seçilmesini engellerken, bu aktarımın az olması da öğrenmenin hiç sağlanamamasına sebep olmaktadır. Ayrıca, dopamin seviyesini belirten parametre değerinin çok yüksek olması modelin aynı anda birden fazla seçim yapmasına sebep olmaktadır. Yine talamus aktivitesinin fazla olması aynı anda birden fazla seçimin yapılmasına sebep olduğundan öğrenme gerçekleşmemektedir. Bu gibi sonuçların yığın modeli üzerinden elde edilmesi, hesaplamalı modellerden anlamlı bilgiler çıkarılabileceğini göstermektedir. Yığın modeli ile davranışsal açıklamalar yapmak daha mümkün olmasına karşın, vuru üreten sinir ağları ile elde edilmiş modellerin de detaylı bir şekilde incelenmesinin, beynin çalışmasına ait bu gibi sonuçların hızlı bir şekilde elde edilebilmesine olanak sağlayabileceği gösterilmiştir. Böylelikle özellikle hayvan modelleri ile yapılan deneysel çalışmalarla çok deneme yapmak yerine, bu çalışmalara hızlı bir şekilde yön verecek sonuçların hesaplamalı modeller ile elde edilebileceğine ilişkin bir sonuç bu çalışma ile verilmiştir. Bu sonuçların yanında vuru üreten sinir ağları modeli ve STDP öğrenme yöntemleri de insansı robot, Darwin-OP, üzerinde gerçeklenmiştir. Darwin-OP üzerinde ödül öngörülü uyaran görevinin gerçeklenmesi de daha karmaşık görevlerin de gerçeklenerek beynin çalışmasına ait sonuçlar elde edilebileceğini göstermektedir İlerleyen çalışmalarda, tezde kullanılan hareket seçimine ait hesaplamalı modellere, serebellum ve hipokampüs gibi motor kontrol, navigasyon ve algı ile ilgili beyin bölümleri eklenerek daha karmaşık görevler tasarlanabilir. Beynin bu bölümleri için gerekli olan yeni bilgiler için ise, kullanılan robota farklı sensörler eklenerek ortamdan gerekli farklı bilgi sağlanabilir. Böylelikle robotun çakıllı, kumlu, kaygan vb. ortamlarda da hareketi ve bilişsel görevleri gerçeklemesi sağlanabilir.

Computational models of neural circuits enhances our comprehension of brain functions. In addition to the simulation of the models which helps to anticipate the cognitive processes, embodiment of these models is essential. Such embodiment would provide necessary setting to explain neural functioning ongoing in real environmens under oncoming sensory information. Also, these studies boost the work on intelligent systems by providing new approaches and techniques for the implementation of intelligent methods. Even though studies pursued in neuroscience can be considered as being in inception period, the embodiment of models done since now, reached the pre-results faster than the animal experiments. So, computational neuroscience is promising to lead further understanding of cognitive processes and design of related experiments. In this thesis, the main aim is to show the embodiment of computational models is possible for different scales of computational models that are biologically meaningful. Still another aim is also show that the implemented models are meaningful to get inference about the behavioural processes of brain circuits. For the embodiment part of the thesis, the Darwin-OP humanoid robot platform is utilized mainly, while the Bioloid robot environment is also considered to get some of the results. To realize the aims mentioned above, a temporal sequence task related to action selection is utilized. In this task, we investigated the associations between the sensory stimuli and desired actions, and also the mechanism by which reassociations result in development of new associations over the built up ones. Since the action selection is basically linked to the basal ganglia, thalamus and cortex (BTC) circuit in the brain, the BTC structures of brain are modeled in different scales to realize the considered task. The proposed models are the mass model approach of nonlinear dynamical system modeling and point neuron based models. In order to ensure the second aim, the mass model approach is deeply investigated to obtain some of the biological results with this model. Afterwards, the cortex part of the model is redesigned using point neurons to realize a more realistically plausible model. In addition to realization of BTC circuit, learning process is considered to make associations in order to select the right action in long term encountering. So, the temporal difference learning (TDL) is utilized to ensure the biological plausibility. Thus, reinforcement learning method is utilized for the learning part of the mass model. Although, TDL ensures the biological plausibility, it is a rule based model anyway. So, though it is possible to merge TDL with point neuron based models, spike timing dependent plasticity (STDP), which is more convenient from the biological aspect, is utilized for the learning part of the point neuron based action selection model. The investigation of the mass model shows that it is possible to obtain meaningful results from the biological aspect using the computational models. Another result of this thesis is that it is possible to implement different scales of computational models for cognitive processes into robots and run in real time applications. So, the results show that, using these computational models to realize complex tasks in future will infer further results. As a result, this thesis is a step to reach evaluating such cognitive models for the complex tasks in real environment and also, that it is possible in near future.