Tez No İndirme Tez Künye Durumu
771745
Cognitively-inspired deep learning approaches for grounded language learning / Temellendirilmiş dil öğrenimi için bilişsel esinli derin öğrenme yaklaşımları
Yazar:OZAN ARKAN CAN
Danışman: PROF. DR. DENİZ YURET
Yer Bilgisi: Koç Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Dilbilim = Linguistics
Dizin:
Onaylandı
Doktora
İngilizce
2021
132 s.
Bizi çevreleyen dünyayı algılayabilen ve insan dilini kullanarak bizimle etkileşim kurabilen makineler tasarlamak, yapay zekanın köklü hedeflerinden biridir. Dilbilimsel anlamları hesaplamalı olarak modellemek için önemli ilerleme kaydedilmiş olsa da, dilsel ve algısal işlemenin çok modlu görevlerde en iyi nasıl birleştirileceği önemli bir problemdir. Bu tez, dilin biliş, görsel algı ve görev yürütmedeki rolünün farklı yönlerini göz önünde bulunduran, bilişsel esinli birkaç yapay sinir ağı mimarisini sunmaktadır. Önerilen modeller, bilişsel bilim çalışmalarından esinlenilmiş ve görü-dil problemlerindeki ortak örüntülere dayanan tasarım kararlarını içermektedir. İlk olarak, özgün kanal tabanlı bir ilgi mekanizmasına sahip bir kodlayıcı-çözücü mimarisi ve bu mimarinin gezinim komutlarını anlama problemine uygulanışı sunulmuştur. Bu mimarinin algı işleyen birimi, dil önceliklerini kullanarak uzamsal ilişkileri kaybetmeden ortamdaki nesne ve özelliklere odaklanacak şekilde tasarlanmıştır. Ayrıca, modelin algı üzerinde uzamsal olarak muhakeme gerçekleştirmesine olanak sağlayan gelişmiş bir dünya temsili geliştirilmiştir. Daha sonraki bölümde, ilk kez gerçek bir robotik sistemde Sinir Modül Ağları yaklaşımının nasıl kullanılabileceği gösterilmiştir. Büyük boyutta gerçek dünya verisini toplamak maliyetli olduğundan dolayı, sınırlı veri problemine takılmamak için sistem modülleri simüle edilmiş bir veri üzerinde öğrenirken dünya temsilini ayrı olarak öğrenmektedir. Fakat bu durum, kullanıcının dünya modeli ile robotun dünya modeli arasında uyumsuzluklara sebep olmaktadır. Bu problemin üstesinden gelmek için, kullanıcının gördüğü dünya modeli ile robotun algıladığı dünya modelini eşleştirebilmek için, komutlardaki örtük bilgileri kullanarak algı temsilini güncelleyen bir Bayesçi öğrenme yaklaşımı sunulmuştur. Her iki bölümde de, yüksek seviyeli algı temsilleri üzerinde çalışan ve dilin yüksek seviyeli görsel işleme üzerindeki etkisini kullanan sistemler gösterilmiştir. Buna ek olarak, son bölümde, dilin düşük seviyeli görsel işleme üzerindeki etkisi irdelenmiştir. Bu amaçla, hem yüksek seviyeli hem de düşük seviyeli görsel işleme dalları olan bir mimari temel alınmıştır. Bu mimarinin bir veya her iki dalının dil filtreleri ile koşullandırılmış versiyonları atıf ifadelerinden görüntü bölütleme problemine uygulanmıştır. Deneyler sonucunda hem düşük seviyeli hem de yüksek seviyeli görsel işleme süreçlerini dil ile modüle etmenin, dil temellendirme performansını önemli ölçüde geliştirdiği gösterilmiştir.
Designing machines that can perceive the surrounding world and interacting with us using human language is one of the long-standing goals of artificial intelligence. Although tremendous progress has been made to model the linguistic meanings computationally, how to best integrate linguistic and perceptual processing in multi-modal tasks is a significant open problem. This thesis explores several cognitively-inspired neural architectures that consider the different aspects of the language's role in cognition, visual perception, and task execution. Proposed models incorporate design choices motivated by cognitive science studies and are based on the common patterns in vision-language tasks. We begin by presenting an encoder-decoder network with a novel channel-based perceptual attention mechanism and its application to the navigational instruction following task. The perceptual processing component of this architecture is designed to focus on individual objects and properties within the environment using the language priors while preserving the spatial relations. To benefit from the designed component, we also propose an improved agent-centric world representation to allow the model to reason over the perception spatially. Next, we explore the usage of the Neural Module Networks approach in a real robotic system for the first time. Since collecting large-scale real world data is a labor-intensive and expensive work, the system learns the language grounding on simulated data and the perceptual representation separately to overcome the scarce data problem. However, because of the separate learning processes, inconsistencies arise between the user's and robot's world models. To overcome this, we propose a Bayesian learning approach that uses the implicit information in the instruction to update the perceptual belief to align what the user sees and what the robot perceives. In both parts, we demonstrate systems that use the high-level effect of language on visual processing, which operates on high-level representations. In addition to this, in the last part, we investigate the effect of language on low-level visual processing. To this end, we condition one or both low-level and high-level visual processing branches of a backbone architecture on language using language filters and apply these models to the image segmentation from referring expression task. Experiments show that modulating both low-level and high-level visual processing with language significantly improves the language grounding performance.