Ulusal Tez Merkezi

Tez No	İndirme	Tez Künye	Durumu
781611		Multimodal machine comprehension of how-to instructions with images and text / Görüntü ve metin içeren çok kipli nasıl yapılır talimatlarının makine ile kavranması Yazar:SEMİH Danışman: DOÇ. DR. MEHMET ERKUT ERDEM ; DOÇ. DR. İBRAHİM AYKUT ERDEM Yer Bilgisi: HACETTEPE ÜNİVERSİTESİ / FEN BİLİMLERİ ENSTİTÜSÜ / BİLGİSAYAR MÜHENDİSLİĞİ ANABİLİM DALI Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control Anahtar Kelime:Görüntü işleme = Image processing ; Kavram analizi = Concept analysis ; Makine öğrenmesi = Machine learning	Onaylandı Doktora İngilizce 2023 162 s.

Göz açıp kapayıncaya kadar, neye baktığımızı anlıyoruz. Beynimizin büyük bir kısmı, aldığımız görsel bilgileri işlemek için organize edilmiştir; bu nedenle, insan zekasını taklit etmek, görmenin tam olarak anlaşılmasını gerektirir. Ancak görmeyi anlamak, insan zekasını anlamak için yeterli midir? Muhtemelen değil. Dil, görsel algı becerimizin yanı sıra, insanlar için vazgeçilmez ve eşsiz bir yetenek ve doğal bir iletişim biçimidir. İnsanoğlu binlerce yıldır konuşma diliyle hikayeler anlatmakta ve talimatlar vermektedir. Dilin en eski yazılı biçimlerinden biri talimatlar olup özellikle yemek tarifleri talimatların arasında ön plana çıkmaktadır. Bu talimatlar bizlere sadece o zamanın insanlarının ne yediğini anlamamıza yardımcı olmakla kalmaz, aynı zamanda hayatlarını nasıl yaşadıklarını da öğretir. İster tarifler şeklinde, ister nasıl yapılır yönergeleri şeklinde, ister taş tabletlere veya kitaplara yazılmış olsun, ister web'de yayınlanmış olsun, talimatlar yüzyıllardır etrafımızdadırlar. Görüntü ve metin içeren nasıl yapılır yönergeleri, insan zekasını anlamak için mükemmel adaylar olmakla birlikte, bunları anlamak, çözülmesi gereken önemli, merak uyandıran bir araştırma problemidir. Herhangi bir biçimdeki modern nasıl yapılır yönergeleri, neredeyse her zaman resimler, videolar ve metin gibi çok kipli bilgiler içerir. Talimatlar, bir süreci anlamanın ve çoğaltmanın anahtarıdırlar ve nasıl yapılır yönergeleri, yalnızca yönergeleri izleyerek aynı süreci tekrarlayabileceğimiz için harika talimat kaynaklarıdır. Ayrıca, nasıl yapılır yönergeleri genellikle, örneğin görüntü ve metin gibi birden çok kipin ortak bir şekilde anlaşılmasını içerir. Bununla birlikte, bu talimatlar, genellikle görüntüler ve metin gibi çok kipli bilgiler içerdiklerinden, birden çok nesne ve varlıktan oluştuklarından ve genellikle bir kipten diğerine atıfta bulunulan bu tür varlıklar arasındaki eylemler ve etkileşimlerin yordamsal olarak anlaşılmasını gerektirdiğinden, anlaşılması da oldukça zordur. Yemek tarifleri gibi nasıl yapılır yönergeleri, tipik olarak, çoğu farklı eylemler yoluyla birbiriyle etkileşime giren çeşitli nesneleri ve varlıkları içeren birden çok adımdan oluşur. Bir eylemi, bir fiil ile bir nesne veya varlığın birleşimi olarak ele aldığımızda, bu eylemi oluşturan parçaların daha önce gözlemlenmemiş bileşimlerine genelleme yapabilmek büyük bir zorluk teşkil etmektedir. Bu bağlamda, görsel temelli metinsel yönergelerin, makine öğrenmesi modellerinin sistematik genelleme becerilerine nasıl yardımcı olabileceğini anlamak önemli bir araştırma sorunu olmaya devam etmektedir. Son yıllarda yapay zeka araştırmalarına giderek artan bir ilgi oluşmuştur. Özellikle, büyük ölçekli veri kümelerinin önerilmesi, araştırmacıları daha karmaşık modeller geliştirmeye motive etmiştir. Bilgisayarlı görü ve doğal dil işlemele alanlarında, örneğin görüntülerin tasviredilmesi ve görsel soruları yanıtlama gibi görevler bir çok araştırmacının ilgisini çekmiş ve bu problemler üzerinde pek çok çalışma yapılmıştır. Modellerin kalitesi zaman içinde istikrarlı bir şekilde iyileşse de, bu görevlerin doğası gereği, hem görüntü hem de metin alanlarında sorunların ortaklaşa çözülmesini gerektiren çeşitli zorluklar ortaya çıkmıştır. Bu doğrultuda ön plana çıkan ve araştırmacıların ilgisini çeken konuların başında kavrama ve muhakeme problemleri dikkat çekmektedir. Geniş bir bağlamda bakacak olursak kavrama, bir şeyin ne anlama geldiğini idrak etme yeteneğini, muhakeme ise bilinen gerçeklerden sonuç çıkarmayı ifade etmektedir. Kavrama ve muhakeme yetenekleri üst düzey bilişsel beceriler olmakla birlikte, sadece makineler için değil insanlar için de oldukça zorlayıcı problemler olarak kabul görmektedir. Her halükarda, makinelerin insan düzeyinde kavrama ve akıl yürütmeye ulaşması için halihazırda oldukça önemli eksikler bulunmaktadır. Bu tez, hem görseller, hem de metinler için makine kavraması ve makine muhakemesi problemlerini incelemekte ve çok kipli muhakame ve kavrama problemlerini kapsamlı bir şekilde ele almaktadır. Ayrıca görseller ve metinleri anlamak ve akıl yürütmek için literatürde öne çıkan veri kümelerini incelemekle birlikte, daha önce önerilmiş görevleri genel bir bakışla ele almaktadır. Bu tezde, özellikle, makinelere okumayı öğretmeyi ve ardından bu konuda sorular sorarak okuduklarını anlamalarını sorgulamayı amaçlayan makine okuması ve anlaması görevlerini incelemekte, aynı zamanda görsel akıl yürütme alanında muhakeme ve çıkarım üzerine odaklanmakta, ayrıca çok kipli nasıl yapılır talimatlarının makine muhakemesi ve makine kavranması ile idrak edilmesi üzerinde çalışmaktayız. Bu problemlerin çözümü, tek kip ile dahi düşünüldüğünde oldukça zorlu problemler teşkil etmektedir. Örneğin, makine okuduğunu anlama testleri, makinelerin verilen metni ne kadar iyi anladıklarını, soruları ne kadar doğru yanıtladıklarını ölçerek değerlendirmeyi amaçlar. Görsel akıl yürütme, sahne, aktörler, varsa eylemler, bağlam, nesneler ve bunların bir biri ile olan etkileşimleri gibi görsel verilerin derinlemesine anlaşılmasını gerektirir. Görsel verileri anlama konusunda onlarca yıllık araştırma yapılmıştır. Görsel muhakeme ve anlama tipik olarak insanlarla, yani doğal dil yoluyla etkileşimi gerektirdiğinden, bu görev pratik olarak görüntüler veya videolar ve metin gibi çok kipli verileri aynı anda ele almayı gerektirmektedir. Tipik bir görsel muhakeme görevinde, bir makinenin görsel verileri anlaması, bu görsel ile ilgili sorulan soruyu kavraması ve son olarak görsel veriler ve soru bağlamında doğru bir cevap vermesi beklenir. Bu bağlamda, görüntü ve metinlerden oluşan nasıl yapılır talimatlarının makine kavranması ve muhakemesi oldukça önemli ve bir o kadar zor problemler olarak öne çıkmaktadır. İnsanlar önceden bildikleri kavramların yeni bileşimleri ile ilk kez karşılaşsalar bile kolayca anlayabilmekte, bildikleri kavram ve nesneleri zahmetsizce bir araya getirerek yeni bileşimler oluşturabilmektedirler. Bu bağlamda, bileşimsel genelleme son yıllarda araştırmacıların ilgisini çekmekle birlikte, bu problem, çok kipli nasıl yapılır talimatlarının kavranması ve muhakemesi için oldukça önem arz etmektedir. Bu tezde, dilbilimsel bileşimler üzerine mevcut çalışmaların kapsamlı bir incelemesini sunmakta, mevcut görevleri ve veri kümelerini sınıflandırarak tartışmaktayız. Ayrıca, sinir ağı mimarileri ve bileşimsel genelleme için önerilen öğrenme stratejilerini incelemekte, ve mevcut görevleri, veri kümelerini, yöntem ve öğrenme stratejilerini tartışarak bu alanda önerilmiş çalışmaları kapsamlı bir şekilde ele almaktayız. Bununla birlikte, sistematik genelleme alanındaki mevcut kısıtlara vurgu yaparak ve gelecekteki muhtemel araştırma istikametlerini tartışıyor ve çok kipliliğin sistematik bileşime katkısını inceliyoruz. Yemek tariflerini anlamak ve akıl yürütmek, makinelerin yordamsal metinleri yorumlamasını sağlamaya yönelik önemli bir araştırma alanıdır. Bu doğrultuda, bu tezde ayrıca, yemek tariflerinin çok kipli olarak anlaşılması için yeni bir veri kümesi olan RecipeQA veri kümesini sunmaktayız. Sunduğumuz bu veri kümesi, kendi içerisinde başlıklar, açıklamalar ve hizalanmış görüntüler gibi birden çok kipe sahip eğitici yemek tariflerini içermektedir. RecipeQA veri kümesi üzerinde hem tek kipli hem de çok kipli modeller önermekle birlikte, metinsel boşluk doldurma, görsel boşluk doldurma, görsel sıralama, görsel uyum gibi çeşitli muhakeme ve kavrama görevleri üzerinde farklı modeller ile deneyler gerçekleştirmekteyiz. Elde ettiğimiz sonuçlar, RecipeQA veri kümesinin zorlu bir test ortamı ve makine anlama sistemlerini değerlendirmek için ideal bir kıyaslama veri kümesi olarak hizmet edeceğini göstermektedir. Yemek tariflerinin yordamsal olarak anlaşılması, nesnelerin kavranmasını, durum değişikliklerinin izlenmesini ve zamansal ve nedensel ilişkilerin anlaşılmasını gerektirdiğinden oldukça zorlu bir görevdir. RecipeQA veri kümesini tanıttıktan sonra, farklı bir problem olarak yordamsal ortak akıl bilgisini anlama problemini araştırmaktayız. Özellikle, RecipeQA veri kümesinden yararlanan çok kipli yordamsal bilgiyi anlamak için Yordamsal Muhakeme Ağlarını (PRN) öneriyor, buna ek olarak, metinsel kiplere tamamlayıcı bir anlamsal sinyal sağlamak için görsel kiplerden nasıl faydalanılabileceği sorusunu araştırıyoruz. Önermekte olduğumuz bu model, metin talimatlarını okurken birbiriyle ilişkili varlık durumlarını dinamik olarak güncellemeyi öğrenmektedir. Ayrıca, daha önce önerdiğimiz RecipeQA veri kümesindeki görsel muhakeme görevleri üzerine bir analiz sunmakta, yordamsal çok kipli nasıl yapılır talimatlarının anlaşılması için sunduğumuz bu yaklaşımımızın, daha önce elde elde ettiğimiz sonuçların doğruluğunu büyük bir farkla geliştirdiğini görmekteyiz. Sinir ağı modelleri, pek çok farklı görevde etkileyici bir şekilde iyi performans gösterir, ancak genellikle daha önce gözlemlenmemiş kavramların bileşimsel olarak genelleştirmesinde başarısız olmaktadırlar. Bu doğrultuda, günlük ev görevlerinden oluşan bir veri kümesini kullanarak görsel ve metinsel bilgiye dayalı talimatlardan oluşan bir bileşimsel ve sistematik veri seti olan EK-100-SYS veri setini önermekte, bu verini kullanarak, sistematik genelleme problemini kapsamlı bir şekilde ele almaktayız. Ayrıca, bu çalışma kapsamında, bilinen kavramlardan yeni bileşimler içeren bir eylemi tahmin etmeyi amaçlayan bir görev ve eylem sınıfını tahminleme görevlerinde birkaç tek kipli ve çok kipli modeller de sunmaktayız. Elde ettiğimiz bulgular, görsel ve işitsel sinyallerden yararlanan modellerin, salt metin tabanlı modellere göre belirtilen görevlerde daha iyi sonuçlar elde edilmesine imkan sunduğunu göstermekte, bu bağlamda çok kipliliğin bileşimsel genelleme probleminde önemli bir katkı sunabileceğini göstermekteyiz. Son olarak, bu tezde görüntü ve metinlerden oluşan çok kipli nasıl yapılır talimatlarının kavranması ve muhakemesi konusunda temel kısıtları ele almakta, gelecekte bu alanda yapılacak çalışmalara yön vermek için muhtemel araştırmaları istikametlerini belirtmekteyiz.

In the blink of an eye, we understand what we are looking at. Most of our brain is organized to process the visual information we receive; thus, replicating human intelligence requires a complete understanding of human vision. But, is understanding vision enough to understand human intelligence? Probably not. Besides our visual perception skills, language is an essential and unique ability and a natural way of communication for humans. For thousands of years, humankind has been telling stories and giving instructions through spoken language. One of the earliest written forms of language is instructions, specifically food recipes. These instructions not only help us understand what the people of that time ate but also teach us how they used to live their lives. Instructions have been around us for centuries, be it in the form of recipes, or how-to guides, written on stone tablets or books, or else published on the web. How-to instructions with images and text are perfect candidates for understanding human intelligence, and understanding them is an important, intriguing research problem to solve. Modern how-to guides of any form almost always contain multimodal information, such as images, videos, and text. Instructions are key to understanding and replicating a process, and how-to guides are great sources of instruction, as we can replicate the same process by just following the guide. Furthermore, how-to instructions often involve a joint understanding of multiple modalities of information e.g. images and text. However, they are also very challenging to understand as they often contain multimodal information such as images and text, consist of multiple objects and entities as well as require a procedural understanding of actions and interactions between such entities often referred in from one modality into another. How-to guides such as cooking recipes, typically consist of multiple steps involving various objects and entities, most of which interact with each other through different actions. Considering an action as a combination of a verb and an object or entity, being able to generalize to unseen compositions of these action compounds pose a great challenge. In this regard, understanding how visually grounded textual instructions might help models' systematic generalization abilities remains an important research problem. In this thesis, we examine multimodal machine comprehension of how-to instructions with images and text, review related literature, and point out current challenges. We also propose methods to address some of these challenges and ways to improve upon existing approaches. The main contributions of this thesis can be summarized as follows. We investigate machine comprehension and reasoning problems and review the previous literature to lay the grounds for understanding multimodal how-to instructions. We survey compositional generalization literature, highlight current research challenges, and discuss its relation to understanding multimodal how-to instructions. We introduce a multimodal benchmark how-to instructions dataset comprised of cooking recipes with images and text. We propose novel methods for understanding multimodal procedures. Finally, we present a challenging multimodal compositional generalization setup and propose methods to benchmark and show multimodality's contribution to significantly improve the current state of the art in understanding multimodal how-to instructions and conclude with future research directions and discuss open challenges.