Görsel tasarım, tasarım öğelerinin ve prensiplerinin farklı kullanımları ve organizasyonları ile ilişkilidir. Görsel iletişimin temeli olarak sanat ve tasarım disiplinlerinde çok sayıda kitapta açıklanmıştır. Bunlar, estetik ve bilgi sunumu için çeşitli disiplinlerdeki tasarımcılar tarafından öznel olarak uygulanır. Görsel işleme için algısal bir çerçevenin oluşturulması için tasarım öğelerini kullanan mantıksal prosedürlere görsel tasarım prensipleri (VDP) denir ve üçü bu çalışma için ana prensip olarak seçilmiştir: vurgu, denge ve ritim. Bu prensiplerin örnekleri incelendiğinde, temel organizasyon mantığına uyulmasına rağmen tasarım öğelerinin kullanımlarının farklılık gösterdiği ve kompozisyonlarında alt-görsel benzerliklere yol açtığı tespit edilmiştir. Böylece seçilen üç görsel tasarım prensibi altında benzer görsel kalıplara sahip olan dokuz alt-görsel tasarım prensibi (sub-VDP) tanımlanmıştır: renk, izolasyon, biçim, simetrik, asimetrik, kristalografik, düzenli, aşamalı ve akıcı. Tasarım görsellerinin sayısal analizi zor olarak görülse de; gelişen yapay zeka (Artificial Intelligence) teknolojileri ile mümkün hale gelmiştir. Bilgisayarlı görü (Computer Vision) uygulamalarındaki gelişmeler nedeniyle, derin öğrenme (Deep Learning) modeli, verilerdeki bu temel, ortak görsel kalıpları tanımlayabilir. Bu doktora tezi, bir sinir ağı modeli ile fotoğraf, sanat (resimler, baskılar ve grafik sanat) ve mimari (bina cephesi görselleri) alanlarında görsel bir kompozisyondaki görsel tasarım prensiplerini tespit eden ve sınıflandıran bir yaklaşım geliştirmektedir.
Öncelikle bu tezde, bilgisayar bilimi ve tasarım disiplinlerinde gerçekleştirilen; sanat, tasarım ve mimari alanlarındaki yapay zeka uygulamalarına ait detaylı bir araştırma yapılmıştır. Sanat alanında yapılan yapay zeka çalışmalarının genelde karmaşıklık, stil sınıflandırma, görsel estetik ve görsel belirginlik konularında yoğunlaştığı, tablo ve fotoğraf gibi veriler kullanıldığı gözlemlenmiştir. Mimari alanında yapılan yapay zeka çalışmalarında incelenen mimari görselin çeşidi ön plana alınmış, bina cephesi, mekan yerleşimi, sokak görünümü görselleri ve eskizler ile yapılan çalışmalar bulunmuştur. Bu çalışmalar analiz edilip, kullanılan modeller, yöntemler, veri türleri ve sayıları çıkarılmıştır. Bu sayede tezde kullanılacak sinir ağı modelinin eğitilmesi için toplanması gereken verilerle ilgili bir altyapı oluşturulmuştur. Yapılan bu çeşitli ve güncel araştırmalar, uygulamalarındaki başarı yanında, mimari tasarım için bir tartışma sunmamaktadır. Dolayısıyla, bu çalışmadaki yapay zeka uygulaması ve sonuçlarının, mimari ve yapılı çevre görselleri kullanılarak ve tasarım alanı kapsamında tartışılmasının, bilgisayar bilimi ve mimarlık disiplinlerine katkı sağlayabileceği öngörülmüştür.
Sanat ve mimarideki yapay zeka çalışmalarında derlenen bilgilerin yanında, mimaride bina cephesinin manuel ve hesaplamalı analizleri araştırılmıştır. Yapılan çalışmalarda bina cephelerinin genel olarak karmaşıklık, görsel çeşitlilik, entropi ve görsel estetik konularında; fraktaller ve kutu sayma yöntemi, denek değerlendirmeleri, soyutlama ve manuel hesaplama yöntemleri ile incelendiği görülmüştür. Sayısal yöntemlerin bu yöntemlere göre daha pratik, objektif ve zaman açısından avantajlı oldukları konusunda değerlendirmeler oluşmuş; sayısal fraktal analizleri, Hough dönüşümü ve nokta bulutu analizi gibi yöntemler geliştirilmiştir. Görsel kompozisyon niteliklerinden görsel tasarım prensiplerinin yapay zeka ile ve bir tasarımcı gözetiminde incelenmemiş olması, bu tez araştırmasının özgün kapsamıdır.
Bu problem için mevcut bir veri seti olmadığından, fotoğraf, sanat ve mimarlık alanlarında üç özgün veri seti oluşturulmuştur. Modelin belirli kalıplara karşı önyargılı hale gelmesini ve zayıf bir genelleştirici olmasını önleme amacıyla birlikte, veri setinde bir çeşitlilik sağlanması ve prensipleri biçimsel doğalarında anlamak için tüm prensiplerin analitik bir açıklaması yapılmıştır. Veri toplanması ve etiketlenmesi bu çalışmanın önemli bir zamansal bölümünü kapsamaktadır. Görsel tasarım prensiplerini doğrudan gösteren örneklerin büyük çoğunluğunun çağdaş döneme ait olması sebebiyle bu dönemdeki veriler aranmıştır. Veri toplamak için çeşitli web siteleri ve çevrimiçi müze veri tabanları kullanılmıştır. Derin öğrenme modelinden yüksek performans elde etmek için her alanda görsel tasarım prensiplerinin etiketleri için bulunan veri miktarı mümkün olabildiğince yüksek tutulmuştur. Fotoğraf, sanat ve mimarlık alanı için sırasıyla, 100,000, 90,939 ve 90,736 veri toplanmıştır. 9 sınıf için yapılan etiketlemeler ile son veri setlerinde sırasıyla 11,544, 8,136 ve 4,145 adet veri bulunmaktadır.
Modeli test etmek için evrişimli sinir ağları (Convolutional Neural Networks) ile çoklu deneyler yapılandırılmıştır. Veri setindeki mevcut veri sayısını artırabilmek için, alt-görsel tasarım prensiplerinin kompozisyondaki özelliklerini kaybetmeyen çeşitli görüntü işleme teknikleri ile veri artırımı yöntemleri uygulanmıştır. Model seçimi için ilk olarak 3 etiket ile ön eğitimli modeller karşılaştırılmış, InceptionV3 modeli diğer modellere göre süre ve veri genellemesi açılarından daha yüksek bir performans gösterdiği için seçilmiştir. Daha sonra modelin hiper-parametreleri ayarlanarak, yapılacak sınıflandırma için uygun bir performans gösterdiği izlenmiştir. İlk aşamada toplanan alan verileri düzenlenerek yani, tekrarlı verilerin silinmesi, bazı verilerde etiketlemelerin tekrar yapılması ve tamamen yeni verilerin eklenmesiyle, veri seti özellikle mimari alanında daha dengeli hale getirilmiştir.
Literatürde görsel tasarım prensiplerinin birincil ve destekleyici prensipler olarak sınıflandırıldığı görülmüştür. Denge gibi prensipler görsel tasarımı bir bütün olarak etkilerken, vurgu ve ritim gibi prensiplerin görsel tasarımın iç ilişkilerini etkiledikleri vurgulanmıştır. Bu görüşle paralel olarak, özellikle sanat alanında, çok sayıda birden fazla alt-görsel tasarım prensibinin bir arada olduğu, çoklu etikete uygun veri gözlemlenmiştir. Ancak veriler, değerlendirme ve açıklama sürecindeki karmaşıklığı azaltmak için çok sınıflı sınıflandırmaya uygun olarak tek bir sınıf ile etiketlenmiştir.
Deneyler, içeriklerine ve yapılan analizlere göre beş başlıkta aktarılmıştır. Deney A, 3 alanda, 9 alt-görsel tasarım prensibi ile, aynı zamanda bu alanlardaki 3 alt-görsel tasarım prensibinin farklı kombinasyonları ile yapılmıştır. Deney B, tüm alanlardaki tüm veriler birleştirilerek yapılmıştır. Deney C, Deney A'da yanlış sınıflandırılan örneklerin modeller tarafından verilen 2. veya 3. etiket tahminlerinin doğru olup olmadıklarının kontrolü ile ilgilidir. Deney D, sınıflandırma problemi, çok sınıflı sınıflandırma yerine çoklu etiketli sınıflandırma olarak tanımlansaydı, sonuçların nasıl değişebileceği ile ilgilidir ve fotoğraf alanındaki bir kısım verinin, çoklu etiketlenerek hazırlanması sürecini de barındırır. Deney E modellerin alan adaptasyonu olup olmadığının anlaşılması için, başka bir alanda eğitilmiş bir modele, diğer bir alanda doğru sınıflandırılmış verilerin girilmesi ve modelin bu doğrultudaki tahminlerinin analizi ile ilgilidir.
Alanlar içindeki sınıflandırma sonuçları, verilerin anlaşılırlığı ve miktarı dikkate alınarak değerlendirilmiştir. İlk veri setlerinin hazırlanmasında etiketleme prosedürünün etkisi, çok sınıflı ve çoklu etiketli sınıflandırma sonuçları analiz edilerek tartışılmıştır. Ayrıca, alan adaptasyonu, diğer alanlarda eğitilmiş modellerde test edilen örneklerle araştırılmıştır. Temeldeki hesaplama kalıpları tarafından yakalanan sayısız orijinal tasarım bilgisi, görsel kompozisyonların nesnel bir değerlendirmesini sağlayarak tasarım sürecini pekiştirmek için kullanılabilir.
|
Visual design is associated with different uses and organizations of design elements and principles. They are explained in numerous books in art and design disciplines as the bases of visual communication. Those are applied subjectively by the designers in various disciplines for aesthetics and presentation of information. For the constitution of a perceptual framework for visual processing, the logical procedures that use the design elements are called visual design principles (VDP) ; three are selected as the main principles for this study: emphasis, balance, and rhythm. As the examples of these principles were inspected, it was established that the use of the design elements differed and led to sub-visual similarities existing in their compositions, despite following the main organizational rationale. So nine sub-VDP are defined, which have similar visual patterns: color, isolation, shape, symmetric, asymmetric, crystallographic, regular, progressive and flowing. Although numerical analysis of design visuals is considered as hard, it has become possible with emerging artificial intelligence (AI) technologies. Due to the advances in computer vision applications, a deep learning model can identify these underlying common visual patterns in the data.
This Ph.D. thesis develops an approach to detect and classify the VDP in a visual composition over different domains, including photography, art (paintings, prints and graphic art) and architecture (building facade visuals) by a neural network model. The AI applications in art, design, and architecture conducted by the disciplines of computer science and design have been found, analyzed and the models, methods, numbers, and types of data used in the studies have been extracted. Next to the compiled knowledge in AI studies in art and architecture, the manual and computational analyzes of the building facade in architecture have been researched.
As there was no existing dataset for this problem, three genuine datasets have been created in the given domains for this study. The majority of the examples showing the VDP directly belong to the contemporary era, so the data search has been oriented toward this period. Various websites and online museum databases are used for collecting the data. The amount of data found for the labels of VDP in each domain has been kept as high as possible to achieve high performance from the deep learning model. Multiple experiments are structured for testing the model. Classification results within the domains are evaluated by considering the clarity and the amount of the data. The effect of the labeling procedure in the preparation of the initial datasets is discussed by analyzing multi-class and multi-label classification results. Also, domain adaptation is investigated with instances tested in models trained in other domains. The knowledge of myriads of original designs, captured by the underlying computational patterns, can be used to consolidate the design process by providing an objective evaluation of the visual compositions. |