Ulusal Tez Merkezi

Tez No	İndirme	Tez Künye	Durumu
598613		Geniş ölçekli veriler üzerinde sınıflandırma ve bölütleme amaçlı evrişimsel sinir ağı ve istatistiksel modellerin geliştirilmesi / Development of convolutional neural network and statistical models for classification and segmentation on large-scale data Yazar:NURULLAH ÇALIK Danışman: PROF. DR. LÜTFİYE DURAK ATA Yer Bilgisi: Yıldız Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı / Haberleşme Bilim Dalı Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Elektrik ve Elektronik Mühendisliği = Electrical and Electronics Engineering Dizin:Büyük veri = Big data ; Derin öğrenme = Deep learning ; Makine öğrenmesi yöntemleri = Machine learning methods	Onaylandı Doktora Türkçe 2019 117 s.

Bilginin yapı taşını oluşturan veri, üretim kaynaklarının hacmi, çeşitliliği ve hızı nedeniyle devasa bir büyüklüğe ulaşmıştır. Meydana gelen bu nicelik içinden nitelikli faydanın elde edilmesi ise ayrı bir disiplin olarak ele alınması gereken bir yapıya dönüşmüştür. Bu sebeple yapay zeka, iletişim ağları, güvenlik, depolama ve gizlilik gibi birçok alt disiplini bünyesinde bütünleyen Büyük Veri olgusu doğmuştur. Veri biliminin ihtiyaç duyduğu tek çatı altında birleşme ile, bilgi birkez daha çeşitli sahalarda önemini perçinlemiştir. Büyük verilerin işlenmesi ile biyomedikal alanda doktorlar daha nesnel kararlar verebilirken, hastalara ait veriler daha sistematik bir şekilde planlanabilmektedir. Finans sektöründe yatırımlar sezgisel adımlar yerine, piyasaların duyarlılığının kesitirilmesi ile elde edilen veriler doğrultusunda yapılmaktadır. Endüstriyel uygulamalarda organizasyon planlamaları yine iş zekası çerçevesinde geliştirilmektedir. Bunlarla birlikte nesnelerin interneti ve bulut bilişim gibi teknolojiler, geniş-ölçek seviyesindeki veri akışını ve yönetimini mümkün kılarak büyük veri olgusunu geniş bir uygulama yelpazesine yaymaktadır. Büyük veri kavramı, bütünleşik veya dağıtık verinin saklanması ve organize edilmesinin yanı sıra analitik olarak işlenmesini de içermektedir. Veri madenciliği alanında geliştirilen geleneksel algoritmalar ve donanımlar, işlenmesi gereken örnek miktarının üssel olarak artması nedeniyle hesaplama yükü ve depolama ihtiyaçları bakımından yetersiz kalmaktadır. Yeni nesil geliştirilen yöntemlerin en temel özelliklerinden birinin ölçeklenebilir olması kaçınılmaz olmuştur. Bu bağlamda, öne sürülen algoritmaların paralel çalışma teknikleri veya grafik işlemcilerinin güçlü mimarileri üzerinden geliştirilmesiyle büyük veri analitiği etkin araçlara kavuşmuştur. Özellikle derin öğrenme temelinde üretilen modellerin çok fazla veri ile eğitilmesi ile sergiledikleri başarımlar, makine öğrenmesi ve büyük veri kombinasyonunun çığır açıcı etkilerini gözler önüne sermiştir. Eğiticili sınıflandırma problemlerinde sınıf başına düşen eğitim örneği ne kadar fazla ise modellerin veriyi betimleme kabiliyetleri o derece iyi olmaktadır. Bu çerçevede, geniş-ölçek veriler büyük bir fırsat sağlamaktadır. Diğer taraftan çok sınıflı (>1000) ve sınıf başına az örnek (<10) kullanılarak modellerin eğitilmesi, üzerinde çalışılması gereken önemli bir konudur. Bu tanım, gerçek hayatta biyometrik verilerin sınıflandırılması problemi ile yakından ilgilidir. Dolayısıyla tez kapsamında, eğiticili öğrenme alanına yönelik olarak evrişimsel sinir ağı temelinde özgün bir sınıflandırma modeli önerilmiştir. Az sınıflı veri setleri, içerdikleri verinin çok fazla ve yoğun olması nedeniyle istatistiksel yöntemlerin analiz menziline girebilmektedirler. Özellikle, veri setindeki sınıflar arasında ayırt edici öznitelikler istatistiksel olarak çıkartılabilmesi eğitim sürecini hızlandırmaktadır. Bu doğrultuda, eğiticili öğrenme içinde belirlenen bu alana yönelik yerel histogram tabanlı bir yöntem ortaya koyulmuştur. Yerel histogramlar öznitelik olarak ele alınmış ve örnekler arası benzerlik metriği için simetrik Kullback-Leibler Diverjansı kullanılmıştır. Sınıflandırmaya yönelik ağırlıklı K-En Yakın Komşu algoritması tercih edilmiştir. Bu adımlar bütününde oluşturulan algoritma, serviks dokularının sınıflandırılması probleminde test edilmiştir. Ayrıca, eğiticisiz öğrenme dahilinde var olan bölütleme problemi kapsamında, yüksek çözünürlüğe sahip görüntülerde çakışık nesnelerin ayrıştırılması konusu ele alınmış, uyarlamalı olarak veri azaltma tekniği temelinde etkili bir algoritma geliştirilmiştir. Bu algoritma, çakışık nesneleri sınır pikselleri üzerinden çözebilecek şekilde k-Ortalama algoritmasının temelini oluşturan kayıp fonksiyonunun yeniden tanımlanması ile ortaya konmuştur. Geliştirilen yöntem histopatoloji alanında önemli bir problem olan çakışık hücrelerin bölütlenmesine uyarlanarak literatüre katkılar sunulmuştur.

The data that constitutes the building block of information has reached a huge size due to the volume, variety and speed of production resources. Obtaining qualified benefit from this quantity turned into a structure that should be considered as a separate discipline. For this reason, the concept of Big Data, which integrates many sub-disciplines such as artificial intelligence, communication networks, security, storage and privacy, has emerged. With the unification under the single roof that data science needs, information has once again reinforced its importance in various fields. With the processing of large data, doctors can make more objective decisions in the biomedical field, while patient data can be planned in a more systematic way. Investments in the financial sector are made in line with the data obtained by crossing the sensitivity of the markets instead of intuitive steps. Organizational planning in industrial applications is also developed within the framework of business intelligence. In addition, technologies such as the Internet of Things and Cloud Computing make it possible for large-scale data flow and management to spread large data phenomena across a wide range of applications. The concept of big data includes the storage and organization of integrated or distributed data as well as analytical processing. Traditional algorithms and equipment developed in the field of data mining are insufficient in terms of calculation load and storage requirements due to the exponential increase in the amount of sample to be processed. It is inevitable that one of the most basic features of the new generation developed methods would be scalable. In this context, large-scale data analytics have gained effective tools through the development of proposed algorithms over parallel operating techniques or powerful architectures of graphic processors. In particular, the performances of models produced on the basis of deep learning has demonstrated the groundbreaking effects of machine learning and big data combination. The more training examples per class in supervised classification problems, the better the ability of the models to describe the data. In this context, large-scale data provides a great opportunity. On the other hand, training of models using multi-class (>1000) and less sample per class (<10) is an important issue that needs to be studied. This definition is closely related to the problem of classification of biometric data in real life. Therefore, within the scope of the thesis, an original classification model based on convolutional neural network is proposed for the area of the supervised learning. Less-class data sets can enter the analysis range of statistical methods because the data they contain is too much and dense. Specifically, the fact that discriminative features can be extracted statistically between the classes in the data set accelerates the training process. In this respect, a local histogram-based method has been proposed for this area identified in supervised learning. Local histograms are considered as features and symmetrical Kullback-Leibler Divergence is used for the similarity metrics between samples. Weighted k-Nearest Neighbor algorithm is preferred for classification. The algorithm, which is created in the whole of these steps, is tested on the problem of classification of cervical tissues. In addition, within the scope of segmentation problem in unsupervised learning, the separation of overlapping objects in high resolution images has been dealt with and an adaptive algorithm based on data reduction technique has been developed. This algorithm is introduced by redefining the loss function which forms the basis of the k-mean algorithm to solve overlapping objects over boundary pixels. The developed method is adapted to segmentation of overlapped cells which is an important problem in histopathology field and contributions to the literature are presented.