Tez No İndirme Tez Künye Durumu
735968
A comparative study for football analytics with data mining and artificial intelligence techniques / Veri madenciliği ve yapay zeka teknikleri ile karşılaştırmalı futbol analitiği
Yazar:MUSTAFA AADEL MASHJAL AL-ASADI
Danışman: PROF. DR. ŞAKİR TAŞDEMİR
Yer Bilgisi: Selçuk Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Derin öğrenme = Deep learning ; Makine öğrenmesi = Machine learning ; Oyuncu = Actor ; Piyasa değeri = Market value ; Veri madenciliği = Data mining ; Yapay zeka = Artificial intelligence
Onaylandı
Doktora
İngilizce
2022
146 s.
Spor analitiğinde yapay zekâ ve veri madenciliği tekniklerini kullanarak oyuncu performansını modelleme süreci, etraflıca değerlendirilmesi yapılan görevlerden birini oluşturmaktadır. Ancak veri toplama ve işleme adımlarındaki zorluklar, spor analitiğinin futbolda yaygın olarak uygulanması açısından problem yaratmaktadır. Makine öğrenmesi, futbol antrenörlerine rakiplerini analiz etme ve gerçek zamanlı daha iyi kararlar alma noktasında yardımcı olabilecek nitelikte futbol istatistiklerini faydalı bilgilere dönüştürmek için kullanılabilecek bir yapay zekâ dalıdır. Makine öğrenmesi, sinir ağları ve karar ağaçları gibi çeşitli algoritmalara ve istatistiksel yöntemlere dayandığı gibi, yakın zamanda "derin öğrenme" olarak bilinen daha karmaşık sinir ağlarının güncellenmiş sürümlerinden de faydalanmaktadır. Makine öğrenmesi, son 20 yılda çoğunlukla maç sonuçlarının tahmin edilmesine yönelik kullanıldı. Futbol antrenörlerinin taktik bilgileri geliştirmesine yönelik makine öğrenmesini inceleyen çalışma sayısı ise sınırlıdır. Makine öğrenmesinde, yüksek boyutluluk ve sınıf dengesizliği sorunları, modelleme sürecine başlamadan önce ele alınması gereken büyük zorluklardır. Literatürde yer alan çalışmalarda, her iki konunun da bağımsız olarak çalışıldığı görülmüştür. Bu iki tekniğin ortak kullanımının etkisini incelemek için de ayrıca çalışmalar yapılmıştır. Bu tez çalışmasında, söz konusu bu problemleri ele almak için spor analitiği bağlamında hem yüksek boyutluluk hem de sınıf dengesizliği sorunlarına yönelik özellik seçimi ve veri örneklemeyi birleştirmek adına metodolojiler önerilmiştir. Çalışmada ayrıca makine öğrenmesi ve veri madenciliği tekniklerinin üstünlüğünün sonuçlarına ulaşmak için derin öğrenme yeteneğinin kapsamının incelenmesi amaçlanmıştır. Önerilen algoritmalar ve metodolojilerde, makine ve derin öğrenme algoritmaları kullanılarak futbolcuların özelliklerinin saptanması, oyuncuların piyasa değerinin tahmin edilmesi ve nicel analiz yöntemiyle en iyi takım oluşumunun tespit edilmesi gibi üç temel hususa yönelik FIFA-20 video oyun serisi verileri kullanılmıştır. Neticede, bu problem sahalarına yönelik dört farklı araştırma yapılmıştır. Yapılan ilk araştırmada, futbolcuları dokuz farklı pozisyonda karakterize etmek için geniş çaplı bir çalışma yapılmıştır. Verilerdeki mevcut yüksek boyutluluk ve sınıf dengesizliği problemlerini aşmak için öznitelik seçiminin veri örnekleme ile birleştirildiği dört yaklaşım kullanılmıştır. Yapılan deneylerde, Rastgele Az Örnekleme (Random Undersampling - RUS), Rastgele Aşırı Örnekleme (Random Oversampling - ROS) ve Sentetik Azınlık Aşırı Örnekleme Yöntemi (Synthetic Minority Over-Sampling Technique - SMOTE) yöntemleri kullanılmıştır. Bu yöntemlerden her biri, özellik seçimi için filtre, örtü ve bütünleşik olmak üzere üç farklı tiple birleştirilmiştir. Son olarak, çoklu lojistik regresyon ve rastgele orman olmak üzere iki algoritma kullanılarak tahmin modelleri oluşturulmuştur. Elde edilen sonuçlar, örtü özellik seçiminin ROS, SMOTE ile birlikte kullanıldığı yöntemde ve rastgele orman tekniği kullanılarak örneklenmiş verilere dayalı modellemede (orijinal veya örneklenmiş verilere dayalı özellik seçiminden bağımsız olarak) üstünlük gösterdiğini ortaya koymuştur. Elde edilen bu sonuçla literatürde yer alan sonuçlara daha fazla destek verilmiştir. Ayrıca, önerilen metodoloji, %57'nin üzerinde bir doğrulukla, temel veriye kıyasla tahmin doğruluğunu iyileştirmiştir. Bu metodoloji sayesinde kullanılan öznitelik sayısı 29'dan 10'a düşürülmüştür. Yapılan ikinci araştırmada, derin öğrenme algoritmaları kullanılarak oyuncuların becerilerine göre dokuz farklı pozisyonda karakterize edilmesi amaçlandı. Çalışmada üç farklı Evrişimsel Sinir Ağı (Convolutional Neural Network - CNN) modeli oluşturulmuş ve elde edilen sonuçlar klasik makine öğrenme algoritmaları ve veri madenciliği tekniklerinin kullanımıyla ilgili önceki sonuçlarla karşılaştırılmıştır. Yapılan deneyler, medyada mevcut yüksek görünürlüğüne rağmen, derin öğrenmenin modelleme için her zaman ilk tercih olmak zorunda olmadığını gösteriyor. Ayrıca sonuçlar, veri madenciliği ile rastgele orman yönteminin performansının CNN'nin sonuçlarından biraz daha iyi olduğunu ortaya koymaktadır. Rastgele orman yöntemi sayesinde maliyet ve zaman avantajı elde edilmektedir (CNN'leri eğitmek zaman alıcıdır ve hesaplama açısından uğraştırıcıdır). Bu çalışmada yapılan üçüncü araştırmada, dört farklı makine öğrenme algoritması kullanarak futbolcuların piyasa değerinin tahmin edilmesi amaçlanmıştır. Oyuncuların piyasa değerinin tahmin edilmesinin yanı sıra, bu aşamada iki farklı amaca daha ulaşmaya çalışıyoruz. Bunlardan ilki, bir oyuncunun piyasa değerini belirlemede en önemli hususları veya nitelikleri tespit etmektir. İkincisi ise, piyasa değerini tahmin etmede doğrusal olmayan metodolojilerin doğrusal yöntemlere nazaran daha iyi performans gösterme olasılığının doğrulanmasıdır. Deneysel sonuçlarda, rastgele orman yöntemi, diğer algoritmalardan daha iyi performans göstermiştir. Temel veriye kıyasla en yüksek doğruluk derecesini ve en düşük hata oranı elde edilmiştir. Sonuçlar, yöntemimizin bu görevi etkin bir şekilde çözebildiğini ve önceki çalışmalarda bildirilen performansı geride bıraktığını göstermiştir. Dördüncü araştırmada, oyuncuları önceki testlerdeki favori pozisyonlarına atadıktan sonra, nicel analiz kullanarak en iyi takım kompozisyonunun tespit edilmesi amaçlanmıştır. Bu araştırmada, belirli bir dizilişteki oyuncuların ortalama genel puanına dayalı olarak, FIFA'nın video oyunu verilerinde tanınan ilk sekiz takım (Almanya, İspanya, Fransa, İtalya, Brezilya, İngiltere, Arjantin ve Belçika) için en iyi takım dizilişini seçmek için nicel bir model oluşturulması hedeflenmiştir. Elde edilen sonuçlar, 4-4-2 ve 2-5-1 dizilişlerinin incelenen tüm rakip takımlar arasında en yüksek güce ulaştığını ortaya koymuştur. Bu nedenle, sonuçlarımızın literatürde yer alan çalışmalarla ve 4-4-2 dizilişinin standart bir diziliş olduğunu ve şu anda esnek ve çok popüler olarak kabul edildiğini öne süren son futbol eğilimleriyle uyumlu olduğu söylenebilir. Bu çalışmada, genel olarak makine öğrenmesi ve derin öğrenme gibi yapay zekâ araçlarının futbol analitiğinde çok önemli olduğu ve oyuncuların ayırt edici özelliklerinin ortaya konması gibi daha karmaşık hususların yanı sıra yetenek belirleme amacına yönelik de daha iyi sonuçlar verebildiği gösterilmiştir. Makine öğrenmesi modellerinin yalnızca kararları destekleyici olabileceği ve bu araçları kullanmak için teknik yönetim uzmanlığının gerekli olduğu söylenebilir.
The process of modelling player performance via artificial intelligence and data mining techniques is a mature task in sports analytics. However, due to the difficulty of collecting and processing data, sports analytics has not been widely applied in football. Machine learning (ML) is a field of artificial intelligence that can be used to transform football statistical data into useful information that coaches can use to analyze opponents and help improve decisions in real-time. Machine learning relies on a variety of algorithms and statistical methods, including neural networks and decision trees. It has also recently used updated versions of more complex neural networks known as "deep learning". Over the past two decades, machine learning has mostly been used to predict match results. Furthermore, few studies have focused on the use of ML to improve coaches' tactical knowledge. In machine learning, high dimensionality and class imbalance problems are major challenges that need to be addressed before starting the modelling process. The literature indicates that both issues have been studied independently. Efforts have also been made to study the impact of the joint use of these two techniques. Prioritizing feature selection and sampling, on the other hand, remains difficult, and the relation between them is unclear. To address these problems, in this thesis we seek to propose methodologies for combining feature selection (FS) and data sampling (DF) to address both high dimensionality and class imbalance problems in the context of sports analytics. On the other hand, the study aims to explore the scope of the ability of deep learning (DL) to achieve the results of the superiority of machine learning and data mining (DM) techniques. The proposed algorithms and methodologies were applied using the FIFA 20 video game series data to solve three problems are: Characterizing football players by utilizing machine and deep learning algorithms, predict the player's market value, and finding the best team formation by employing quantitative analysis. Thus, four investigations have been conducted to solve these problems. In the first investigation, we conducted a large-scale study to characterize football players in nine positions. We used to use four approaches methods that combine FS is combined with data sampling (DS) to overcome the problems of high dimensionality and class imbalance that exist in data. We used three different sampling methods in the experiments (RUS, ROS, and SMOTE). Each is combined with three types for feature selection (Filter, Wrapper, and Embedded). Finally, we build prediction models by testing two algorithms that are multiple logistic regression and random forests (RF). The results showed superiority in the strategy in which the wrapper FS was used in conjunction with a ROS, SMOTE and, modelling based on sampled data via the RF (regardless of FS based on original or sampled data). Thus, giving further support to results found in the literature. Furthermore, the proposed method improves the prediction accuracy of the baseline, with a reported accuracy of over 57%. Furthermore, the number of features used was reduced from 29 to 10 because of this methodology. The goal of the second experiment was to use deep learning algorithms to categorize players into nine positions based on their abilities. We built three different convolutional neural networks (CNN) models and compared the results with previous results related to the use of classical ML algorithms and data mining techniques. Experiments show that, despite its current high visibility in the media, deep learning does not always have to be the first choice for modelling. Besides, experiments show that the performance of RF with data mining is slightly better than the results of CNN. Additionally, we achieve cost and time advantages by utilizing RF (training CNNs is time-consuming and computationally intensive). The third investigation of this work aims to predict the market value of football players utilizing four different machine-learning algorithms. Besides the main objective of predicting the market value. We seek in this experiment to achieve two other aims. The first step is to identify the most significant aspects or attributes in determining a player's market value. In the second objective of the experiment, we seek to verify the possibility that non-linear methodologies can outperform linear methods in predicting the market value. In the experimental results, RF outperformed other algorithms. It achieves the highest accuracy rating and lowest error rate compared to the baseline. The results show that our method can solve this task effectively and outperforms the performance reported in previous work. The fourth investigation was about finding the best team composition using quantitative analysis. After assigning players to their favorite positions in previous experiments. In this investigation, we wanted to build a quantitative model to select the best team formation for the top eight recognized teams in FIFA's video game data, based on the average overall rating of players in a given formation: Germany, Spain, France, Italy, Brazil, England, Argentina and Belgium. Our results indicate that the 4-4-2 and 2-5-1 formations achieved the highest strength of all the competing teams that were studied. Thus, our results are in line with the literature and recent football trends that suggest a 4-4-2 formation is a standard formation and is considered flexible and very popular at present. Overall, this study shows that artificial intelligence tools such as ML and DL are very important in football analytics and can lead to better results for talent identification purposes as well as more complex issues such as player characterization. We can say that machine-learning models can only be supportive of decisions, and technical management expertise remains necessary to use these tools.