Tez No İndirme Tez Künye Durumu
771041
Big data and machine learning for behavioral analytics and inference: Cases in sports and education / Davranış analitiği ve nedensel çıkarımlarda büyük veri ve makineöğrenimi: Spor ve eğitimden vakalar
Yazar:EMRAH YILMAZ
Danışman: DOÇ. DR. ÖZDEN GÜR ALİ
Yer Bilgisi: Koç Üniversitesi / İşletme Enstitüsü / İşletme Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Ekonometri = Econometrics ; İşletme = Business Administration
Dizin:Büyük veri = Big data ; Davranış analitiği = Behavioral analytics ; Doğrusal regresyon modelleri = Linear regression models ; Makine öğrenmesi yöntemleri = Machine learning methods
Onaylandı
Doktora
İngilizce
2022
158 s.
Bu tez, davranış analitiği ve nedensel çıkarımda büyük veri ve makine öğrenimi yöntemlerinin kullanımına odaklanmaktadır. Tezin temel motivasyonu, geleneksel ekonometrik yöntemlerle çalışan araştırmacıların büyük veri ve nedensel Makine Öğrenmesi yöntemlerinden nasıl yararlanabileceğini göstermektir. Eğer bir konuda kapsamlı bir literatür yoksa, doğru regresyon spesifikasyonunu bulmak, özellikle yüksek boyutlu veri seti ile çalışırken zorlu bir iştir. Bu çalışmada nedensel Makine Öğrenimi tekniklerini açıklanabilir Yapay Zeka yöntemleriyle birleştirdim ve heterojen tretman etkilerinin doğru regresyon spesifikasyonu oluşturularak nasıl ölçüleceğine dair kılavuzlar (yani, bir regresyonda hangi ana değişkenler ve etkileşim değişkenleri kullanılacağı, hangi kontrol değişkenleri modele dahil edileceği) oluşturdum. Bu yönergeleri ampirik olarak test etmek için, futbolda maç içi geri bildirimler, maça özgü koşullar, takım özellikleri ve en önemlisi yönetici özellikleri hakkında ayrıntılı değişkenler içeren büyük bir veri seti oluşturdum. Ortaya koyduğum ampirik kanıtlar, futbol yöneticilerinin risk alma davranışlarının maç sırasında alınan geri bildirimlerden ve maç öncesinde gözlemlenen bilgilerden ne zaman ve nasıl etkilendiğini göstererek spor analitiği literatürüne katkıda bulunmaktadır. Ayrıca, bu tez, bilinen heterojen tretman etkileri ile üretilen sentetik verileri kullanarak iyi bilinen iki nedensel Makine Öğrenimi tekniğinin (Son zamanlarda popüler olan ve ortalama tretman etkilerini bulmaya odaklanan FLAME ve doğrudan heterojen tretman etkilerini bulmaya çalışan Nedensel Orman) performanslarını değerlendirerek nedensel Makine Öğrenimi literatürüne katkıda bulunmaktadır. Spor analitiğine ek olarak, eğitim verileriyle de çalıştım ve bilişsel olmayan bir beceri olan azmin öğrenciler için akademik başarıyı nasıl öngördüğünü gösterdim. Davranışsal bir azim ölçüsü oluşturmak için dijital bir öğrenme platformundan benzersiz bir veri kümesi kullandım ve davranışsal olarak ölçülen azmin, araştırmacılar tarafından geleneksel anketlerle ölçülen azim ölçüsüne kıyasla öğrenci performansının daha iyi bir prediktörü olduğunu gösterdim. Ayrıca, büyük verinin gücü sayesinde, makine öğrenimi algoritmalarının, herhangi bir yapısal model veya regresyon spesifikasyonu oluşturmadan bile akademik dayanıklılığı tahmin etmede iyi performans gösterdiğini buldum. Spor ve eğitimdeki vakalar üzerinde çalışarak elde ettiğim ampirik bulguların, nedensel çıkarım yapmak için geleneksel ve teoriye dayalı modellerle çalışan araştırmacıların Makine Öğrenimi ve büyük veriden sağlayabileceği faydaları açıkca ortaya koyduğuna inanıyorum.
This thesis focuses on the use of big data and machine learning methods in behavioral analytics and causal inference. The main motivation of the thesis is to illustrate how the researchers working with traditional econometric methods can benefit from big data and causal ML methods. In the absence of well-established literature, finding the right regression specification is a challenging task, especially when working with high dimensional data set. In this study, I have combined causal ML techniques with explainable AI methods and provided guidelines on how to measure heterogeneous treatment effects with the right regression specification (i.e. which main effects and interactions to be used, what control variables to be included). To empirically test these guidelines, I have curated a large data set in football including detailed variables about interim feedback, match-specific conditions, team features, and most importantly manager characteristics. Empirical evidence contributes to the sports analytics literature suggesting when and how risk-taking behavior of football managers pays off in light of interim and ex-ante information revealed to the manager (i.e. the decision maker). Moreover, this thesis contributes to the causal ML literature by evaluating the performances of two well-known causal ML techniques (a recently popular matching algorithm focusing on finding average treatment effects (FLAME) and Causal Forest that directly aims to estimate heterogeneous treatment effects) are evaluated by using synthetic data generated with known heterogeneous treatment effects. In addition to sports analytics, I have also worked with education data and demonstrated how grit, a non-cognitive skill, predicts academic achievement for students. I used a unique dataset from a digital learning platform to construct a behavioral measure of grit and showed that behavioral grit is a better predictor of student performance compared to survey grit that has been traditionally used by the researchers. I have also found that machine learning algorithms perform well in predicting academic resilience even without constructing any structural model or regression specification, thanks to the power of big data. I believe that my findings from cases in sports and education put forward the benefits of using Machine Learning and big data for researchers working with traditional and theory-based models for causal inference.