Tez No |
İndirme |
Tez Künye |
Durumu |
771041
|
|
Big data and machine learning for behavioral analytics and inference: Cases in sports and education / Davranış analitiği ve nedensel çıkarımlarda büyük veri ve makineöğrenimi: Spor ve eğitimden vakalar
Yazar:EMRAH YILMAZ
Danışman: DOÇ. DR. ÖZDEN GÜR ALİ
Yer Bilgisi: Koç Üniversitesi / İşletme Enstitüsü / İşletme Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Ekonometri = Econometrics ; İşletme = Business Administration
Dizin:Büyük veri = Big data ; Davranış analitiği = Behavioral analytics ; Doğrusal regresyon modelleri = Linear regression models ; Makine öğrenmesi yöntemleri = Machine learning methods
|
Onaylandı
Doktora
İngilizce
2022
158 s.
|
|
Bu tez, davranış analitiği ve nedensel çıkarımda büyük veri ve makine öğrenimi
yöntemlerinin kullanımına odaklanmaktadır. Tezin temel motivasyonu, geleneksel
ekonometrik yöntemlerle çalışan araştırmacıların büyük veri ve nedensel Makine
Öğrenmesi yöntemlerinden nasıl yararlanabileceğini göstermektir. Eğer bir konuda
kapsamlı bir literatür yoksa, doğru regresyon spesifikasyonunu bulmak, özellikle
yüksek boyutlu veri seti ile çalışırken zorlu bir iştir. Bu çalışmada nedensel Makine
Öğrenimi tekniklerini açıklanabilir Yapay Zeka yöntemleriyle birleştirdim ve heterojen
tretman etkilerinin doğru regresyon spesifikasyonu oluşturularak nasıl ölçüleceğine
dair kılavuzlar (yani, bir regresyonda hangi ana değişkenler ve etkileşim değişkenleri
kullanılacağı, hangi kontrol değişkenleri modele dahil edileceği) oluşturdum. Bu
yönergeleri ampirik olarak test etmek için, futbolda maç içi geri bildirimler, maça
özgü koşullar, takım özellikleri ve en önemlisi yönetici özellikleri hakkında ayrıntılı
değişkenler içeren büyük bir veri seti oluşturdum. Ortaya koyduğum ampirik kanıtlar,
futbol yöneticilerinin risk alma davranışlarının maç sırasında alınan geri bildirimlerden
ve maç öncesinde gözlemlenen bilgilerden ne zaman ve nasıl etkilendiğini göstererek
spor analitiği literatürüne katkıda bulunmaktadır. Ayrıca, bu tez, bilinen heterojen
tretman etkileri ile üretilen sentetik verileri kullanarak iyi bilinen iki nedensel Makine
Öğrenimi tekniğinin (Son zamanlarda popüler olan ve ortalama tretman etkilerini
bulmaya odaklanan FLAME ve doğrudan heterojen tretman etkilerini bulmaya çalışan Nedensel Orman) performanslarını değerlendirerek nedensel Makine Öğrenimi literatürüne katkıda bulunmaktadır.
Spor analitiğine ek olarak, eğitim verileriyle de çalıştım ve bilişsel olmayan bir beceri olan azmin öğrenciler için akademik başarıyı nasıl öngördüğünü gösterdim. Davranışsal bir azim ölçüsü oluşturmak için dijital bir öğrenme platformundan benzersiz bir veri kümesi kullandım ve davranışsal olarak ölçülen azmin, araştırmacılar tarafından geleneksel anketlerle ölçülen azim ölçüsüne kıyasla öğrenci performansının daha iyi bir prediktörü olduğunu gösterdim. Ayrıca, büyük verinin gücü sayesinde, makine öğrenimi algoritmalarının, herhangi bir yapısal model veya regresyon spesifikasyonu oluşturmadan bile akademik dayanıklılığı tahmin etmede iyi performans gösterdiğini buldum. Spor ve eğitimdeki vakalar üzerinde çalışarak elde ettiğim ampirik bulguların, nedensel çıkarım yapmak için geleneksel ve teoriye dayalı modellerle çalışan araştırmacıların Makine Öğrenimi ve büyük veriden sağlayabileceği faydaları açıkca ortaya koyduğuna inanıyorum.
|
|
This thesis focuses on the use of big data and machine learning methods in
behavioral analytics and causal inference. The main motivation of the thesis is to
illustrate how the researchers working with traditional econometric methods can
benefit from big data and causal ML methods. In the absence of well-established
literature, finding the right regression specification is a challenging task, especially
when working with high dimensional data set. In this study, I have combined
causal ML techniques with explainable AI methods and provided guidelines on how
to measure heterogeneous treatment effects with the right regression specification
(i.e. which main effects and interactions to be used, what control variables to be
included). To empirically test these guidelines, I have curated a large data set in
football including detailed variables about interim feedback, match-specific conditions,
team features, and most importantly manager characteristics. Empirical evidence
contributes to the sports analytics literature suggesting when and how risk-taking
behavior of football managers pays off in light of interim and ex-ante information
revealed to the manager (i.e. the decision maker). Moreover, this thesis contributes
to the causal ML literature by evaluating the performances of two well-known
causal ML techniques (a recently popular matching algorithm focusing on finding
average treatment effects (FLAME) and Causal Forest that directly aims to estimate heterogeneous treatment effects) are evaluated by using synthetic data generated with known heterogeneous treatment effects.
In addition to sports analytics, I have also worked with education data and
demonstrated how grit, a non-cognitive skill, predicts academic achievement for
students. I used a unique dataset from a digital learning platform to construct a
behavioral measure of grit and showed that behavioral grit is a better predictor of
student performance compared to survey grit that has been traditionally used by
the researchers. I have also found that machine learning algorithms perform well
in predicting academic resilience even without constructing any structural model or
regression specification, thanks to the power of big data. I believe that my findings
from cases in sports and education put forward the benefits of using Machine Learning
and big data for researchers working with traditional and theory-based models for causal inference. |