Regresyon analizinde 'veri oluşturma süreci' ve 'model' arasındaki fark nedir?
Regresyon analizinde 'veri oluşturma süreci' ve 'model' arasındaki fark nedir?
Yanıtlar:
Teknik tanımı disiplinler arasında değişse de, hepimiz "model" in ne anlama gelebileceği konusunda iyi bir fikre sahibiz. Bunu DGP ile karşılaştırmak için, Google'ın "veri oluşturma süreci" nde ilk beş isabete (bir yazarla aynı yazarla iki isabet sayarak) baktım.
ABD Hava Kuvvetleri'nin lojistik desteğinde gerçekte nasıl veri yarattığına dair bir makale
Çevre ve Planlama A'da yayımlanan ve bilgisayar "simülasyon modelleri" ile "sentetik mikropopülasyonların" nasıl oluşturulduğuna dair bir bildiri .
"Sentetik veri üretimi" konulu bir Web sayfası ; yani simülasyon "belirli veri özelliklerinin ... modeller üzerindeki etkilerini keşfetmek."
Veri madenciliğinde bir konferans makalesinin özeti , "veritabanlarındaki veriler, temeldeki bir veri oluşturma sürecinin (dgp) sonucudur."
Bir kitap bölüm gibi ilgi verileri karakterize eden "Bazı dönüşüm kaynaklanan bir altta yatan [stokastik] sürecin ... bazıları veya tamamı [bunların] gözlenmeyen olabilir ..."
Bu bağlantılar, "veri oluşturma süreci" teriminin biraz farklı ama yakından ilişkili üç kullanım sergiler. En yaygın olanı istatistiksel simülasyon bağlamındadır. Diğerleri, verilerin sürekli bir durumda (lojistik) yaratıldığı gerçek araçlara ve doğrudan analiz edilmemesi amaçlanan bir veri oluşturma prosedürü için bir olasılık modeline atıfta bulunur . Son durumda metin, yine de matematiksel olarak modellenen gözlemlenemeyen stokastik bir süreci, analiz edilecek gerçek sayılardan ayırmaktadır.
Bunlar iki farklı yanıtın uygulanabilir olduğunu gösteriyor:
Simülasyon veya analiz için "sentetik" veri oluşturma bağlamında, "veri oluşturma süreci", genellikle bir bilgisayarın sahte rasgele sayı üreteci vasıtasıyla, sonraki çalışma için veri üretmenin bir yoludur. Analiz dolaylı olarak bu DGP'nin matematiksel özelliklerini tanımlayan bir model benimseyecektir.
İstatistiksel analiz bağlamında, gerçek dünya fenomenini (DGP) analiz edilecek gözlemlerden ayırmak isteyebiliriz. Biz modelleri fenomen ve gözlemleri yanı sıra iki bağlanır nasıl bir model hem de.
Regresyonda, DGP normalde bir veri kümesinin = , üretildiği varsayılır. Örneğin , deneyci tarafından ayarlanabilir veya bir şekilde gözlemlenebilir ve daha sonra değerlerine neden olduğu veya bunlarla ilişkili olduğu varsayılabilir . Model , bu veriler matematiksel ilgili olabilir hangi yollardan tarif olur; örneğin , her nin beklenti ile rastgele bir değişken olduğunu söyleyebiliriz ve bilinmeyen parametreler için varyans ve .
DGP gerçek modeldir. Model, doğanın gerçek durumunu temsil etmek için en iyi becerilerimizi kullanarak denedik. DGP "gürültü" den etkilenir. Gürültü birçok türde olabilir:
Bu 6 maddeyi kontrol etmezseniz, gerçek DGP'yi tanımlama yeteneğiniz azalır.
Whuber'ın cevabı mükemmeldir, ancak verilerin istatistiksel olarak açık bir şekilde araştırılması için uygun bir model olması için istatistiksel bir modelin her açıdan veri üreten modele benzemesi gerekmemesine vurgu yapmaya değer. Liu ve Meng, bu noktayı arXived gazetelerinde son derece net bir şekilde açıklıyor ( http://arxiv.org/abs/1510.08539 ):
Yanlış anlama 1. Bir olasılık modeli verilerin oluşturulmasını tanımlamalıdır.
Modelin işinin (çıkarsama) daha uygun bir açıklaması “Böyle ve bu tür olasılıksal model, bizimkine benzeyen veriler üretir.” Mona Lisa'nın kopyalarını (yani kontrolleri) oluşturmak için kişinin da Vinci'yi getirmesine gerek yoktur. hayata dönme - bir kamera ve yazıcı çoğu amaç için yeterli olacaktır. Elbette, da Vinci'nin resim stili bilgisi, tıpkı gerçek veri oluşturma sürecinin bilimsel bilgisinin daha anlamlı kontroller tasarlamamıza yardımcı olması gibi kopyalarımızın kalitesini artıracaktır. Ancak belirsizlik miktarının belirlenmesi amacıyla, modelimizin işi benzer bir dizi kontrol belirtmektir (D,). Bu nokta hiçbir yerde bilinen (ancak oldukça karmaşık) bir deterministik paterni takip eden verileri tanımlamak için olasılıksal bir paternin kullanıldığı bilgisayar deneylerini içeren uygulamalardan daha açık değildir (Kennedy ve O'Hagan, 2001; Conti ve ark., 2009). Açıklayıcı bir modele ihtiyacımız var, mutlaka üretken bir modele değil. Bu konuda daha fazla bilgi için Lehmann (1990), Breiman (2001) ve Hansen ve Yu (2001) 'e bakınız.
DGP sanal gerçeklik ve simülasyon için eşsiz bir reçetedir. Bir model DGP'nin bir koleksiyonudur veya verilerin oluşturulmuş olabileceği olası yollardır.
Russell Davidson'un bu mini kursunun ilk sayfasını okuyun:
http://russell-davidson.arts.mcgill.ca/Aarhus/bootstrap_course.pdf