Regresyon analizinde veri oluşturma süreci ile model arasındaki fark nedir?


19

Regresyon analizinde 'veri oluşturma süreci' ve 'model' arasındaki fark nedir?


1
Veri oluşturma süreci asla bilinmemektedir, veri oluşturma sürecine yeterince yaklaşacağımızı ümit ederek modeli seçiyoruz. Bu olası cevaplardan biridir, daha fazla bağlam sağlamanız yardımcı olur, bu yüzden ne tür bir cevap aradığınız daha açıktır. Sohbete göz atın, şu anda devam eden dergi kulübü, bu sorunun gündeme getirildiği makaleyi tartışıyor.
mpiktas

3
Bu sorunun yanıtları olması gerektiği gibi değişecektir, çünkü hem "veri oluşturma süreci" hem de "model" çeşitli yazarlar tarafından çeşitli şekillerde kullanılmaktadır. @ Weijie, aklınızda belirli bir referans var mı?
whuber

Yanıtlar:


15

Teknik tanımı disiplinler arasında değişse de, hepimiz "model" in ne anlama gelebileceği konusunda iyi bir fikre sahibiz. Bunu DGP ile karşılaştırmak için, Google'ın "veri oluşturma süreci" nde ilk beş isabete (bir yazarla aynı yazarla iki isabet sayarak) baktım.

  1. ABD Hava Kuvvetleri'nin lojistik desteğinde gerçekte nasıl veri yarattığına dair bir makale

  2. Çevre ve Planlama A'da yayımlanan ve bilgisayar "simülasyon modelleri" ile "sentetik mikropopülasyonların" nasıl oluşturulduğuna dair bir bildiri .

  3. "Sentetik veri üretimi" konulu bir Web sayfası ; yani simülasyon "belirli veri özelliklerinin ... modeller üzerindeki etkilerini keşfetmek."

  4. Veri madenciliğinde bir konferans makalesinin özeti , "veritabanlarındaki veriler, temeldeki bir veri oluşturma sürecinin (dgp) sonucudur."

  5. Bir kitap bölüm gibi ilgi verileri karakterize eden "Bazı dönüşüm kaynaklanan bir altta yatan [stokastik] sürecin ... bazıları veya tamamı [bunların] gözlenmeyen olabilir ..."WtVt

Bu bağlantılar, "veri oluşturma süreci" teriminin biraz farklı ama yakından ilişkili üç kullanım sergiler. En yaygın olanı istatistiksel simülasyon bağlamındadır. Diğerleri, verilerin sürekli bir durumda (lojistik) yaratıldığı gerçek araçlara ve doğrudan analiz edilmemesi amaçlanan bir veri oluşturma prosedürü için bir olasılık modeline atıfta bulunur . Son durumda metin, yine de matematiksel olarak modellenen gözlemlenemeyen stokastik bir süreci, analiz edilecek gerçek sayılardan ayırmaktadır.

Bunlar iki farklı yanıtın uygulanabilir olduğunu gösteriyor:

  1. Simülasyon veya analiz için "sentetik" veri oluşturma bağlamında, "veri oluşturma süreci", genellikle bir bilgisayarın sahte rasgele sayı üreteci vasıtasıyla, sonraki çalışma için veri üretmenin bir yoludur. Analiz dolaylı olarak bu DGP'nin matematiksel özelliklerini tanımlayan bir model benimseyecektir.

  2. İstatistiksel analiz bağlamında, gerçek dünya fenomenini (DGP) analiz edilecek gözlemlerden ayırmak isteyebiliriz. Biz modelleri fenomen ve gözlemleri yanı sıra iki bağlanır nasıl bir model hem de.

Regresyonda, DGP normalde bir veri kümesinin = , üretildiği varsayılır. Örneğin , deneyci tarafından ayarlanabilir veya bir şekilde gözlemlenebilir ve daha sonra değerlerine neden olduğu veya bunlarla ilişkili olduğu varsayılabilir . Model , bu veriler matematiksel ilgili olabilir hangi yollardan tarif olur; örneğin , her nin beklenti ile rastgele bir değişken olduğunu söyleyebiliriz(X,Y)ben(X1ben,X2ben,...,Xpben,Yben)i=1,2,,nXjiYiYiXβ ve bilinmeyen parametreler için varyans ve .σ2βσ


"Sebep" veya "ilgili" kelimelerini yazıyorsunuz. Bununla ilgili bir sorum var. Cevabınızdan, DGP kavramının nedensellik anlamına gelmediği anlaşılıyor. Ancak bu "ilişki" korelasyondan (ya da herhangi bir ilişki türünden) başka bir şey mi, değil mi? Ayrıca bu ilgili soruma bakın: stats.stackexchange.com/questions/399671/…
markowitz

@markowitz "Korelasyon," kesinlikle, iki değişkenli rastgele değişkenin ikinci bir anını ifade eder. "İlgili" ı "istatistiksel olarak bağımsız değil" anlamında kullanıyorum.
whuber

Biliyorum ve tam da bu nedenle "ya da herhangi bir tür [sadece istatistiksel] birliktelik" dedim. Sorumu şu şekilde tekrarlayabilir miyim: Ancak bu "ilişki" çağrışımdan başka bir şey mi? Bazen DGP'nin eşanlamlısı olarak kullanılan "gerçek model" kavramından başlayarak, daha fazla bir şey gibi görünüyor. Eğer öyleyse, tam olarak ne olduğunu anlamıyorum. Önceki bağlantım bir örnek veriyor.
markowitz

@markowitz Korkarım ne sormaya çalıştığınızı anlamıyorum. Bunun nedeni, "ilişki" veya "ilişkilendirme" ile tam olarak ne demek istediğinizden emin olmadığım olabilir. Bağlantınıza baktım, ancak olağandışı İngilizce kullanımı benim için anlamlı bir şey ifade etmiyor.
whuber

İngilizcem için özür dilerim. Bağlantılı soruyu daha açık bir şekilde değiştirmeye çalıştım. Umarım anlaşılabilir bir durumdur.
markowitz

4

DGP gerçek modeldir. Model, doğanın gerçek durumunu temsil etmek için en iyi becerilerimizi kullanarak denedik. DGP "gürültü" den etkilenir. Gürültü birçok türde olabilir:

  1. Bir kerelik müdahaleler
  2. Seviye kaymaları
  3. Trendler
  4. Mevsimsellikteki Değişiklikler
  5. Model Parametrelerindeki Değişiklikler
  6. Varyanstaki Değişiklikler

Bu 6 maddeyi kontrol etmezseniz, gerçek DGP'yi tanımlama yeteneğiniz azalır.


4

Whuber'ın cevabı mükemmeldir, ancak verilerin istatistiksel olarak açık bir şekilde araştırılması için uygun bir model olması için istatistiksel bir modelin her açıdan veri üreten modele benzemesi gerekmemesine vurgu yapmaya değer. Liu ve Meng, bu noktayı arXived gazetelerinde son derece net bir şekilde açıklıyor ( http://arxiv.org/abs/1510.08539 ):

Yanlış anlama 1. Bir olasılık modeli verilerin oluşturulmasını tanımlamalıdır.

Modelin işinin (çıkarsama) daha uygun bir açıklaması “Böyle ve bu tür olasılıksal model, bizimkine benzeyen veriler üretir.” Mona Lisa'nın kopyalarını (yani kontrolleri) oluşturmak için kişinin da Vinci'yi getirmesine gerek yoktur. hayata dönme - bir kamera ve yazıcı çoğu amaç için yeterli olacaktır. Elbette, da Vinci'nin resim stili bilgisi, tıpkı gerçek veri oluşturma sürecinin bilimsel bilgisinin daha anlamlı kontroller tasarlamamıza yardımcı olması gibi kopyalarımızın kalitesini artıracaktır. Ancak belirsizlik miktarının belirlenmesi amacıyla, modelimizin işi benzer bir dizi kontrol belirtmektir (D,θ). Bu nokta hiçbir yerde bilinen (ancak oldukça karmaşık) bir deterministik paterni takip eden verileri tanımlamak için olasılıksal bir paternin kullanıldığı bilgisayar deneylerini içeren uygulamalardan daha açık değildir (Kennedy ve O'Hagan, 2001; Conti ve ark., 2009). Açıklayıcı bir modele ihtiyacımız var, mutlaka üretken bir modele değil. Bu konuda daha fazla bilgi için Lehmann (1990), Breiman (2001) ve Hansen ve Yu (2001) 'e bakınız.


+1. Özellikle tanımlayıcı ve üretken veri modelleri arasındaki ayrımı seviyorum .
whuber

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.