“X'te hata” modelleri neden daha yaygın olarak kullanılmıyor?


11

Bir regresyon katsayısının standart hatasını hesapladığımızda, X tasarım matrisindeki rastgeleliği hesaba katmıyoruz . Örneğin OLS olarak, hesaplama var(β^) olarak var((XTX)1XTY)=σ2(XTX)1

Eğer X rasgele kabul edildi, toplam varyansın kanunu, bir anlamda, varyansı ek katkı talep edeceğini X de. yani

var(β^)=var(E(β^|X))+E(var(β^|X)).

Hangi, OLS tahmincisi gerçekten tarafsızsa, beklenti sabit olduğu için ilk terim kaybolur. İkinci terim aslında şöyle olur: .σ2cov(X)1

  1. için bir parametrik model biliniyorsa, neden TX'i gerçek kovaryans tahmini ile değiştirmiyoruz . Örneğin, randomize tedavi atamasıysa, binom varyansı daha verimli bir tahmin mi olmalı?XXTXXE(X)(1E(X))

  2. Neden EKK tahmin in önyargı olası kaynakları tahmin etmek esnek parametrik olmayan modeller kullanarak düşünmüyoruz ve tasarımına duyarlılığı (yani dağılımı hesaba düzgün do birinci yasası-of-the toplam varyans vadede) ?Xvar(E(β^|X))


2
Bir matematiksel yasa neden bir şey "talep eder"? Belirli hedeflere ulaşmak için verilerle mantık yürütmek için bir model kullanıyoruz. O gözlemlenen veya ölçüm değeri bağlı olarak koşullu tepkiyi anlamak ya tahmin etmek olduğunda varyasyon X hiç (varsa) en asli soru ile ilgisi olurdu - aslında, bizim prosedürlerinde bu varyasyonu içeren görünüyor tamamen yanlış, yanıltıcı ve hatta saçma olmak. Bu nedenle, sorunuzu cevaplamak, farklı türde istatistiksel problemlerle karşılaşılan frekansları değerlendirmek gibi görünüyor. X,X
whuber

1
@whuber Benim odak noktam çıkarım. Toplam varyans yasası, çalışma sonuçlarının sıkça yorumlanmasıyla daha uyumlu görünmektedir. Sık sık "çalışma kopyalandıysa" hakkında konuşuruz ... çalışma çoğaltılırsa dağılımının farklı olabileceğini hesaba katmadan . Çalışmanın nasıl elde edildiğinin rastgele bir sonucu olarak cinsiyet dengesi bir örnekte% 40, diğerinde% 60 olabilir. İronik olarak, önyükleme bu yansıtır ama yok değil ortak değişkenler belirli bir kombinasyonu için sonuçlarda herhangi değişkenliği üretir. X
AdamO

2
Öncelikle, birçok çalışma deneysel kontrol altına aldı, bu yüzden rastgele bile değil. İkincisi, gözlemsel çalışmalar ( X'in rastgele olduğu yerlerde ) genellikle sadece Y'nin koşullu dağılımı hakkında çıkarımda bulunur . Dolayısıyla, çıkarım üzerine odaklanmak bir durumu diğerinden ayırmaz. Tam (ortak) dağılım ilgi gösterdiğinde, birçok insanın korelasyon analizi formlarına veya çeşitli çok değişkenli prosedürlere başvurduğunu göreceksiniz. "Önyükleme" diye bir şey yoktur, çünkü bu durumda nasıl yeniden örnekleme yapacağınız hedeflerinize ve modelinize bağlıdır. XXY.
whuber

1
@whuber Deney kontrolü , çalışmaya giriş noktasında rastgele atanır. Bahsettiğim gibi, bu zorlayıcı bir durumdur: diyelim ki randomizasyon Bernoulli. Neden ampirik bir tahminini kullanmalıyım ? Maksimum olasılık kullanın: cov ( X ) = E ( X ) ( 1 - E ( X ) ) ? Önyükleme konusunda haklısın, verilerin "satırlarının" değiştirilmesiyle örneklendiği parametrik olmayan (koşulsuz) önyüklemeden bahsediyordum. cov(X)=XTXcov(X)=E(X)(1-E(X))
AdamO

2
Özellikle, anormal durumların dışında, bu gerçekten önemli olmadığını gelmez varsa rastgele, hangi konularda olduğu ölçüm hatası içinde X 1 . Eğer öyleyse, OLS yöntemleri β 1 önyargılı ve düşük güçlü tahminlere yol açacaktır . Bu durumda, değişken yöntemlerindeki hatalar kullanılmalıdır. X1X1β1
gung - Monica'yı eski

Yanıtlar:


8

Sorunuz (artı yorumlardaki diğer yorumlar) çoğunlukla, araştırmacının bazı randomizasyon tasarımlarına dayanarak rasgele bir veya daha fazla açıklayıcı değişken atadığı randomize kontrollü bir çalışmamızla ilgileniyor gibi görünmektedir. Bu bağlamda, açıklayıcı değişkenleri neden rasgele değişkenliğin getirdiği örnekleme dağılımından rastgele değişkenler olarak ele almak yerine, bilinen sabitler olarak değerlendiren bir model kullandığımızı bilmek istersiniz. (Sorunuz bundan daha geniştir, ancak bu yorumdaki birincil ilgiye benziyor, bu yüzden ele alacağım.

Açıklayıcı değişkenler üzerinde koşullandırmamızın nedeni, bu bağlamda, bir RKÇ için bir regresyon probleminde , öngörücüler göz önüne alındığında, cevap değişkeninin koşullu dağılımı ile ilgilenmemizdir . Gerçekten de, bir randomize klinik biz belirlenmesi ile ilgili olarak nedensel etkileri açıklayıcı değişkeni X , yanıt değişkeni ile Y, biz (karıştırıcı önlemek için bazı protokoller tabi) koşullu dağılımı hakkında çıkarsama yoluyla tespit olacak. Rasgeleleştirme, açıklayıcı değişken X ile karıştırıcı olabilecek değişkenler arasındaki bağımlılığı kırmaya zorlanır (yani arka kapı ilişkilerini önler). XYX Bununla birlikte, problemdeki çıkarımın amacı , açıklayıcı değişkenler göz önüne alındığında, cevap değişkeninin koşullu dağılımıdır . Böylece, hala çıkarım için iyi özelliklere sahip tahmin yöntemlerine, bu koşullu dağılım parametreleri tahmin etmek mantıklı koşullu dağılımı .

Regresyon teknikleri kullanılarak bir RKÇ için geçerli olan normal durum budur. Tabii ki, başka çıkarlarımız olan bazı durumlar vardır ve açıklayıcı değişkenler hakkındaki belirsizliği de dahil etmek isteyebiliriz. Belirsizliği açıklayıcı değişkenlere dahil etmek genellikle iki durumda ortaya çıkar:

  • (1) Regresyon analizinin ötesine geçtiğimizde ve çok değişkenli analize girdiğimizde, ilk önce verilen ikincisinin koşullu dağılımı yerine açıklayıcı ve yanıt değişkenlerinin ortak dağılımı ile ilgileniyoruz . Bunun bizim ilgimiz olduğu uygulamalar olabilir ve bu yüzden regresyon analizinin ötesine geçip açıklayıcı değişkenlerin dağılımı hakkında bilgi eklerdik.

  • (2) Bazı regresyon uygulamalarında ilgimiz, gözlemlenen açıklayıcı değişkenlerin hataya tabi olduğunu varsaydığımız temelde gözlemlenmeyen bir açıklayıcı değişkene bağlı yanıt değişkeninin koşullu dağılımıdır ("değişkenlerdeki hatalar"). Bu durumda belirsizliği "değişkenlerdeki hatalar" ile birleştiririz. Bunun nedeni, bu vakalara olan ilgimizin, gözlemlenmeyen bir altta yatan değişkene bağlı koşullu dağılımda olmasıdır .

Bu durumların her ikisinin de matematiksel olarak regresyon analizinden daha karmaşık olduğunu unutmayın, bu nedenle regresyon analizini kullanarak kurtulabilirsek, bu genellikle tercih edilir. Her durumda, regresyon analizi uygulamalarının çoğunda amaç, gözlemlenebilir açıklayıcı değişkenler göz önüne alındığında, yanıtın koşullu dağılımı hakkında bir çıkarım yapmaktır, bu nedenle bu genellemeler gereksiz hale gelir.


Rasgeleleştirmenin karıştırıcı değişkenlerden rasgele değişkene nedensel etkiler yarattığını, ancak rasgele değişkenden karıştırıcı değişkenlere ve daha sonra yanıta olan nedensel etkileri azaltmadığına dikkat edin. Bu, nedensel bir analizde tüm arka kapı ilişkilerini tamamen kesmek için başka protokollerin (örn., Plasebolar, körleme, vb.) Gerekli olabileceği anlamına gelir.


2
Güzel cevap. Normal regresyon yönteminden daha fazla gauss değişkeni hatası ve gauss yanıtı hatası varsa AFAIK'i eklerim ve yalnızca a) hatasız bir yanıt b) farklı bir yanıt dağılımına sahipseniz sorun olur
Martin Modrák

2

"Değişkenlerdeki hatalar" başlığı ve sorunun içeriği farklı görünmektedir, çünkü koşullu yanıtı modellerken, yani regresyon parametreleri için çıkarımda X varyasyonunu neden dikkate almadığımızı sormaktadır . Bu iki kaygı bana dik görünüyor, bu yüzden burada içeriğe cevap veriyorum.

Daha önce benzer bir soruyu yanıtladım : Regresörlerin şartlandırılması ile bunların sabit olarak muamele edilmesi arasındaki fark nedir? , burada cevabımın bir kısmını oraya kopyalayacağım:

Bir şekilde resmen regresörlerin şartlandırılması için bir argüman ortaya koymaya çalışacağım. Let (Y,X) , bir rasgele vektör ve ilgi alanı regresyon olan Y ile X regresyon koşullu beklenti anlamında alınır, Y ile X . Çok doğrusal varsayımlar altında doğrusal bir işlev olacaktır, ancak argümanlarımız buna bağlı değildir. Eklem yoğunluğunu her zamanki gibi f ( y , x ) = f ( y x ) f ( x ) ile çarpanlarına ayırmaya başlarız

f(y,x)=f(yx)f(x)
ancak bu fonksiyonlar bir parametreli bir model kullanmak bu nedenle bilinmemektedir
f(y,x;θ,ψ)=fθ(yx)fψ(x)
θ koşullu dağılımı parameterizes ve ψ marjinal dağılımı X . Normal lineer modelde θ=(β,σ2) ancak bu varsayılmaz. Tam parametre alanı (θ,ψ) kartezyen bir ürünolanΘ×Ψ dırve iki parametrenin ortak bir parçası yoktur.

Xfψ(x)Yfθ(yX=x)θXθ

θfψ(x)xθθX=x

Tasarlanan deneylerde varsayımı çoğunlukla gözlemsel verilerle değil, çoğunlukla geçerli olacaktır. Sorunlara örnek olarak şunlar verilebilir: yordayıcı olarak gecikmeli yanıtlarla regresyon. Bu durumda öngörücüler üzerinde koşullandırma da cevabı koşullandıracaktır! (Daha fazla örnek ekleyeceğim).

§4.3


θXθXθ

Bu ayırım argümanı da yararlıdır çünkü kullanılamadığı durumlara işaret eder, örneğin yordayıcı olarak gecikmeli yanıtlarla regresyon.


1
XYθψ

PLS hakkında bilmiyorum, ama düşünmeye çalışacağım
kjetil b halvorsen

1
Güzel cevap! ...
Richard Hardy
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.