Her topluluk için ayrı regresyonlar yapmalı mıyım yoksa topluluk, toplu bir modelde kontrol eden bir değişken olabilir mi?


11

DV olarak sürekli varlık endeksi değişkenli bir OLS modeli çalıştırıyorum. Verilerim, birbirine yakın coğrafi yakınlıkta üç benzer topluluktan toplanıyor. Buna rağmen, toplumu kontrol eden bir değişken olarak kullanmanın önemli olduğunu düşündüm. Anlaşıldığı üzere, topluluk% 1 düzeyinde anlamlıdır (t-skoru -4.52). Topluluk, 3 farklı topluluktan 1'i için 1,2,3 olarak kodlanan nominal / kategorik bir değişkendir.

Sorum şu; bu yüksek derecede önem, bir topluluk olarak değil, topluluklar üzerinde bireysel olarak gerileme yapmam gerektiği anlamına geliyor. Aksi takdirde, topluluğu kontrol değişkeni olarak kullanmak esas olarak bunu yapıyor mu?


Hiyerarşik bir modeli toplulukla rastgele bir etki olarak kullanmak anlamlı olur mu? Topluluklar birincil kaygınız değil, değil mi? Hiyerarşik bir model kullanarak gücü paylaşırsınız.
Wayne

Yanıtlar:


14

Soru, ilgili üç modelin karşılaştırılmasını önermektedir. Karşılaştırmayı netleştirmek için bağımlı değişken olmasına izin verin, X { 1 , 2 , 3 } ' in geçerli topluluk kodu olmasını sağlayın ve X 1 ve X 2'yi sırasıyla 1 ve 2 topluluklarının göstergesi olarak tanımlayın . (Bu , topluluk 1 için X 1 = 1 ve topluluk 2 ve 3 için X 1 = 0 ; topluluk 2 ve X 2 için X 2 = 1 = X 2 = 0 anlamına gelirYX{1,2,3}X1X2X1=1X1=0X2=1X2=0 topluluk 1 ve 3 için)

Mevcut analiz aşağıdakilerden biri olabilir: ya

Y=α+βX+ε(first model)

veya

Y=α+β1X1+β2X2+ε(second model).

Her iki durumda da sıfır beklentisi ile aynı dağıtılmış bağımsız rastgele değişken bir grubunu temsil eder. İkinci model muhtemelen amaçlanan modeldir, ancak ilk model soruda açıklanan kodlamaya uyacaktır.ε

OLS regresyonunun çıktısı , hataların ortak varyansının bir tahmini ile birlikte bir dizi takılmış parametrelerdir (sembollerinde "şapkalar" ile gösterilir) . Birinci modelde karşılaştırmak üzere bir t-testi olup β için 0 . İkinci modelde iki t testi vardır: biri ^ β 1 ila 0'ı karşılaştırmak için ve diğeri ^ β 2 ila 0'ı karşılaştırmak için . Soru sadece bir t-testi rapor ettiğinden, ilk modeli inceleyerek başlayalım.β^0β1^0β2^0

Sonucuna sahip β önemli ölçüde farklı olduğu , 0 , biz bir tahmin yapmak için Y = E [ α + β X + ε ] = α + β X , herhangi bir toplum:β^0YE[α+βX+ε]α+βX

topluluk 1 için, ve tahmin a + β'ya eşittir ;X=1α+β

topluluk 2 için, ve tahmin, a + 2 β değerine eşittir ; veX=2α+2β

topluluk 3 için, ve tahmin, a + 3 equ değerine eşittir . X=3α+3β

Özellikle, ilk model topluluk etkilerini aritmetik ilerlemeye zorlar. Topluluk kodlaması, yalnızca topluluklar arasında ayrım yapmanın keyfi bir yolu olarak düşünülüyorsa, bu yerleşik kısıtlama aynı şekilde keyfi ve muhtemelen yanlıştır.

İkinci modelin öngörülerinin aynı ayrıntılı analizini yapmak öğreticidir:

Eden 1 için ve X, 2 = 0 , tahmin edilen değeri Y eşittir α + β 1 . özellikle,X1=1X2=0Yα+β1

Y(community 1)=α+β1+ε.

Eden 2 için, ve x 2 = 1 , tahmin edilen değeri Y eşittir α + β 2 . özellikle,X1=0X2=1Yα+β2

Y(community 2)=α+β2+ε.

Eden 3 için, , tahmin edilen değeri Y eşittir α . özellikle,X1=X2=0Yα

Y(community 3)=α+ε.

Üç parametre etkili bir şekilde ikinci modele beklenen üç değerini ayrı ayrı tahmin etme özgürlüğü verir . Y T-testleri (1) ; yani topluluk 1 ve 3 arasında fark olup olmadığı; ve (2) β 2 = 0 ; yani, 2 ve 3 toplulukları arasında bir fark olup olmadığı. Ayrıca, 2 ve 1 topluluklarının farklı olup olmadığını görmek için "kontrast" β 2 - β 1'i bir t-testi ile test edebiliriz: bu, farklılıklarının ( α + β 2 ) - ( α +β1=0β2=0β2β1 = β 2 - β 1 .(α+β2)(α+β1)β2β1

Şimdi üç ayrı regresyonun etkisini değerlendirebiliriz. Onlar olurdu

Y(community 1)=α1+ε1,

Y(community 2)=α2+ε2,

Y(community 3)=α3+ε3.

İkinci model, bu kıyaslayarak, görüyoruz ile kabul edilmelidir α + β 1 , a 2 ile kabul edilmelidir α + β 2 ve α 3 ile kabul edilmelidir a . Dolayısıyla, parametrelerin takılması esnekliği açısından, her iki model de eşit derecede iyidir. Ancak, bu modeldeki hata terimleriyle ilgili varsayımlar daha zayıftır. Bütün ε 1 bağımsız ve aynı şekilde dağılmış olmalıdır (iid); tüm ε 2 iid olmalı ve tüm ε 3 iid olmalı,α1α+β1α2α+β2α3αε1ε2ε3ancak ayrı regresyonlar arasındaki istatistiksel ilişkiler hakkında hiçbir şey varsayılmamaktadır. Ayrı regresyonlar bu nedenle ek esneklik sağlar:

  • En önemlisi, dağılımı bu farklı olabilir £ değerinin 2 bu farklı olabilir £ değerinin 3 .ε1ε2ε3

  • Bazı durumlarda, , ε j ile ilişkili olabilir . Bu modellerin hiçbiri bunu açıkça ele almaz, ancak üçüncü model (ayrı regresyonlar) en azından bundan olumsuz etkilenmeyecektir.εiεj

Bu ek esneklik, parametreler için t testi sonuçlarının muhtemelen ikinci ve üçüncü model arasında farklılık göstereceği anlamına gelir. (Ancak, farklı parametre tahminleriyle sonuçlanmamalıdır.)

Ayrı regresyonlara gerek olup olmadığını görmek için aşağıdakileri yapın:

İkinci modeli takın. Kalıntıları topluluğa karşı, örneğin bir dizi yan yana kutu grafik veya bir üçlü histogram veya hatta üç olasılık grafiği olarak çizin. Farklı dağılım şekillerine ve özellikle de oldukça farklı varyanslara dair kanıt arayın. Bu kanıt yoksa, ikinci model iyi olmalıdır. Varsa, ayrı regresyonlar gereklidir.

Modeller çok değişkenli olduğunda - yani, diğer faktörleri içerir - benzer (ancak daha karmaşık) sonuçlarla benzer bir analiz mümkündür. Genel olarak, ayrı regresyonların gerçekleştirilmesi, topluluk değişkeni ile tüm olası iki yönlü etkileşimleri (birinci modelde değil, ikinci modelde olduğu gibi kodlanır) dahil etmek ve her topluluk için farklı hata dağılımlarına izin vermekle aynıdır.


-3
  • model seçimi (IMHO) resim açıklamasını buraya girinönerilebilir. Karmaşık modeller (Ayrı eğim) daha fazla cezaya sahip olacağından, daha özlü ve daha kolay yorumlanabilir modeller "daha iyi" olacaktır.

1
Burada ne önerdiğinizi veya bu tablonun onunla nasıl ilgili olduğunu tam olarak açık değil.
Scortchi - Monica'yı eski durumuna döndürün
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.