Rasgele ve sabit etkiler arasındaki matematiksel fark nedir?


26

İnternette rastgele ve sabit etkilerin yorumlanmasıyla ilgili çok şey buldum. Ancak, aşağıdakileri sabitleyen bir kaynak bulamadım:

Rasgele ve sabit etkiler arasındaki matematiksel fark nedir?

Bununla modelin matematiksel formülasyonunu ve parametrelerin tahmin edilme yöntemini kastediyorum.


1
Eh, sabit etkiler eklem dağılımı ortalamasını etkiler ve rastgele etkiler varyans ve ilişkilendirme yapısını etkiler. "Matematiksel fark" la tam olarak ne kastediyorsunuz? Olasılığın nasıl değiştiğini mi soruyorsun? Daha spesifik olabilir misin?
Makro



1
Soru, çizildiği arkaplanı ayırt etmiyor gibi görünüyor. Panel Veri Ekonomisindeki bu terminoloji, Çok Düzeyli Modelleri kullanan diğer sosyal bilimlerden farklıdır. Soru daha fazla açıklama gerektirir. Aksi halde, bu, herhangi bir arka plandan buraya gelenler için, ilgili bir alanda alternatif bir tanım olduğunu bilmeden yanıltıcıdır.
luchonacho

Yanıtlar:


21

Rastgele etkilere sahip en basit model, dağıtım varsayımlarına sahip gözlemleriyle verilen tek yönlü ANOVA modelidir : ( y i j | μ i ) ~ IID N- ( μ i , σ 2 w ) ,ybenj

(ybenj|μben)~iidN-(μben,σw2),j=1,...,J,μben~iidN-(μ,σb2),ben=1,...,ben.

Burada rastgele etkiler . Rastgele değişkenlerdir, oysa sabit etkileri olan ANOVA modelinde sabit sayılardır.μben

Örneğin üç teknik her bir laboratuar ölçümleri bir dizi kaydeder ve olan teknisyen bir inci ölçüm . teknisyeni tarafından oluşturulan dizinin "gerçek ortalama değerini" çağırın ; Bu Gördüğünüz, biraz yapay bir parametredir teknisyen olduğu ortalama değer olarak o / o ölçümlerin büyük bir dizi kaydedildi tutulduğunda elde olurdu.y i j j i μ i i μ i iben=1,2,3ybenjjbenμbenbenμbenben

Eğer değerlendirirken ilgilenen varsa , , (değerlendirmek amacıyla örneğin önyargı operatörler arasındaki), o zaman sabit etkiler ile ANOVA modeli kullanmak zorunda.μ 2 μ 3μ1μ2μ3

ANOVA modelini , modeli tanımlayan ve varyansları ve toplam varyans değişkenleriyle ilgileniyorsanız, rastgele efektlerle kullanmanız (aşağıya bakınız). Varyans bir teknisyen tarafından üretilen kayıtların varyansını (tüm teknisyenler için aynı olduğu varsayılır) ve adlandırılır arası teknisyen varyans. Belki de ideal olarak, teknisyenler rastgele seçilmelidir. σ 2 b σ 2 b + σ 2 w σ 2 w σ 2 bσw2σb2 σb2+σw2σw2σb2

Bu model, bir veri numunesi için varyans formülünün ayrışmasını yansıtır: görüntü tanımını buraya girin

Toplam varyans = ortalamaların varyansı varyansların ortalamaları+

ANOVA modeli tarafından rastgele etkilerle yansıtılır: görüntü tanımını buraya girin

Aslında, dağılımı verilen koşullu dağılımı ve dağılımı ile . Eğer biri "koşulsuz" dağılımını hesaplarsa, o zaman . ( y i j ) μ i μ i y i j y i j ~ N ( μ , σ 2 b + σ 2 w )ybenj(ybenj)μbenμbenybenjybenj~N-(μ,σb2+σw2)

Daha iyi fotoğraflar için buraya slayt 24 ve slayt 25'e bakın (bindirmeleri takdir etmek için pdf dosyasını kaydetmeniz gerekir, çevrimiçi sürümü izlemeyin).


1
(+1) Çok güzel rakamlar!
amip diyor Reinstate Monica

1
Thank you @amoeba, atalet momentleri için kodum blogumda mevcut: stla.github.io/stlapblog/posts/Variance_inertia.html
Stéphane Laurent

Anlamadım. Çok sayıda teknisyen tarafından bir dizi ölçüm yapıldıysa neden bir ANOVA'ya ihtiyacım var? Her teknisyenin sonuçlarına sadece bir gauss uyduramaz ve her biri için ve alabilir miyim? Bunu çözme şekliniz ne yapmamı sağlıyor, hangi yolum değil? σμσ
TheChymera,

@ TheChymera ANOVA ortak bir varsayımıdır . Bu varsayımla daha kısa bir güven aralığı elde edersiniz. Ancak yorumunuz, farklı varyanslara sahip bir ANOVA'ya karşılık ortak varyansa sahip bir ANOVA kullanma nedenleriyle ilgili, bu gerçekten burada konu değil. σ
Stéphane Laurent

@ StéphaneLaurent Ortak bir varsayımı hangi ? - Ayrıca, bu ortak olduğu şeyler nelerdir? “Μ1, μ2, μ3'ü değerlendirmekle ilgileniyorsanız (örneğin operatörler arasındaki önyargıyı değerlendirmek için), ANOVA modelini sabit etkilerle kullanmanız gerekir. Sabit etkilere sahip ANOVA yönteminin formülü nedir ve sizi bilgilendirmeden sizi hakkında nasıl bilgilendirir ? Ayrıca, hesaplamak için gerekli tüm bilgileri sağlamadan size nasıl bir tahmini verebilir ? (ve rastgele etkiler modeli için tersi)σσμbenσb2μbenσw2
TheChymera

16

Temel olarak, bir faktörü rastgele olarak modellediğinizde bence en belirgin fark, etkilerin ortak bir normal dağılımdan kaynaklandığı varsayılıyor.

Örneğin, notlarla ilgili bir tür modeliniz varsa ve farklı okullardan gelen öğrenci verilerinizi hesaba katmak ve okulu rastgele bir faktör olarak modellemek istiyorsanız, bu, okul ortalamalarının normal olarak dağıldığını varsaydığınız anlamına gelir. Bu, iki çeşit varyasyon kaynağının modellenmesi anlamına gelir: öğrenci notlarının okul içi değişkenliği ve okul değişkenliği.

Bu kısmi havuzlama denilen bir şeyle sonuçlanır . İki uç noktayı göz önünde bulundurun:

  1. Okulun hiçbir etkisi yoktur (okul değişkenliği sıfırdır). Bu durumda, okulu hesaba katmayan lineer bir model en uygunudur.
  2. Okul değişkenliği, öğrenci değişkenliğinden daha büyüktür. O zaman temel olarak öğrenci seviyesi yerine okul düzeyinde çalışmanız gerekir (daha az # örnek). Bu temelde sabit etkileri kullanarak okulu hesaba katan modeldir. Okul başına birkaç örnek varsa, bu sorunlu olabilir.

Her iki seviyedeki değişkenliği tahmin ederek karma model bu iki yaklaşım arasında akıllı bir uzlaşma sağlar. Özellikle, okul başına o kadar büyük bir öğrenciniz yoksa, bu, her bir okulun etkilerini, model 2 tarafından tahmin edildiği gibi, model 1'in genel ortalamasına göre küçüleceğiniz anlamına gelir.

Bunun nedeni, modellerin, iki öğrenci içeren bir okulunuz varsa, okul nüfusu için "normal" den daha iyi olan bir dersiniz varsa, bu etkinin bir kısmının seçimde şanslı olan okul tarafından açıklanması muhtemel olduğunu söylemesidir. iki öğrenciden baktı. Bunu kör etmez, okul içindeki değişkenliğin tahminine bağlı olarak yapar. Bu aynı zamanda daha az örneklemli etki seviyelerinin genel ortalamaya doğru büyük okullardan daha fazla çekildiği anlamına gelir.

Önemli olan rastgele faktör seviyelerinde değiş tokuş edilebilirliğe ihtiyaç duymanızdır. Bu, bu durumda, okulların (sizin bilginizden) değiştirilebildiği ve onları ayırt edecek hiçbir şey bilmediğiniz anlamına gelir (bir tür kimlik dışında). Ek bir bilginiz varsa, bunu ek bir faktör olarak dahil edebilirsiniz, okulların muhasebeleştirilen diğer bilgilere bağlı olması şarttır.

Örneğin, New York'ta yaşayan 30 yaşındaki yetişkinlerin cinsiyete bağlı olarak değişebilir olduğunu varsaymak mantıklı olacaktır. Daha fazla bilgiye sahipseniz (yaş, etnik köken, eğitim) bu bilgiyi de dahil etmek mantıklı olacaktır.

OTH, bir kontrol grubuyla ve çılgınca üç farklı hastalık grubuyla çalıştıysanız, spesifik hastalık değişmez olmadığından, grubun rastgele olarak modellenmesi mantıklı değildir. Bununla birlikte, birçok kişi büzülme efektini o kadar iyi sever ki, yine de rastgele bir etki modeli için tartışacaklardır, ancak bu başka bir hikaye.

Matematiğe çok fazla giremediğimi farkettim, ancak temelde fark, rastgele etkiler modelinin hem okullar hem de öğrenciler düzeyinde normal dağılmış bir hata tahmin ettiği, ancak sabit etki modelinin sadece hata yaptığı öğrencilerin seviyesi. Özellikle bu, her okulun diğer seviyelere ortak bir dağıtımla bağlı olmayan kendi seviyesine sahip olduğu anlamına gelir. Bu aynı zamanda, sabit modelin orijinal verilere dahil edilmemiş bir okul öğrencisine ekstrapolasyona izin vermediği anlamına gelirken, rastgele etki modeli bunu yapar ve öğrenci düzeyinin ve okul seviyesi değişkenliğinin toplamı olan bir değişkenlik gösterir. Özel olarak ilgileniyorsanız, bunun içinde çalışabiliriz.


1
(+1) Şaşırtıcı derecede düşük oyla verilen harika bir cevap. Kafa karıştırıcı bir yazım hatası farkettim: "hariç", "dahil" ifadesini okumalıdır. Bunun dışında: okulu rastgele veya sabit etki olarak değerlendirmek arasında beklenen pratik fark ne olurdu ? Sabit olarak davranmanın, yeni bir okuldan gelen öğrenci performansını tahmin etmesine izin vermeyeceğini biliyorum, fakat mevcut verilerdeki farklılıklar ne olacak? Diyelim ki diğer sabit etkiler öğrencilerin cinsiyeti, ırkı ve kilosu (her neyse). Okulu rastgele / sabit olarak görmek, ana etkilerin gücünü veya ilgilenilen etkileşimleri etkiler mi? Başka fark var mı?
amip diyor Reinstate Monica

3
@amoeba Tutarlılığı bir kenara bırakmak suretiyle, öğrenci seviye katsayısı üzerindeki MSE, öğrenci X ile rasgele etki, küme sayıları, vb. . Clark ve Linzer 2012 simülasyon sonuçları vardır.
conjugateprior

1
@conjugateprior Vay, bu yorum için çok teşekkürler! Bağlantılı kağıdı okudum ve gördüğüm konuyla ilgili en net açıklama bu. Sabit / rastgele etkiler hakkında CV'de çeşitli konuları okumak için önemli miktarda zaman harcadım, ancak birinin ne zaman birbiri ardında kullanılması gerektiğini ve nedenini çözemedik. C&L okumak benim için çok daha net şeyler yaptı. Bu ve / veya ilgili makalelerin özetini sunan CV üzerine bir yerde bir cevap yazmak ister misiniz? En çok oy alan [karma model] iş parçacığında bir ödül alıyorum ve size orada bir tane daha vermekten mutluluk duyacağım.
amip diyor Reinstate Monica

@Erik, "kısmi öğretimi" düzeltmek için "kısmi havuzu" düzenlemiştim. Bir yazım hatası olduğunu düşünüyorum ama amaçlanan bir pun ise özür dilerim!
amip diyor Reinstate Monica

2

Ekolojik arazide, bu tür etkiler gözlemlenmemiş, ancak panel verileri kullanılarak tahmin edilebilir (zaman içinde aynı birimler üzerinde tekrarlanan gözlem). Sabit etki kestirimi yöntemi, birime özgü yakalamalar ve bağımsız açıklayıcı değişkenler arasında korelasyon sağlar. Rastgele etkiler yapmaz. Daha esnek olan sabit etkileri kullanmanın maliyeti, zamanla değişmeyen değişkenler (cinsiyet, din veya ırk gibi) üzerindeki katsayının tahmin edilememesidir.

Not: Diğer alanların kendi terminolojileri vardır ve kafa karıştırıcı olabilir.


(-1) bu, sabit ve rastgele etkiler arasındaki matematiksel fark hakkında hiçbir şey söylemez
Makro

1
@Macro Anlaşıldı. Bu ortaya çıkmadan önce, ekon terminolojisinin OP'nin aradığı şey olup olmadığını bilmek faydalı olacaktır. Bu konuda daha net olmalıydım.
Dimitriy V. Masterov

TAMAM. Bu durumda, bu bir yorum olarak daha uygun olabilir, öyle değil mi?
Makro

"Daha esnek sabit efektleri kullanmanın maliyeti, zamanla değişmeyen değişkenlerin katsayısını tahmin edemezsiniz" ifadesi doğru değildir. Bireyler üzerinde ölçümleri tekrar yaptığınız ve zamanla değişmeyen tek bir ikili tahmin yapan bir simülasyon yaptım. Eğer ID için bir tane ve ikili tahmin için bir tane eklerseniz, kesinlikle kesinlikle ikili hesaplama üzerinde katsayıyı tahmin edebilirsiniz (yine de, kabul ediyorum ki, çok fazla tekrarlanan ölçümünüz yoksa, tahminin bir büyük standart hata).
Makro

3
Andrew Gelman (ekonomist olmayan), ANOVA makalesinde 5 farklı tanım listeliyor: stat.columbia.edu/~gelman/research/published/banova7.pdf .
Dimitriy V. Masterov

2

Standart bir yazılım paketinde (örneğin R'ler lmer) temel fark şudur:

  • sabit etkiler maksimum olabilirlik ile tahmin edilir (doğrusal bir model için en küçük kareler)
  • rastgele etkiler ampirik Bayes tarafından tahmin edilir (en küçük olasılıkla büzülme parametresinin seçildiği doğrusal model için bazı büzüşmeli kareler)

Eğer Bayesian iseniz (örneğin WinBUGS), o zaman gerçek bir fark yoktur.


3
Hiçbir fark olmadığı konusunda hemfikirim. Ayrı önceliğe sahip tüm katsayıları olan bir bayesyen sabit etkiler modeline ya da hiperparametrelerin bulunduğu bir bayesyen karışık modeline uyabilirsiniz.
Erik

Bayesian iseniz fark bu gibi görünüyor .
conjugateprior,

@Simon doğru ve gevrek bir cevaptır. Bunu çoktan söylemeliydim
Subhash C. Davar,

-3

@Joke Sabit etkiler modeli, bir çalışma (veya deneme) tarafından oluşturulan etki büyüklüğünün sabit olduğunu, yani bir müdahale için ölçümleri tekrarlamanın aynı etki büyüklüğünü ortaya çıkardığını belirtir. Muhtemelen, deney için dış ve iç koşullar değişmez. Farklı şartlar altında bir takım denemeleriniz veya çalışmalarınız varsa, farklı efekt boyutlarına sahip olacaksınız. Bir dizi etki büyüklüğü için ortalama ve varyansın parametrik tahminleri, bunların sabit etkiler olduğunu ya da bunların rasgele etkiler olduğunu varsaymak suretiyle gerçekleştirilebilir (bir süper popülasyondan gerçekleştirilir). Matematiksel istatistiklerin yardımı ile çözülebilecek bir mesele olduğunu düşünüyorum.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.