Sabit efekt, rastgele efekt ve karma efekt modelleri arasındaki fark nedir?


267

Basit bir ifadeyle, sabit etki, rastgele etki ve karma etki modelleri arasındaki farkı nasıl açıklarsınız (belki de basit örneklerle)?


3
Ayrıca, bir etkinin ne zaman sabit veya rastgele etki olarak kabul edilmesi gerektiğini belirlemek bazen zor olduğunu da bulurum. Ancak bu konuda bazı öneriler var, doğru kararı almak her zaman kolay değildir.
Manuel Ramón

3
Bu bağlantının, karışık modellerin altında yatan prensiplerini açıklamada yardımcı olabileceğini düşünüyorum: Sabit, Rastgele ve Karışık Modeller (SAS belgeleri) .
pietrop

6
Burada son derece yararlı bir cevap da bulunabilir: Rasgele etkiler, karışık etkiler ve marjinal model arasındaki fark nedir?
gung

Yanıtlar:


145

İstatistikçi Andrew Gelman , “sabit etki” ve “rastgele etki” terimlerinin , kimin kullandığına bağlı olarak değişken anlamları olduğunu söylüyor. Belki de 5 tanımdan hangisinin sizin durumunuz için geçerli olduğunu seçebilirsiniz. Genel olarak, yazarların kullandığı olasılık modelini tanımlayan denklemleri aramak (okurken) veya kullanmak istediğiniz tam olasılık modelini (yazarken) yazmak daha iyi olabilir.

Burada gördüğümüz beş tanımları özetledik:

  1. Sabit etkiler bireyler arasında sabittir ve rastgele etkiler değişkenlik gösterir. Örneğin, bir büyüme çalışmada rasgele kesişir ile örnek ve sabit eğimli farklı bireyler için paralel çizgiler tekabül , ya da model . Kreft ve De Leeuw (1998) böylece sabit ve rastgele katsayıları birbirinden ayırır. b ı y ı t = bir i + b taibiyit=ai+bt

  2. Etkiler kendileri ile ilgiliyse ya da altta yatan popülasyona ilgi varsa rastgele ise sabitlenir. Searle, Casella ve McCulloch (1992, Bölüm 1.4) bu ayrımı derinlemesine araştırıyor.

  3. “Bir örnek popülasyonu tükettiğinde, karşılık gelen değişken sabittir; Örnek popülasyonun küçük (yani, önemsiz) bir parçası olduğunda, karşılık gelen değişken rastgeledir. ”(Green ve Tukey, 1960)

  4. “Bir etkinin rastgele bir değişkenin fark edilen bir değeri olduğu varsayılırsa, buna rastgele bir etki denir.” (LaMotte, 1983)

  5. Sabit etkiler, en küçük kareler (veya daha genel olarak en yüksek olabilirlik) kullanılarak tahmin edilir ve rastgele etkiler, küçülme ile tahmin edilir (Robinson, 1991 terminolojisinde “doğrusal yansız tahmin”). Bu tanım çok düzeyli modelleme literatüründe standarttır (bakınız, örneğin, Snijders ve Bosker, 1999, Bölüm 4.2) ve ekonometride.

[ Gelman, 2004, Varyans Analizi - neden her zamankinden daha önemli? İstatistiklerin Annals. ]


4
+1: çok güzel bağlantı! Sanırım tanım da alana bağlı olarak değişiyor (ör. # 4, çok matematiksel / istatistiksel, ancak # 1 ve # 2, yaşam bilimleri açısından daha "anlaşılabilir")
nico

12
Ayrıca, bu makalenin Tartışma ve Yeniden Okumasını okumak da bilgilendiricidir. Tartışmada Peter McCullagh, Gelman'ın yazdıklarının önemli bir kısmını kabul etmediğini yazdı. Demek istediğim, birini veya diğerini desteklememek değil, uzmanlar arasında ciddi bir anlaşmazlık olduğunu ve bir kağıda çok fazla ağırlık koymamak olduğunu belirtmek.
julieth

6
Tüm tartışma bağlantıda
julieth

36
Andrew Gelman’ın bugün dünyanın en önde gelen istatistikçilerinden biri olarak değil “blogcu” olarak tanımlanması komik. Elbette bir blog yazarı olmasına rağmen, herhangi bir niteleyicinin kullanılması durumunda muhtemelen "İstatistikçi Andrew Gelman" olarak adlandırılması gerekir.
Brash Dengesi

4
Ancak bir istatistikçi olarak ve sadece bir fantezi blogcusu değil, beş vaka kullanımının en azından öznel göreceli sıklıklarını koyması gerekirdi. İnsanlar sabit etkiler vs rastgele etkiler hakkında konuştuğunda, çoğu zaman demek istedikleri:(4) “If an effect is assumed to be a realized value of a random variable, it is called a random effect.” (LaMotte, 1983)
Ufos

251

Gelman ve Hill gibi güzel kitaplar var . Aşağıdaki, esasen bakış açılarının bir özetidir.

Öncelikle, terminolojiye fazla kapılmamalısınız. İstatistiklerde, jargon asla modellerin kendisinin matematiksel bir anlayışının yerine kullanılmamalıdır. Bu, özellikle rastgele ve karışık etki modelleri için geçerlidir. “Karışık” sadece modelin hem sabit hem de rastgele etkileri olduğu anlamına gelir, bu yüzden sabit ile rasgele arasındaki farka odaklanalım.

Sabit Etkilere Karşı Rastgele

Diyelim ki gözlemlerinizi kategori değerlerine göre gruplara ayıran kategorik bir tahminciye sahip bir modeliniz var. * Bu tahminciyle ilişkilendirilen model katsayıları veya "etkiler" sabit veya rastgele olabilir. İkisi arasındaki en önemli pratik fark şudur:

Rastgele etkiler kısmi havuzda tahmin edilirken sabit etkiler değildir.

Kısmi havuzlama, bir grupta az sayıda veri puanınız varsa, grubun etki tahmininin kısmen diğer gruplardan daha bol miktarda bulunan verilere dayanacağı anlamına gelir. Bu, grup düzeyindeki farklılıkları maskeleyen tüm grupları tamamen havuzlayarak bir etkiyi tahmin etmek ve düşük örneklem grupları için kötü tahminler verebilecek olan tüm gruplar için bir etkisi tamamen ayrı ayrı tahmin etmek arasında güzel bir uzlaşma olabilir.

Rastgele etkiler kısmi havuzlama tekniğinin genel amaçlı bir istatistiksel model olarak genişletilmesidir. Bu, fikrin ilkeli olarak çoklu öngörücüler, karışık sürekli ve kategorik değişkenler ve karmaşık korelasyon yapıları dahil olmak üzere çok çeşitli durumlara uygulanmasını sağlar. (Ancak büyük bir güçle birlikte büyük sorumluluk alır: modelleme ve çıkarımın karmaşıklığı büyük ölçüde artmıştır ve kaçınılması gereken çok fazla karmaşıklık gerektiren ince önyargılara yol açabilir .)

Rastgele etkiler modelini motive etmek için kendinize sorun: neden kısmi bir havuz istiyorsunuz? Muhtemelen, çünkü küçük alt grupların ortak bir ortalama etkiye sahip daha büyük bir grubun parçası olduğunu düşünüyorsunuz. Alt grup, büyük grup ortalamasından biraz sapma gösterebilir, ancak isteğe bağlı bir miktarda değil. Bu fikri resmileştirmek için, sapmaların tipik olarak Gaussian bir dağılım izlediğini düşünüyoruz. Rastgele etkilerde "rastgele" nin geldiği yer: alt grupların bir ebeveynden sapmalarının rastgele bir değişkenin dağılımını takip ettiğini varsayıyoruz. Bu fikri aklınıza geldiğinde, karışık etkiler model denklemleri doğal olarak takip eder.

Ne yazık ki, karma efekt modellerinin kullanıcıları genellikle rastgele etkilerin ne olduğu ve sabit etkilerden nasıl farklı oldukları hakkında yanlış önyargılara sahiptir. İnsanlar "rastgele" duyuyorlar ve sistemin modellenmesi konusunda çok özel bir şey ifade ediyorlar, sanki bir şey "sabit" olduğunda sabit etkiler kullanılmalıyken, rastgele etkiler "bir şey rastgele örneklendiğinde" kullanılmalı. Ancak, model katsayılarının bir dağılımdan geldiğini varsaymak konusunda özellikle rastlantısal hiçbir şey yoktur; sadece sırt regresyonundaki model katsayılarına uygulanan cezasına benzeyen yumuşak bir kısıtlamadır . Rasgele efektler kullanmak isteyebileceğiniz veya istemeyeceğiniz birçok durum vardır ve bunların "sabit" ve "rasgele" arasındaki ayrımla ilgisi yoktur.2

Ne yazık ki, bu terimlerin neden olduğu kavram karışıklığı , birbiriyle çelişen tanımların bolluğuna yol açmıştır . Bu bağlantıdaki beş tanımdan sadece 4'ü genel durumda tamamen doğrudur, fakat aynı zamanda tamamen bilgilendirici değildir. Bu tanımın pratik çalışmalarda ne anlama geldiğini anlamak için tüm makaleleri ve kitapları (ya da bu yazıyı yazmamak) okumalısınız.

Örnek

Rasgele etki modellemenin yararlı olabileceği bir duruma bakalım. Ortalama ABD hanehalkı gelirini ZIP kodu ile tahmin etmek istediğinizi varsayalım. Hane halkının gelirlerini ve ZIP kodlarını içeren geniş bir veri setine sahipsiniz. Bazı ZIP kodları veri setinde iyi temsil edilir, ancak bazılarının sadece birkaç hanesi vardır.

İlk modeliniz için büyük olasılıkla her ZIP'deki ortalama geliri elde edersiniz. Bir ZIP için çok veriye sahip olduğunuzda bu işe yarar, ancak kötü örneklenmiş ZIP'leriniz için yapılan tahminler büyük farklılıklar gösterir. Bunu, tüm ZIP kodları boyunca ortalama gelire doğru aşırı değerleri zorlayacak bir büzülme tahmincisi (kısmi havuz) kullanarak hafifletebilirsiniz.

Fakat belirli bir ZIP için ne kadar büzülme / havuzlama yapmalısınız? Sezgisel olarak, aşağıdakilere bağlı olmalıdır:

  1. Bu ZIP’de kaç gözleminiz var?
  2. Genel olarak kaç gözleminiz var?
  3. Bireysel düzeyde tüm posta kodları arasında ortalama ve hane geliri varyansı
  4. Grup düzeyinde tüm posta kodları arasında ortalama hane geliri içinde varyans

ZIP kodunu rastgele bir etki olarak modellerseniz, tüm ZIP kodlarındaki ortalama gelir tahmini, yukarıdaki tüm faktörleri göz önünde bulundurarak istatistiksel olarak iyi kurulmuş bir büzülmeye maruz kalır.

En iyi bölüm, rastgele ve karışık efekt modellerinin, modeldeki tüm rastgele etkiler için değişkenlik tahmini olan otomatik olarak (4) işlemesidir. Bu ilk bakışta göründüğünden daha zordur: Her ZIP için örnek ortalamasının varyansını deneyebilirsiniz, ancak bu yüksek önyargılı olacaktır, çünkü farklı ZIP'lerin tahminleri arasındaki varyansın sadece örnekleme varyansıdır. Rastgele etkiler modelinde, çıkarım işlemi örnekleme varyansını açıklar ve varyans tahminini buna göre küçültür.

(1) - (4) 'ü hesaba katarak rastgele / karışık etkiler modeli, düşük örneklem grupları için uygun büzülmeyi belirleyebilir. Ayrıca birçok farklı öngörücü içeren çok daha karmaşık modelleri de kullanabilir.

Hiyerarşik Bayesian Modellemesi İlişkisi

Bu size hiyerarşik Bayesian modellemesi gibi geliyorsa, haklısınız - bu yakın bir akraba ama aynı değil. Karışık efekt modelleri gizli, gözlenmeyen parametreler için dağılımlar oluşturdukları için hiyerarşiktir, ancak genellikle tam olarak Bayesian değildir, çünkü üst seviye hiperparametrelere uygun öncelikler verilmeyecektir. Örneğin, yukarıdaki örnekte, belirli bir ZIP’deki ortalama geliri normal dağılıma ait bir örnek olarak ele alacağız, bilinmeyen ortalama ve sigma karışık etkiler takma işlemiyle tahmin edilebilir. Bununla birlikte, (Bayesian olmayan) bir karma efekt modeli genellikle bilinmeyen ortalama ve sigma üzerinde bir önceliğe sahip olmayacak, bu yüzden tam olarak Bayesian değil. Bununla birlikte, düzgün bir veri setiyle, standart karışık efektler modeli ve tamamen Bayesian varyantı çoğu zaman çok benzer sonuçlar verecektir.

* Bu konuyla ilgili pek çok tedavi, "grup" un dar bir tanımına odaklanırken, konsept aslında çok esnektir: bu sadece ortak bir mülkü paylaşan bir dizi gözlemdir. Bir grup, tek bir kişinin veya bir okuldaki birden fazla kişinin veya bir bölgedeki birden fazla okulun birden fazla gözleminden veya tek bir meyve türünün birden fazla çeşidinden veya aynı hasattan elde edilen birden fazla sebze türünden veya birden fazla hasattan oluşabilir. Aynı tür sebzelerden vb. Herhangi bir kategorik değişken gruplama değişkeni olarak kullanılabilir.


19
6. Bence şu anda bu konudaki en iyi cevap bu ve umarım zamanla en çok oylanan cevap haline gelecektir. Yapacağım bir öneri, bazı formüller eklemektir: belki de Örnek bölümünüzde sabit ve rastgele etki modellerini (ve belki de "tek katsayılı" modeli, yani "tam havuza sahip olanı" belirten formüller belirleyebilirsiniz. "). Bence formüller cevabınızı hem daha net hem de daha çekici / çekici hale getirecek (şu anda biraz metin duvarı gibi görünüyor).
amip,

3
@ amoeba teşekkürler! Katsayıların yanlış kelime olduğu konusunda haklısın, katsayıdan çok "model terimi" gibi. Formüller bu ve diğer soruları gidermeye yardımcı olur. Bu cevabı zaman ve ilham kaynağı olarak yavaşça değiştiriyorum ve gitmesi gereken yere gelinceye kadar yapmaya devam edeceğim! Muhtemelen "tek bir kategorik değişkene karşı regresyon" formüllerini temizleyeceğim. Tam havuzlama = grup katsayıları aynıdır (delta öncesi, sıfır sigma), kısmi havuzlama = biraz farklı olabilir (sonlu sigma), havuz yok = kısıt yok (sonsuz sigma).
Paul,

Harika cevap için teşekkürler! Ancak, sizi "Bütün posta kodları arasındaki ortalama gelire doğru aşırı değerleri zorlayacak bir daraltıcı tahmincisi (yani kısmi havuzda tutma) kullanarak hafifletebilirsiniz." Kısmi havuzlama nedir? Sezgisel bir örnek verebilir misiniz? Ayrıca, rastgele etkiler hakkındaki Wikipedia sayfası , söylediklerinize nasıl katılıyor? Onların "rastgele etki" örneği, örneklem boyutlarını hiçbir şekilde dikkate almaz.
AlphaOmega

2
Bu cevap için 100 olumlu oyu geçtiğiniz için tebrikler :-)
amoeba

1
@Paul Gerçekten bu cevabı nasıl birleştireceğimi anlamakta zorlanıyorum (örneğin, "İnsanlar ... düşünüyorum ... bir şey" sabit "olduğunda sabit efektler kullanılırken, rastgele efektler bir şey" rastgele örneklenirken kullanılmalıdır ") ") standart hataların karışık modellerde ortaya çıktığını gördüklerimde, rastgele etkilenen SE'lerin bana sadece rastgele örneklenmiş oldukları varsayımıyla tutarlı göründüğü, ve eğer sabitse, sabit etkilere sahip SE'ler Örneğin, burada bakınız .. Neyi özlüyorum? Herhangi bir düşüncenin ötesinde, takdir ediyorum !!
sadece

47

Bu konuda karma modellerle ilgili bir kitap bölümünde yazdım ( Fox, Negrete-Yankelevich ve Sosa 2014'te 13. bölüm ); ilgili sayfalar (s. 311-315) Google Kitaplar'da mevcuttur . Sanırım soru "sabit ve rastgele etkilerin tanımları nelerdir?" (bir "karma model" sadece her ikisini de içeren bir modeldir). Tartışmam, resmi tanımları hakkında biraz daha az (bunun için yukarıda @ JohnSalvatier'in cevabı ile bağlantılı Gelman belgesini erteleyeceğim) ve pratik özellikleri ve faydaları hakkında daha az şey söylüyor. İşte bazı alıntılar:

Rasgele etkilerin geleneksel görüşü, bazı gözlemler ilişkilendirildiğinde doğru istatistiksel testleri yapmanın bir yoludur.

Ayrıca rastgele etkileri, bir gruplama değişkeni içindeki farklı seviyelerdeki bilgileri birleştirmenin bir yolu olarak düşünebiliriz.

Rastgele etkiler özellikle (1) çok seviye (örneğin, birçok tür veya blok), (2) her seviyede göreceli olarak az veri bulunduğunda (seviyelerin çoğundan birden fazla örneğe ihtiyacımız olmasına rağmen) ve (3) dengesiz olduğu durumlarda faydalıdır seviyeler arasında örnekleme (kutu 13.1).

Frekansaristler ve Bayesanlar rastgele efektleri biraz farklı tanımlamış, bu da onları kullanma şeklini etkilemektedir. Sık görüşmeler, rastgele etkileri, daha büyük bir popülasyondan düzeyleri rasgele seçilen kategorik değişkenler olarak tanımlar.örneğin endemik türler listesinden rastgele seçilen türler. Bayesliler rastgele efektleri, parametreleri [tümü] dağılımından çizilmiş olan değişken kümeleri olarak tanımlarlar. Sık tanım, felsefi olarak uyumludur ve üzerinde ısrar eden araştırmacılarla (hakemler ve denetçiler dahil) karşılaşırsınız, ancak pratik olarak sorunlu olabilir. Örneğin, tarla sitenizdeki türlerin tümünü gözlemlediğinizde türlerin rastgele etki olarak kullanamayacağınız anlamına gelir - türlerin listesi daha büyük bir popülasyondan bir örnek olmadığından - veya yılı rastgele bir etki olarak kullanırsanız, Araştırmacılar rastgele örneklenmiş yıllarda nadiren deney yaparlar - genellikle bir dizi ardışık yıl ya da alana girebilecekleri yıllar süren gelişigüzel yıllarını kullanırlar.

Rastgele etkiler ayrıca, belirli seviyeler arasındaki değer farklılıklarını test etmek yerine, değerlerin dağılımı (yani, farklı seviyelerde yanıtın değerleri arasındaki fark) ile ilgili çıkarımlar yapmakla ilgilendiğiniz yordayıcı değişkenler olarak da tanımlanabilir.

İnsanlar bazen rastgele etkilerin “ilgilenmediğin faktörler” olduğunu söyler. Bu her zaman doğru değildir. Genellikle ekolojik deneylerde söz konusu olsa da (bölgeler arasındaki varyasyonun sadece bir sıkıntı olduğu durumlarda), örneğin, genotipler arasındaki varyasyonun doğal seleksiyon için hammadde olduğu veya evrimsel çalışmalarda veya demografik çalışmalarda büyük ilgi çekmektedir. yıl içindeki değişimin uzun vadeli büyüme oranlarını düşürdüğü yerlerde. Bazı durumlarda, ilginç etkiler de ilginç olmayan değişkenliği kontrol etmek için kullanılır; örneğin, vücut büyüklüğünün etkilerini kontrol etmek için bir değişken olarak kütlenin kullanılması.

Ayrıca “koşullu modun (öngörülen) değeri hakkında hiçbir şey söyleyemezsiniz” dediğini duyacaksınız. Bu ya doğru değil — değerin sıfıra eşit olduğunu ya da İki farklı seviyenin değerleri eşittir, ancak tahmin edilen değere bakmak ve hatta tahmin edilen değerin standart bir hatasını hesaplamak için hala mükemmel bir şekilde mantıklıdır (örneğin, şekil 13.1'deki koşullu modların etrafındaki hata çubuklarına bakınız).

Bayesian çerçevesi, rastgele etkilerin daha basit bir tanımına sahiptir. Bir Bayesian yaklaşımı altında, sabit bir etki, her parametreyi (örneğin, bir cins içindeki her bir tür için ortalama) bağımsız olarak (önceden belirlenmiş bir şekilde önceden belirlenmiş) tahmin ettiğimiz bir etkidir, rastgele bir etki için ise her seviye için parametreler çizilmiş olarak modellenmiştir. bir dağılımdan (genellikle Normal); standart istatistiksel gösterimde, .species_meanN(genus_mean,σspecies2)

Yukarıda, grup değişkeninin birçok ölçülen seviyeye sahip olması durumunda rastgele etkilerin en faydalı olduğunu söyledim. Bunun tersine, gruplama değişkeni çok az seviyede olduğunda rasgele etkiler genellikle etkisizdir. Genellikle gruplama değişkeninin beş seviyeden daha az seviyesine sahip olması durumunda rastgele efektler kullanamazsınız ve rastgele efektler varyansı tahminleri sekiz seviyeden daha azıyla kararsızdır, çünkü çok küçük bir numuneden bir varyansı tahmin etmeye çalışıyorsunuzdur.


önizleme şu an 311'den sonra hiç sayfa göstermiyor ve burada çok yararlı olacak gibi görünen p 310'u özlüyor ...
uçuyor

belki bölgesel bir meseledir? Zaten yukarıdaki açık cevap için teşekkürler!
uçuyor

1
Ayrıca Google Kitaplar sonucuna da erişemiyorum. Metni buraya eklediğiniz için teşekkür ederiz.
MichaelChirico

Bu alıntıyı gerçekten seviyorum. Bu belki de gördüğüm rastgele etkilerin ne zaman ve neden kullanıldığına dair en net ve en faydalı açıklamadır. Keşke birkaç yıl önce öğretmenlik yaparken vardı.
Gregor,

39

Sabit etki: Deneyci doğrudan manipüle eder ve sıklıkla tekrar edilebilir bir şey, örneğin, ilaç yönetimi - bir grup ilaç alır, bir grup plasebo alır.

Rastgele etki: Rastgele değişkenlik / deneysel birimlerin kaynağı, örneğin, bir klinik çalışma için bir popülasyondan (rastgele) çekilen bireyler. Rastgele etkiler değişkenliği tahmin eder

Karışık etki: Her ikisini de içerir, bu durumlarda sabit etki, popülasyon seviyesi katsayılarını tahmin ederken, rastgele etkiler, bir etkinliğe cevap olarak bireysel farklılıkları hesaba katabilir; etkisi ilacın etkisini tahmin eder; rastgele etkiler terimi, her bir kişinin ilaca farklı tepki vermesini sağlar.

Genel karışık etki kategorileri - tekrarlanan önlemler, boyuna, hiyerarşik, bölünmüş arsa.


3
Yanlış değilsin, ama sabit bir etkinin ne olduğu konusundaki tanımın, biri sabit etki söylediğinde düşündüğüm gibi değil. İşte Birinin sabit etki dediğinde ne düşündüğünü olduğu en.wikipedia.org/wiki/Difference_in_differences veya bu stata.com/support/faqs/stat/xtreg2.html (Stata sayfasında özellikle denklem 3)
Andy W

@AndyW: Gelman tarafından listelenen ve JohnSalvatier'in (kabul edilen) cevabındaki bu konudaki "sabit etki" nin ne anlama geldiğini anladığınızı doğru anlıyor muyum?
amip

1
modeldeki bunları tahmin olmadığı halde - en ekonomistler sanırım ediyorum sabit etkisini derken ne düşünürdü aslında. Bunlar, diğer parametreler için tarafsız tahminler almak için çıkardığınız sıkıntı terimleridir. (Sadece lanet olası modeli yazmak, tam anlamıyla jargonda dolaşmaktan çok daha basittir.)ai
Andy W

1
@Andy teşekkür ederim. Anladığım kadarıyla, tanımınız biyoistatistik / karma modeller jargonuna tam olarak uyuyor, bu yüzden bu durumda herhangi bir ekonometri / biyoistatistik çatışması görmüyorum. modelinde terimler ayrıca karma modeller lingo sabit etkiler olarak düşünülebilir yazdım. Bu cevabı reddettim, bu arada, burada verilen "tanımlar" hiç yardımcı olmuyor (ve aslında tanım değiller ama rastgele ne zaman kullanılacağına ve belirli bir uygulama alanında sabit efektlerin ne zaman kullanılacağına karar vermek için bazı kurallara uymuyorsun. ). ai
amip,

1
@ amoeba Bu cevabın -1 olması gerektiğine katılıyorum. Doğru bir genel açıklama yapmaz ve bu açıklamanın geçerli olacağı koşulları belirtmez. Öyleyse kim bu cevaba rastlayabilir ve güvenilir, faydalı bilgiler kazanabilir?
Paul

23

Bu soruya buradan geldim , muhtemel bir kopyası.

Hali hazırda birkaç mükemmel cevap vardır, ancak kabul edilen cevapta belirtildiği gibi, terimin birçok farklı (ancak ilişkili) kullanımı vardır, bu nedenle ekonometride kullanılan, ancak henüz tam olarak ele alınmamış gibi görünen bir bakış açısı vermek yararlı olabilir. .

Doğrusal bir panel veri modelini göz önünde bulundurun: sözde hata bileşeni modeli. Burada, bazen zamanla sabit olan hata bileşeni olan bireye özgü heterojenite denir. Diğer hata bileşeni , hem birimleri hem de zaman içinde değişen "kendine özgü" .α i η i t

yit=Xitδ+αi+ηit,
αiηit

Rastgele etkiler yaklaşımını kullanmanın bir nedeni, varlığının "küresel" olmayan (yani kimlik matrisinin bir katı değil) bir hata kovaryansı matrisine yol (rastgele efektler gibi bir GLS tipi yaklaşım) OLS'den daha verimli olun).αi

Bununla birlikte, , birçok tipik uygulamada olduğu gibi - korelasyon gösteriyorsa - standart ders kitabının tutarlılığı için temel varsayımlardan biri (en azından ekonometrik ders kitaplarında standart olan) rasgele etkiler tahmincisi , viz. , ihlal edildi. Daha sonra, bu tür engellere etkili bir şekilde uyan sabit bir etki yaklaşımı daha ikna edici olacaktır.X i t C o v ( α i , X i t ) = 0αiXitCov(αi,Xit)=0

Aşağıdaki şekil bu noktayı göstermeyi amaçlamaktadır. ve arasındaki ham korelasyon pozitif. Ancak, bir birime (renkli) ait gözlemler negatif bir ilişki sergiler - bu tanımlamak istediğimiz şeydir, çünkü bu, in deki bir değişikliğe .yXyitXit

Ayrıca arasındaki korelasyon ve : Eski bireysel özgü yakaladığını ise (birim için yani beklenen değerler zaman ) görüyoruz ki kesenli, örneğin lightblue panel ünitesi kahverengi ünite için olandan çok daha küçük. Aynı zamanda, lightblue panel ünitesi değerinde çok daha küçük gerileme değerlerine sahiptir .αiXitiXit=0Xit

Dolayısıyla, havuzlanmış OLS burada yanlış bir strateji olacaktır, çünkü bu tahmin edici temelde renkleri görmezden geldiğinden, delta'nın pozitif bir esinlenmesine yol açacaktır . RE da fazla "zaman" -averages geriler ağırlıklı FE sürümü ve tahmin arasında olmak önyargılı olacaktır birbirinin üzerine. Ancak ikincisi, ve arasındaki korelasyon eksikliği gerektirir .δtαiXit

Bununla birlikte, bu önyargı, olarak kaybolur , birim başına düşen zaman periyodu sayısı ( aşağıdaki kodda) artar, sonra FE üzerindeki ağırlık bire gelir (bkz. Örneğin Hsiao, Panel Verilerinin Analizi, Bölüm 3.3.2).Tm

görüntü tanımını buraya girin

İşte verileri üreten ve pozitif RE tahmini ve "doğru", negatif FE tahmini üreten kod. (Bununla birlikte, RE tahminleri diğer tohumlar için de çoğunlukla olumsuz olacaktır, yukarı bakın.)

library(Jmisc)
library(plm)
library(RColorBrewer)
# FE illustration
set.seed(324)
m = 8
n = 12

step = 5
alpha = runif(n,seq(0,step*n,by=step),seq(step,step*n+step,by=step))
beta = -1
y = X = matrix(NA,nrow=m,ncol=n)
for (i in 1:n) {
  X[,i] = runif(m,i,i+1)
  X[,i] = rnorm(m,i)
  y[,i] = alpha[i] + X[,i]*beta + rnorm(m,sd=.75)  
}
stackX = as.vector(X)
stackY = as.vector(y)

darkcols <- brewer.pal(12, "Paired")
plot(stackX,stackY,col=rep(darkcols,each=m),pch=19)

unit = rep(1:n,each=m)
# first two columns are for plm to understand the panel structure
paneldata = data.frame(unit,rep(1:m,n),stackY,stackX) 
fe <- plm(stackY~stackX, data = paneldata, model = "within")
re <- plm(stackY~stackX, data = paneldata, model = "random")

Çıktı:

> fe

Model Formula: stackY ~ stackX

Coefficients:
 stackX 
-1.0451 


> re

Model Formula: stackY ~ stackX

Coefficients:
(Intercept)      stackX 
   18.34586     0.77031 

1
nedirδ
adam

1
Ayrıca, bu örneği karışık efektlerle ele almanın mümkün olduğu ortaya çıktı. İşte nasıl gösteren yazı:
Paul,

1
Son nokta hakkında şüphe yok, önceki yorumuma bakın. İkinci ve son yoruma göre, evet, RE, FE üzerinde bir ağırlık verir ve aralarında olarak sıfır bulunur , ancak asimptotikler tipik olarak göre alınır . Referanslar için düzenlenen cevabımı görün. Duruşmaların kontrol edilmemesi hakkındaki hikayemin, havuzlanmış OLS için gerçekten daha kullanışlı göründüğüne ve bu satırlar boyunca revize ettiğime dair bir noktanız var. NTN
Christoph Hanck

7
Yukarıdaki tartışmada, "rastgele efektlerin" "R'nin plm paketinde uygulanan sınırlı rastgele efekt versiyonu" ile değiştirilmesi daha doğru olacaktır. Önceki yorumumda belirtilen makalede olduğu gibi, korelasyonlu yordayıcı / grup konusunu gayet iyi idare edecek başka rastgele etki modelleri de var. Sadece henüz ekonometri paketlerinin / literatürünün bir parçası değildir. Ekonometri tanımlarının sabit ve rastgele etkilerin çok alana özgü olduğu ve istatistiksel literatürden daha temel genel anlamlarını temsil etmediği görülmektedir.
Paul,

4
Adil nokta, biraz düzenleme yaptım. Ancak, bu konuyu bu kadar değerli kılan şey tam da budur: farklı alanlar aynı terminolojiyle az çok farklı şeyler ifade eder ve çeşitli mesajlar bu farklılıkları ortaya çıkarmaya yardımcı olur.
Christoph Hanck

12

Bu ayrım, yalnızca Bayesian dışı istatistikler bağlamında anlamlıdır. Bayesian istatistiklerinde, tüm model parametreleri "rastgele" dir.


1
İlginç. Fakat sabit ya da rastgele, bu değişkenle ilişkili bir parametre yerine belirli bir değişkenin (belirli bir veri sütunu) koşulu olarak görülebildiğinden, cevabınız tam olarak geçerli midir?
rolando2

1
@ rolando2 Her durumda, bu sadece yanlıştır. Spesifik olarak, Bayesanlar için parametreler, teorinin / olasılığın söylediği her türlü şeydir. Olasılık dağılımları kullanılarak, yalnızca hangi değerlerin aldığı değer hakkındaki belirsizliği temsil edilmektedir. Sonuç olarak, bazen parametreler sabit ve bilinmeyen ('sabit') ve bazen bir dağıtımdan ('rastgele') geldiği gibi modellenir, bununla birlikte, ikinci cihaz çoğu zaman bir örnekleme işlemine ilişkin bir inançtan ziyade değiştirilebilirlik kararıyla motive edilir.
conjugateprior

Bu @ ben cevabının aksine. Cevabın yanlış olduğuna inanıyorum.
SmallChess

9

Ekonometride, terimler genellikle modelin formda olduğu genelleştirilmiş doğrusal modellerde uygulanır.

yit=g(xitβ+αi+uit).

Rastgele etkiler: Ne zaman ,αiuit

Sabit etkiler: Ne zaman .αi⊥̸uit

Olarak lineer model , rasgele bir etkinin varlığı, en küçük kareler tahmincinin tutarsızlık ile sonuçlanmaz. Bununla birlikte, rastgele bir etki tahmincisinin kullanılması (mümkün olan genelleştirilmiş en küçük kareler gibi) daha verimli bir tahmin edici ile sonuçlanacaktır .

Olarak doğrusal olmayan model , örneğin probit, Tobit'in olarak,, ..., rastgele bir etkinin varlığı, genel olarak, tutarsız tahmin neden olur. Rasgele efekt tahmincisi kullanmak daha sonra tutarlılığı geri yükler.

Hem doğrusal hem de doğrusal olmayan modeller için sabit etkiler bir yanlılığa neden olur. Bununla birlikte, doğrusal modellerde, dönüştürülebilen verilerdeki OLS'nin tutarlı tahminlerle sonuçlanabileceği (ilk farklar veya azaltma gibi) kullanılabilecek dönüşümler vardır. Doğrusal olmayan modeller için, dönüşümlerin olduğu birkaç istisna vardır, sabit etkiler logit bir örnek.

Örnek: Rasgele etkiler probit. varsaymak

yit=xitβ+αi+uit,αiN(0,σα2),uitN(0,1).

ve gözlenen sonuç

yit=1(yit>0).

Biriktirilip maksimum olabilirlik tahmincisi örnek ortalamalarının en

β^=argminβN1i=1Nlogt=1T[G(xitβ)]yit[1G(xitβ)]1yit.

Tabii ki, burada kütük ve ürün basitleştirilir, ancak pedagojik sebeplerden dolayı, bu denklemi, formu olan rastgele etki tahmincisi ile karşılaştırılabilir kılar.

β^=argminβN1i=1Nlogt=1T[G(xitβ+σαa)]yit[1G(xitβ+σαa)]1yitϕ(a)da.

Örneğin, integrali, rastgele normal çizimlerini alarak ve her birinin olasılığını değerlendirerek rassallaştırabiliriz .R

β^=argminβN1i=1NlogR1r=1Rt=1T[G(xitβ+σαar)]yit[1G(xitβ+σαa)]1yit,arN(0,1).

Sezgi şudur: Her gözlemin ne tür olduğunu bilmiyoruz . Bunun yerine, zaman içinde bir dizi çizim için olasılıkların ürününü değerlendiriyoruz. Gözlem için en olası tip her dönemde en yüksek olasılığı ve dolayısıyla bunun için olabilirlik katkı hakim olacak gözlemlerin tanıyan sekans.αiiT


7

Gerçekten resmi bir tanım değil, ama aşağıdaki slaytları seviyorum: Karışık modeller ve neden sosyologların Daniel Ezra Johnson'dan bunları ( ayna ) kullanmaları gerekiyor . Kısa bir özet. '4. slaytta sunulmuştur. Çoğunlukla psikodilbilimsel çalışmalara odaklanmış olmasına rağmen, ilk adım olarak çok faydalıdır.


Tüm etkiyi elde etmek için bu sunumu şahsen görmem gerekecek.
Andy

Bu slaytlar kullanışlı değildir.
uçuyor

7
Bu bağlantı soruyu cevaplayabilse de, cevabın temel kısımlarını buraya eklemek ve referans için bağlantıyı sağlamak daha iyidir. Bağlantılı sayfa değişirse, yalnızca bağlantı yanıtları geçersiz olabilir.
Ben Bolker

1
bağlantı öldü
baxx

3

Rasgele ve sabit etkiler modellerine dair çok pratik bir bakış açısı, panel verilerinde doğrusal gerileme yaparken ekonometriden geliyor . Açıklayıcı bir değişken ile bir veri kümesindeki bir sonuç değişkeni arasındaki ilişkiyi bireysel / grup başına çoklu örneklerle tahmin ediyorsanız, kullanmak istediğiniz çerçeve budur.

Panel verilerinin iyi bir örneği, aşağıdakilerden oluşan bir grup kişiden yıllık ölçümlerdir:

  • genderi (cinsiyet kişinin inci)i
  • Δweightit ( kişi için yılı boyunca ağırlık değişimi )ti
  • exerciseit (yıl boyunca ortalama günlük egzersiz kişi için )ti

Egzersiz ve kilo değişimi arasındaki ilişkiyi anlamaya çalışıyorsak, aşağıdaki gerilemeyi kurarız:

e X e r C ı s e i t + β 1 g E n d , e r i + α i + ε i tΔweightit=β0exerciseit+β1genderi+αi+ϵit

  • β0 ilgilenilen miktar
  • β1 ilginç değil, sadece cinsiyetini kontrol ediyoruz
  • αi , kişi başı
  • ϵit hata terimdir

Bunun gibi bir kurulumda endojenite riski vardır. Bu, ölçülmemiş değişkenlerin (medeni durum gibi) hem egzersiz hem de kilo değişimi ile ilişkilendirildiği zaman olabilir. Bu Princeton dersinde sayfa 16'da açıklandığı gibi , rastgele etkiler (AKA karışık etkiler) modeli sabit etkiler modelinden daha etkilidir. Bununla birlikte, ölçülmemiş değişkenin egzersizdeki ağırlık değişimi üzerindeki etkisinin bir kısmını yanlış bir şekilde ilişkilendirir, yanlış bir ve potansiyel olarak geçerli olandan daha yüksek bir istatistiksel önem . Bu durumda, rastgele etki modeli tutarlı bir tahmincisi değildir .β 0β0β0

Sabit etkiler modeli (en temel şekliyle) zamanla sabit olan ölçülmeyen değişkenleri kontrol eder, ancak regresyon denklemindeki her birey ( ) için ayrı bir müdahale terimini içeren bireyler arasında açıkça değişkenlik gösterir . Örneğimizde, ölçülmeyen etkileri (medeni durum, sosyoekonomik durum, eğitim durumu, vb.) Yanı sıra cinsiyetten kaynaklanan etkilerin etkilerini otomatik olarak kontrol edecektir. Aslında, cinsiyet regresyona dahil edilemez ve sabit etkiler modeliyle tahmin edilemez, çünkü ile .p 1 g E n d , e r i a iαiβ1genderiαi

Dolayısıyla, temel soru hangi modelin uygun olduğunu belirlemektir. Cevap Hausman Testi . Bunu kullanmak için, hem sabit hem de rastgele etkiler regresyonu yaparız ve daha sonra, katsayı tahminlerinin önemli ölçüde farklılaşıp değişmediğini görmek için Hausman Testini uygularız. Farklılaşırlarsa, endojenite oyundadır ve sabit etkiler modeli en iyi seçimdir. Aksi takdirde, rastgele efektlerle gideceğiz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.