5 konu için 100 ölçümün 100 konu için 5 ölçümden çok daha az bilgi sağladığını gösteriyor


21

Bir konferansta aşağıdaki ifadeye kulak misafiri oldum:

5 konu için 100 ölçüm, 100 konu için 5 ölçümden çok daha az bilgi sağlar.

Bunun doğru olduğu çok açık, ama bunun matematiksel olarak nasıl kanıtlanabileceğini merak ediyordum ... Doğrusal bir karma modelin kullanılabileceğini düşünüyorum. Ancak, onları tahmin etmek için kullanılan matematik hakkında pek bir şey bilmiyorum (Sadece lmer4LMM'ler ve bmrsGLMM'ler için koşuyorum :) Bana bunun doğru olduğu bir örnek gösterebilir misiniz? Bazı formüllerde bir cevabı tercih ediyorum, sadece R kodundaki bazı kodlardan çok, örneğin normal dağılmış rasgele engellemeli ve eğimli doğrusal karışık modeller gibi basit bir ayar yapmaktan çekinmeyin.

Not: LMM'leri içermeyen bir matematik tabanlı cevap. LMM'leri düşündüm çünkü bana neden daha fazla denekten daha az önlemin birkaç denekten daha fazla ölçekten daha iyi olduğunu açıklamak için doğal bir araç gibi görünüyorlardı, ama ben yanlış olabilirim.


3
+1. Sanırım en basit ayar, her kendine özgü ve bu konunun her ölçümünün olarak dağıtıldığı popülasyon ortalamasının tahmin etmenin bir görevi olduğunu düşünmek olacaktır. . deneklerin her birinden ölçüm alırsak , o zaman sabit ürün verilen ve ayarını yapmanın en uygun yolu nedir ? μaN(μ,σa2)xN(a,σ2)nmnmnm=N-
amip diyor Reinstate Monica,

elde edilen veri noktalarının örnek ortalamasının varyansını en aza indirme anlamında "Optimal" . N-
amip diyor Reinstate Monica,

1
Evet. Ancak sorunuz için varyansları nasıl tahmin edeceğimizle ilgilenmemize gerek yok; Sorunuzun (sorunuzu yani tırnak) Ben sadece küresel ortalama tahmin hakkında inanıyorum ve en iyi tahmincisi büyük ortalama tarafından verildiği aşikardır Herşeyden numunede nokta. O zaman soru şudur: verilen , , , ve , varyansı nedir? Bunu biliyorsak , kısıtı verilen göre en aza indirgeyebileceğiz . μx¯N=nmμσ2σa2nmx¯nnm=N-
amip diyor Reinstate Monica

1
Bunlardan herhangi birinin nasıl türetileceğini bilmiyorum, ama bunun bariz olduğunu kabul ediyorum: hata varyansını tahmin etmek, tek bir denekten tüm ölçümlerinin yapılmasının en iyisi olacağını ; ve konu varyansını tahmin etmek için (muhtemelen?) her biri 1 ölçümle farklı konuya sahip olmak en iyisidir . Olsa da, ortalama hakkında çok net değil, ama sezgim, her biri 1 ölçümü olan deneklerin de en iyisi olacağını söylüyor. Acaba bu doğru mu ...N NNNN-
amip diyor Reinstate Monica

2
Belki şöyle bir şey olabilir: Konu başına örneklem araçlarının varyansı , burada birinci terim özne varyansı ve ikincisi her öznenin ortalamasının tahmini varyansıdır. Sonra aşırı deneklerin varyans (yani büyük ortalama) olacaktır ortalama ( σ 2 , bir + σ 2 / n ) / m = σ 2 bir / m + σ 2 / ( N m ) = σ 2 bir / mσa2+σ2/n asgariye düşürülmesidir m = N .
(σa2+σ2/n)/m=σa2/m+σ2/(nm)=σa2/m+σ2/N=σa2/m+const,
m=N-
amip diyor Reinstate Monica,

Yanıtlar:


25

Kısa cevap, varsayımınızın verilerde pozitif sınıf içi bir korelasyon olduğu zaman ve sadece olduğunda doğrudur . Ampirik olarak konuşursak, çoğu kümelenmiş veri kümesi çoğu zaman pozitif bir sınıf içi korelasyon gösterir, yani pratikte varsayımınız doğrudur. Fakat eğer sınıf içi korelasyon 0 ise, bahsettiğiniz iki vaka eşit derecede bilgilendiricidir. Ve eğer sınıf içi korelasyon negatifse , o zaman daha fazla konuda daha az ölçüm almak aslında daha az bilgilendiricidir ; aslında tüm ölçümlerimizi tek bir konu üzerinde almayı tercih ediyoruz (parametre tahmininin varyansını azaltmak söz konusu olduğunda).

İstatistiksel olarak, bunun hakkında düşünebileceğimiz iki perspektif var: Sorunuzda bahsettiğiniz rastgele etkiler (veya karışık ) bir model veya burada biraz daha bilgilendirici olan biten marjinal bir model .

Rasgele etkiler (karışık) model

Biz bir dizi var ki attık aldığınız konularda m ölçümleri her. Daha sonra basit bir rastgele etki modeli j th ölçüm i inci konu olabilir y i j = β + u i + e i j , β , sabit mesafesidir u ı varyans ile rastgele konusu etkisi (bir σ 2 u ), e i j gözlem seviyesi hata terimidir ( σ 2 e varyansı ilenmji

yij=β+ui+eij,
βuiσu2eijσe2) ve son iki rasgele terim bağımsızdır.

Bu modelde popülasyon ortalamasını temsil eder ve dengeli bir veri kümesiyle (yani, her denekten eşit sayıda ölçüm), en iyi tahminimiz basitçe örneklem ortalamasıdır. Dolayısıyla, bu tahmin için daha küçük bir varyans anlamına gelmek üzere "daha fazla bilgi" alırsak, temel olarak örnek ortalamasının varyansının n ve m'ye bağlı olduğunu bilmek isteriz . Cebir ile biraz bunun üzerinde çalışabilir Var ( 1βnm Bu ifadeyi inceleyerek,ne zaman bir konu varyansı varsa(yani,σ2u>0), konu sayısını (n) arttırmanın bu terimin her ikisini de daha küçük yapacağını, konu başına ölçüm sayısını artıracağını görebiliriz (m) sadece ikinci terimi daha küçük hale getirecek. (Bunun, çok siteli çoğaltma projeleri tasarlamaya yönelik pratik bir uygulaması için,bir süre önce yazdığım bu blog gönderisinebakın.)

var(1nmΣbenΣjybenj)=var(1nmΣbenΣjβ+uben+ebenj)=1n2m2var(ΣbenΣjuben+ΣbenΣjebenj)=1n2m2(m2Σbenvar(uben)+ΣbenΣjvar(ebenj))=1n2m2(nm2σu2+nmσe2)=σu2n+σe2nm.
σu2>0nm

Şimdi toplam gözlem sayısını sabit tutarken veya n'yi arttırdığımızda veya azalttığımızda ne olacağını bilmek istediniz . Bu yüzden düşünün için n m , sabit olmak çok bütün varyans ifadesi gibi görünüyor σ 2 umnnmn mümkünolduğu kadar büyükolduğunda mümkün olduğu kadar küçük(en fazlan=nm'ye kadar, bu durumdam=1, yani her denekten tek bir ölçüm yapacağız).

σu2n+sabit,
nn=nmm=1

Kısa cevabım sınıf içi korelasyona işaret ediyordu, peki bu neye uyuyor? Bu basit rastgele etkiler modelinde içi sınıf korelasyonu (buradabir türev taslağı). Böylece yukarıdaki varyans denkleminivar(1olarak yazabiliriz).

ρ=σu2σu2+σe2
Bu, daha önce gördüğümüze gerçekten bir içgörü katmıyor, ama bizi meraklandırıyor: sınıf içi korelasyon bir iyi niyetli korelasyon katsayısı ve korelasyon katsayıları olduğu için negatif olabilir, eğer sınıf içi korelasyon negatif olsaydı ne olurdu (ve ne anlama gelirdi)?
var(1nmΣbenΣjybenj)=σu2n+σe2nm=(ρn+1-ρnm)(σu2+σe2)

Rastgele etkiler modeli bağlamında, negatif bir sınıf içi korelasyon gerçekten mantıklı gelmez, çünkü dengesindeki varyansın bir şekilde negatif olduğu anlamına gelir ( yukarıdaki ρ denkleminden görebileceğimiz gibi ve açıklandığı gibi). burada ve burada ) ... ama varyanslar negatif olamaz! Ancak bu , sınıf içi negatif bir ilişki kavramının bir anlam ifade etmediği anlamına gelmez ; bu sadece rastgele etki modelinin, kavramın değil, modelin başarısızlığı olan bu kavramı ifade etmenin bir yolunun olmadığı anlamına gelir. Bu kavramı yeterince ifade etmek için marjinal modeli göz önünde bulundurmamız gerekir.σu2ρ

Marjinal model

Bu aynı veri kümesi için biz bir sözde marjinal modelini düşünebiliriz , y i j = β + e * i j , temelde rastgele konu etkisi itti ettik u i hata terimi içine önce gelen e i j böylece sahip olduğumuz e * i j = u ı + e i j . Rastgele etki modelinde iki rasgele terimleri kabul u i ve e i j olmakybenj

ybenj=β+ebenj*,
ubenebenjebenj*=uben+ebenjubenebenjIID , fakat marjinal modelinde yerine dikkate bir blok-köşegen kovaryans matrisi takip C gibi Cı- = σ 2 [ R 0 0 0 R0 0 0 R ] , R = [ 1 ρ ρ ρ 1 ρ ρ ρ 1 ]ebenj*C
C=σ2[R,000R,000R,],R,=[1ρρρ1ρρρ1]
Yani bu araçlar marjinal model altında biz sadece düşünün ikisi arasında beklenen ilişki olması e * Aynı konudan s (biz denekler arasında korelasyon 0 olduğunu varsayalım). Ρ pozitif olduğunda , aynı denekten çizilen iki gözlem, deneklerden dolayı kümelenmeyi göz ardı ederken, veri kümesinden rastgele alınan iki gözlemden ortalama olarak birbirine daha yakın olma eğilimindedir. Tüm ρ olan negatif , aynı konuda çekilen iki gözlem olma eğilimi daha az tamamen rastgele çizilen iki gözlem göre ortalama (daha da ayrı) benzer. ( Burada bu yorumlama hakkında daha fazla bilgi / soru burada / cevaplarρe*ρρ.)

var(1nmΣbenΣjybenj)=var(1nmΣbenΣjβ+ebenj*)=1n2m2var(ΣbenΣjebenj*)=1n2m2(n(mσ2+(m2-m)ρσ2))=σ2(1+(m-1)ρ)nm=(ρn+1-ρnm)σ2,
rastgele etkiler modeli için yukarıda türettiğimiz aynı varyans ifadesidir, sadece σe2+σu2=σ2, yukarıdaki notumuzla uyumlu ebenj*=uben+ebenj. Bu (istatistiksel olarak eşdeğer) bakış açısının avantajı, burada negatif bir konu varyansı gibi tuhaf kavramları çağırmaya gerek kalmadan negatif bir sınıf içi korelasyon düşünebilmemizdir. Negatif sınıf içi korelasyonlar bu çerçevede doğal olarak uyuyor.

(BTW, yukarıdaki türetme işleminin ikinci-son çizgisinin bizim olması gerektiği anlamına geldiğini belirtmek için kısa bir süre) ρ-1/(m-1), ya da tüm denklem negatif, ancak varyans olumsuz olamaz! Bu nedenle, küme başına kaç ölçüm yaptığımıza bağlı olan sınıf içi korelasyon üzerinde daha düşük bir sınır vardır. İçinm=2 (yani, her konuyu iki kez ölçüyoruz), sınıf içi korelasyon tamamen aşağı inebilir ρ=-1; içinm=3 sadece aşağı gidebilir ρ=-1/2; ve bunun gibi. Eğlenceli gerçek!)

Sonunda, toplam gözlem sayısını göz önüne alarak bir kez daha nm sabit olmak gerekirse, yukarıdaki türevin ikinci-son çizgisinin aynı gözüktüğünü görüyoruz.

(1+(m-1)ρ)xpozitif sabit.
Öyleyse ne zaman ρ>0, sahip mmümkün olduğu kadar küçük (böylece daha fazla konunun daha az ölçümünü alalım - sınırda her konunun 1 ölçümü), tahminin mümkün olduğunca küçük olmasını sağlar. Ama ne zamanρ<0, aslında istiyoruz mmümkün olduğu kadar büyük olmak (böylecenmvaryansı olabildiğince küçük yapmak için tek bir denekten alınan ölçümler). Ve ne zamanρ=0, tahminin varyansı sadece bir sabittir, bu yüzden tahsisatımız m ve n önemli değil.

3
+1. Mükemmel cevap. İtiraf etmeliyim ki ikinci bölüm, yaklaşıkρ<0, oldukça sezgisel değil: çok büyük (veya sonsuz) bir toplam sayıyla bile nm Yapabileceğimiz en iyi gözlemlerden biri, tüm gözlemleri tek bir konuya tahsis etmektir, yani ortalamanın standart hatası olacaktır. σuve prensip olarak daha fazla azaltmak mümkün değildir . Bu sadece çok garip! Doğruβne olursa olsun, onu ölçmek için ne kaynak varsa, bilinmeyen kalır. Bu yorum doğru mu?
amip diyor Reinstate Monica

3
Ah, hayır. Yukarıdaki doğru değil çünküm sonsuzluğa yükselir, ρnegatif kalamaz ve sıfıra yaklaşması gerekir (sıfır konu varyansına karşılık gelir). Hmm. Bu negatif korelasyon komik bir şey: bu gerçekten üretici modelin bir parametresi değil, çünkü örneklem büyüklüğü ile sınırlıdır (oysa ki, normal olarak, herhangi bir sayıda gözlem üretebilme kabiliyetine sahip olan bir model, parametreler ne olursa olsun). Bunun hakkında düşünmenin doğru yolunun ne olduğundan emin değilim.
amip diyor Reinstate Monica

1
@DeltaIV Bu durumda "rastgele etkilerin kovaryans matrisi" nedir? Yukarıdaki Jake tarafından yazılan karma modelde, yalnızca bir rastgele etki vardır ve bu nedenle gerçekten "kovaryans matrisi" yoktur, ancak yalnızca bir sayı vardır:σu2. NeΣmı kastediyorsun
amip diyor Reinstate Monica

2
@DeltaIV Peki, genel prensip en.wikipedia.org/wiki/Inverse-variance_weighting , ve her bir deneğin örnek ortalamasının varyansı şu şekilde verilmiştir:σu2+σe2/mben(Jake, bu yüzden yukarıda ağırlıkların, deneklerin varyansının tahminine dayanması gerektiğini yazdığını yazdı). Özne içi varyansın tahmini, birleşik özne sapmalarının birleştirilmiş varyansının varyansı ile verilir, özne arasındaki varyansın tahmini, deneklerin araçlarının varyansıdır ve bunların hepsini hesaplayabilir. (Ama bunun% 100’ün eşdeğer olup olmadığından emin değilim.)
amip Reinstate Monica

1
Jake, evet, kesinlikle bu kadar kodlama mBu beni rahatsız ediyordu. Bu "örneklem büyüklüğü" ise, temel sistemin bir parametresi olamaz. Benim şu anki düşüncem bu olumsuzρaslında bizim için yok sayılan / bilinmeyen başka bir konu içi faktör olduğunu belirtmelidir. Örneğin, bazı müdahalelerin öncesi ve sonrası olabilir ve aralarındaki fark o kadar büyüktür ki ölçümler negatif korelasyon gösterir. Ama bu demek oluyor kimgerçekten bir örneklem büyüklüğü değil, ancak bu bilinmeyen faktörün düzeylerinin sayısı ve bu kesinlikle zor kodlanmış olabilir ...
amip Reinstate Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.