Veri boyutu devasa olduğunda regresyondaki istatistiksel öneme ne oldu?


13

Whuber'ın ilginç bir noktaya işaret ettiği büyük ölçekli regresyon ( bağlantı ) ile ilgili bu soruyu şu şekilde okuyordum :

"Çalıştırdığınız neredeyse tüm istatistiksel testler o kadar güçlü olacak ki," önemli "bir etki tanımlayacağınızdan neredeyse emin olacaksınız. Anlamdan ziyade, etki büyüklüğü gibi istatistiksel önem üzerine çok daha fazla odaklanmalısınız."

--- whuber

Bunun kanıtlanabilecek bir şey mi, yoksa pratikte bazı yaygın fenomenler mi olduğunu merak ediyordum?

Bir ispat / tartışma / simülasyon için herhangi bir işaretçi gerçekten yararlı olacaktır.


1
Efekt boyutu önemlidir. (Glen_b'in cevabına +1). Hızlı bir örnek vermek gerekirse: obez olsaydık, mevcut diyetimizi, bir değeri olsa bile bir ay sonra 0,05 kg kilo kaybına neden olsaydı, yeni daha pahalı bir diyetle değiştirmeyecektik . Hala obez olurduk, sadece fakir oluruz. Herkes için böyle küçük bir ağırlık düşüşünün sadece sağlık kliniğinden kaynaklanabileceğini biliyoruz. (Güzel soru + 1)0.0000000001p0.0000000001
usεr11852

Yanıtlar:


10

Oldukça genel.

Küçük, ancak sıfır olmayan bir etki olduğunu düşünün (yani, testin alabildiği boş değerden bir miktar sapma).

Küçük numune boyutlarında, reddetme şansı tip I hata oranına çok yakın olacaktır (gürültü küçük etkiye hakimdir).

Örnek boyutları büyüdükçe, tahmini etki bu popülasyon etkisine yakınlaşmalı, aynı zamanda tahmini etkinin belirsizliği (normalde ) küçülmeli ve null durumun tahmini etkiye yeterince yakın olması ihtimali popülasyondan rastgele seçilen bir örnekte hala akla yatkın olması etkili bir şekilde sıfıra iner.n

Yani nokta null'larla sonuçta reddetme kesinleşir, çünkü neredeyse tüm gerçek durumlarda esasen her zaman sıfırdan bir miktar sapma olacaktır.


“... çünkü neredeyse tüm gerçek durumlarda esasen her zaman sıfırdan bir miktar sapma olacaktır.” Yani orada ve kişi bile görebiliyor. Bu oldukça güzel bir özellik olurdu ya da değil mi?
Trilarion

Burada "null" katsayının sıfıra eşit olduğu null hipotezini ifade eder?
Arash Howaida

Bence Glen_b'in cevabı geneldir ve bir puan boş olan herhangi bir hipotez testi için geçerlidir. Regresyon bağlamında, evet, boş değer, katsayının sıfıra eşit olmasıdır. Kendi anlayışım olsa ...
Bayesric

4

Bu bir kanıt değildir, ancak pratikte örneklem büyüklüğünün etkisini göstermek zor değildir. Küçük değişiklikler ile Wilcox (2009) basit bir örnek kullanmak istiyorum:

Genel bir kaygı ölçüsü için, bir araştırmacı, üniversite öğrencilerinin nüfusunun ortalama en az 50 olduğunu iddia ettiğini düşünün. Bu iddiayı kontrol etmek için, on üniversite öğrencisinin test hedefi ile rastgele örneklendiğini varsayalım. ile . (Wilcox, 2009: 143)α = .05H0:μ50α=.05

Bu analiz için t-testini kullanabiliriz:

T=X¯μos/n

Örnek ortalamasının ( ) 45 ve örnek standart sapmasının değerlerinin 11 olduğunu varsayarsak , sX¯s

T=455011/10=1.44.

Student dağılımının kritik değerlerini serbestlik dereceleriyleνtν içeren bir tabloya bakarsanız , for , olduğunu göreceksiniz . Dolayısıyla ile sıfır hipotezini reddedemiyoruz. Şimdi, aynı örnek ortalama ve standart sapmaya sahip olduğumuzu varsayalım, bunun yerine 100 gözlem var:v=101P(T1.83)=.05T=1.44

T=455011/100=4.55

İçin , , reddetme olabilir Boş hipotez. Diğer her şeyi sabit tutmak, örnek boyutunu artırmak paydayı azaltacaktır ve örnekleme dağılımının kritik (ret) bölgesinde değerlere sahip olma olasılığınız daha yüksek olacaktır. Not bu ortalama standart hatası bir tahminidir. Böylece, benzer bir yorumlamanın, örneğin, doğrusal regresyonda elde edilen regresyon katsayıları üzerindeki hipotez testlerine nasıl uygulandığını görebilirsiniz; burada .v=1001P(T1.66)=.05s/nT=β^jβj(0)se(β^j)


Wilcox, RR, 2009. Temel İstatistikler: Geleneksel Yöntemleri ve Modern Anlayışları Anlamak . Oxford Üniversitesi Yayınları, Oxford.


1
Cevap için teşekkürler. Cevabınız Glen_b'in cevabının somut bir demosunu sunar: örnek boyutu çok büyük olduğunda, sıfırdan küçük sapma (pratikte her zaman küçük sapma vardır) önemli etki olarak yakalanacaktır.
Bayesric

2

Regresyonda, genel model için test F'de.

RSS1RSS2

F=RSS1RSS2p2p1RSS2np2
Burada RSS kalan kareler toplamıdır ve p parametre sayısıdır. Ancak, bu soru için anahtar, alt paydadaki N'dir. Hayır ne kadar yakın bir önemi etmektir N biraz daha büyüdüğünde, F büyür. Yani, F anlamlı olana kadar N'yi artırın.RSS1RSS2

1
Cevap için teşekkürler. Ancak, "N büyüdüğünde F büyür" konusunda şüpheliyim; N arttıkça, RSS2 de artar, F'nin neden büyüyeceği net değil.
Bayesric

@Peter Flom bu gerçek değil ama buraya bir göz atabilir istatistik.stackexchange.com/questions/343518/…
user3022875
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.