Büyük bir veri kümesi için önem düzeyi nasıl seçilir?


15

N 200.000 civarında bir veri kümesiyle çalışıyorum. Regresyonlarda, çok küçük etki boyutlarıyla ilişkili çok küçük önem değerleri << 0.001 görüyorum, örneğin r = 0.028. Bilmek istediğim, örneklem büyüklüğü ile ilgili uygun bir anlamlılık eşiğine karar vermenin ilkeli bir yolu var mı? Etki büyüklüğünün bu kadar büyük bir örnekle yorumlanmasında başka önemli hususlar var mı?


10
Bu, pratik ve istatistiksel önem taşıyan bir konudur. Eğim 0'dan farklıysa, minik bir miktarda bile olsa, örn. .00000000000001), yeterince büyük bir örnek, pratik bir önemi olmamasına rağmen, çok küçük bir değeri verecektir . Böyle büyük bir örneklem büyüklüğüne sahip olduğunuzda, p- değeri yerine nokta tahminini daha iyi yorumlayabilirsiniz . pp
Makro

@Macro Üzgünüm Burada nokta tahmini ile ne demek istediğini açıklayabilir misiniz?
ted.strauss

3
Yukarıdaki Makro yorumuna ek olarak, bu durumda, bulgularda "pratik" veya "klinik" önemi ararım. Yaptığınız şey için, etki bakımınız için yeterince büyük mü?
Michelle

1
Nokta tahmini, gözlemlenen regresyon eğim tahminidir.
Makro

2
@Macro ve ben, klinik etkinin (nokta tahminleri, eğimler) önemli olup olmadığına karar vermeniz gerektiğidir. Eşik değeriniz, "önemli bir p-değeri" yerine "önemli bir klinik etkidir" kararına dayanmaktadır, çünkü p-değerlerinizin çoğu (tümü?) Önemlidir.
Michelle

Yanıtlar:


20

İçinde önemi test değersizlik , (1999) Johnson, yeterli veri toplama sıfır hipotezini varsayarak istediğiniz gibi neredeyse her zaman olduğu yanlıştır küçük olarak yapabileceği o p-değerleri, keyfi vardır kaydetti. Gerçek dünyada, tam olarak sıfır olan yarı-kısmi korelasyonlar olma olasılığı düşüktür, bu da bir regresyon katsayısının önemini test etmede sıfır hipotezidir. P-değeri önem kesintileri daha da keyfidir. Anlamlılık ve önemsizlik arasındaki boşluk olarak .05 değeri prensip olarak değil, konvansiyon tarafından kullanılır. Dolayısıyla, ilk sorunuzun cevabı hayırdır, uygun bir anlamlılık eşiğine karar vermenin ilkeli bir yolu yoktur.

Peki, büyük veri kümeniz göz önüne alındığında ne yapabilirsiniz? Bu, regresyon katsayılarınızın istatistiksel önemini araştırmak için nedenlerinize bağlıdır. Karmaşık çok faktörlü bir sistemi modellemeye ve gerçekliğe makul bir şekilde uyan veya öngörmeyi sağlayan kullanışlı bir teori mi geliştirmeye çalışıyorsunuz? O zaman belki daha ayrıntılı bir model geliştirme ve bunun üzerine modelleme perspektifi almayı düşünebilirsiniz, Rodgers (2010), Matematiksel ve İstatistiksel Modelleme Epistemolojisi . Çok fazla veriye sahip olmanın bir avantajı, çok zengin modelleri, çoklu düzeylere ve ilginç etkileşimlere sahip olanları keşfedebilmektir (bunu yapmak için değişkenlere sahip olduğunuzu varsayarak).

Öte yandan, belirli bir katsayıyı istatistiksel olarak anlamlı olarak ele alıp almayacağınıza karar vermek istiyorsanız, Good'in (1982) önerisini Woolley'de (2003) özetlenen olarak almak isteyebilirsiniz : q değerini hesaplama olarak , p değerlerini 100 örnek boyutuna standardize eder. Tam olarak .001'lik bir p değeri, 0,045 olan bir p değerine dönüştürülür - yine de istatistiksel olarak anlamlı.p(n/100)

Öyleyse, keyfi bir eşik ya da başka bir eşik kullanmak önemliyse, ne olacak? Bu gözlemsel bir çalışma ise, sadece modelinizi yanlış tanımladığınız için ortaya çıkan sahte bir ilişki değil, aslında düşündüğünüz gibi anlamlı olduğunu kanıtlamak için çok daha fazla çalışmanız var. Küçük bir etkinin, bir tedavi etkisinden ziyade farklı tedavi düzeylerine giren insanlar arasında önceden var olan farklılıkları temsil etmesi durumunda klinik olarak ilginç olmadığını unutmayın.

Yorumcuların belirttiği gibi, gördüğünüz ilişkinin pratikte önemli olup olmadığını düşünmeniz gerekir. Dan sen alıntı rakamları dönüştürme için r 2 (varyans için açıkladırr2 kare o varyans açıkladı olsun, korelasyon olduğu) sadece 3 ve% 6 varyans çok gibi görünmüyor hangi sırasıyla izah verir.r


@ rolando2 düzenleme için teşekkürler, her zaman büyük / küçük p değerleri arasında karışıyor! Ben dağıtımın sağ kapalı ise büyük, ama p değeri küçük olduğunu düşünüyorum.
Anne Z.

2
(+1) Bu, birçok uygulayıcının dikkatle düşünmediği önemli bir gerçektir: "p-değerleri keyfi, çünkü boş veri hipotezinin yanlış olduğunu varsayarak, yeterli veri toplayarak bunları istediğiniz kadar küçük yapabilirsiniz. neredeyse her zaman öyle. "
Makro

Teşekkür ederim! Sondan bir önceki paragrafınızdaki puanlar iyi alınmıştır. Woolley makalesini okuyorum ve q değeri formülünüzün kapalı olduğunu fark ettim. P * değil p * olmalıdır. Burada değiştirmeye çalıştım ama düzenlemeler> 6 karakterden oluşmalıdır.
ted.strauss

@ ted.strauss Yararlı olduğuna sevindim. Bazen birlikte çalışmamız gereken p-değerleri gibi araçların sınırlamalarından dolayı cesaret kırılmış hissediyorum. Formüldeki hatayı not ettiğiniz için teşekkürler, düzelttim.
Anne Z.

Harika cevap için teşekkürler. Ancak Woolley 2003 belgesine yukarıda verilen bağlantıyı kullanarak erişemiyorum.
KarthikS

-3

Kontrol etmenin kolay bir yolu, bir dağıtımın iki kez olduğunu bildiğinizden benzer şekilde çok sayıda rastgele örnekleme yapmak ve iki sonucu karşılaştırmak olacaktır. Bunu birkaç kez yaparsanız ve benzer p değerlerini gözlemlerseniz, gerçek bir etki olmadığını gösterir. Öte yandan yapmazsanız, muhtemelen vardır.


7
Bence büyük örneklem büyüklüğü ile gerçek bir farkın sıfır hipotezi altında simülasyonlar yapmayı ve p değerlerine öneriyorsunuz. Simülasyonlar yapmadan , sonuçta elde edilen p değerlerinin oranının , orijinal posterin gözlemlediği kadar küçük olacağını söyleyebilirim . Bu, herhangi bir numune boyutu için geçerlidir. Bu bir p- değerinin tanımıdır . <.001pp
Makro

1
Aslında, tarif ettiğiniz işlemden çıkacak -değerleri bir U değerine sahip olacaktır.p dağılımına sahip olacaktır. Uniform(0,1)
Makro

1
@Macro son açıklama ile ilgili olarak, burada r hipotezi altında kanıtı bir taslağıdır , p -değeri vardır U [ 0 , 1 ] dağılımı. Bir test istatistiği T = T ( X ) verildiğinde , t = t ( x ) gözlemlersek , p değeri p ( t ) = P ( T t H 0 ) olarak tanımlanır . H 0'ın altında olduğunu varsayalımH0pU[0,1]T=T(X)t=t(x)pp(t)=P(TtH0)H0arasında dağılım fonksiyonu olduğu G 0 ile G 0 bunun tersi sahiptir, bu, sürekli ve azalmayan G - 1 0 . Sonra, p ( t ) = 1 - G 0 ( t ) var ve u ∈ için [ 0 , 1 ]TG0G0G01p(t)=1G0(t)u[0,1]
Zen

1
(Zen'in yorumunun devamı):
P(p(T)u)=P(1G0(T)u)=P(G0(T)1u)=P(TG01(1u))=1G0(G01(1u))=u.
p(T)H0U[0,1]
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.