Regresyonda p-değerlerinin anlamı


27

Bazı yazılım paketlerinde (örneğin Mathematica) doğrusal bir regresyon gerçekleştirdiğimde, modeldeki bireysel parametrelerle ilişkili p-değerleri alıyorum. Örneğin, sonucunu üreten bir doğrusal regresyonun sonuçları, a ve bir ile b ile ax+bilişkili bir p değerine sahip olacaktır .ab

  1. Bu p değerleri bu parametreler hakkında bireysel olarak ne anlama geliyor?

  2. Herhangi bir regresyon modeli için parametreleri hesaplamanın genel bir yolu var mı?

  3. Her parametreyle ilgili p değeri, tüm model için bir p değerinde birleştirilebilir mi?

Bu soruyu doğada matematiksel olarak tutmak için sadece p-değerlerinin olasılıklar açısından yorumlanmasına çalışıyorum.


Gavin'in @cardinal sorusuna cevabı iyi söylüyor.
JM, istatistikçi değil

6
@zyx, OP'nin sorularıyla ilgili ileri düzeyde bir şey yok. Bunlar benim görüşüme göre, istatistikleri olan çok yaygın sorulardır. SE daha uygundur --- ve katılımcıların daha çok ilgilendikleri. Math.SE ve MO, olasılık soruları için mükemmel kaynaklardır, ancak istatistiksel sorular için çok daha azdır. OP'nin soruları ikincisine daha fazla eğiliyor.
kardinal

@ cardinal: İstatistikleri takip ettim. Bugüne kadarki 4800+ sorudan OP'den 3. maddeyi soran veya cevaplayan birini bulamadım , bu "çok yaygın" bir sorguysa garip. Ben de birkaç kez ortaya çıktığında, 1. maddeye kavramsal olarak kesin cevaplar görmedim. Bu şeylerin matematiğe gönderilmesi gerektiğini düşünüyorum.SE ve MO periyodik olarak daha büyük bir izleyici kitlesinin dikkatini çekmek için, dakikalar içinde istatistiklere geçilmemelidir.SE. Ayrıca stat sormaktan da zarar gelmez.SE ancak ikincisini istatistiklerin tartışılabileceği tek yere çevirmek yardımcı olmaz.
zyx

Şu anda math.SE ile ilgili bir konu var.
zyx

(Yukarıda belirtilen bazı yorumlar göç sırasında kaybedilmiştir. Orijinal matematikte görünürler. Aşağıda "göçen ..." sözcüklerinin yanındaki bağlantılara göz atın)
zyx

Yanıtlar:


13
  1. P-değeri hipotez "bir test p değeridir α = 0 " (genellikle 2 taraflı t -testi). P-değeri b hipotezi "bir test p değeridir β = 0 " (aynı zamanda, genellikle, bir 2 taraflı t -testi) ve aynı şekilde regresyon başka katsayılarının. Bu testler için olasılık modelleri, doğrusal regresyon modelinde kabul edilenlerle belirlenir. En küçük kareler doğrusal regresyon için, çift ( a , b ), gerçek parametre değerlerine ( α , β merkezli) bir iki değişkenli normal dağılımı izler.aα=0tbβ=0ta,bα,β) Ve her katsayı için hipotez testi eşdeğerdir -Kaynak olup α = 0 (sırasıyla. Β = 0 yalnız]. Normal dağılımlar biraz karmaşık ve "özgürlük dereceleri" ve "şapka matrisleri" dahil oldular göründükleri ayrıntıları (notasyonu dayalı A sürekli EKK regresyon teoride görünen matrisleri bazıları için).tα=0β=0) uygun bir normal dağılımdaki numunelere dayanarak [bir değişkenin, yani veya b'nin dağılımıabA^

  2. Evet. Genellikle, Maksimum Olabilirlik Tahmini ile yapılır (ve tanımlanır) . İçin regresyon doğrusal OLS ve diğer modellerin az sayıda veriden parametrelerinin hesaplanması için kesin formüller vardır. Daha genel gerilemeler için çözümler, doğada yinelemeli ve sayısaldır.

  3. Direkt olarak değil. Bir p-değeri, tüm modelin bir testi için ayrı ayrı hesaplanır, yani, tüm katsayıların (gerçekte değişeceği varsayılan değişkenler olduğu varsayılır), yani eğer varsa "sabit terim" katsayısını içermez. bir). Ancak bu p değeri genellikle katsayıların p değerleri bilgisinden hesaplanamaz.


2
(1) noktasında, bir parametre ile bir tahminci arasında biraz karışıklık olduğu görülüyor . -değeri tahmin yerine parametresi ile ilişkili olan ve tahmin (en azından klasik istatistik sabit kabul edilir), iki değişkenli normal değil, parametrelerdir. Tamamen mümkün (ve oldukça yaygın) olduğundan bireysel bazıları için Ayrıca noktasında (3.) içinde Yorumlarınızı karışıklığa yol açabilecek p regresyon tahminlerinin-değerlerinin ortak daha iki büyük ve küçük olmak üzere p karşılık gelen-değeri F testi. pppF
kardinal

@NRH: Üzgünüm, önceki yorumunuzu netleştirebilir misiniz? Ben henüz tam olarak takip etmiyorum. :)
kardinal

@ cardinal: Bir p-değerinin bir hipotez testiyle ilişkili olduğunu söylemek daha doğru görünüyor. Parametreler testin boş hipotezinde görünür ve çift (tahmin edicinin gözlenen değeri, alternatif hipotez) daha sonra bir p değeri belirler. Boş hipotezler, şimdi düzeltilmiş olan orijinal cevabında [dikkatsizce] yapıldığı gibi a = 0 tahmin edicileri yerine α = 0 gibi parametreler kullanılarak tanımlanmalıdır (hatayı işaret ettiğiniz için teşekkürler). Bununla birlikte, sözde karışık ya da eksik bir ayrım “tahmin ediciler değişkenler normaldir, parametreler değil” cevabında açıkça belirtilmiştir.
zyx

1
Üzgünüm, direnemedim. @ zyx matematikteki orjinal yayına yorum yaptı. Bazen matematiksel olarak kesin olmamakla birlikte birçok cevabın oldukça doğru olduğunu düşünüyorum . Bu şeylerin doğasında var. İstatistiksel sorular ve cevaplar her zaman kesin matematiksel ifadelere indirgenemez. Özellikle de zor olanları değil. Yine de burada verilen cevap bence ne kesin, ne de kesindir.
NRH,

3
Oy kullanmayanların açıklayıcı bir yorumda bulunmasının iyi olacağını düşünüyorum.
kardinal

1

İlk sorunuzun cevabı: bu, seçtiğiniz yazılıma bağlıdır. Her ikisi de olasılık oran testlerine dayanan bu senaryolarda sıklıkla kullanılan iki tür p değeri vardır (diğerleri de vardır ancak bunlar tipik olarak eşdeğerdir veya sonuçlarında en azından çok az farklılık gösterir).

Tüm bu p değerlerinin farklı olduğunu anlamak önemlidir. şartlı (parçası) üzerinde parametrelerin kalanı. Bunun anlamı şudur : Diğer parametre tahminlerinin (bazıları) doğru olduğunu varsayarsak , parametre katsayısının sıfır olup olmadığını test edersiniz. Tipik olarak, bu testler için boş hipotez, katsayının sıfır olduğu, yani küçük bir p değerine sahipseniz, bunun anlamı (koşullu olarak diğer katsayıların değerine göre) katsayının kendisinin sıfır olma olasılığı olmadığıdır.

Tip I, modelde kendisinden önce gelen katsayıların değerine (soldan sağa) bağlı olarak her katsayının sıfırlığı için testi test eder. Tip III testleri (marjinal testler), diğer tüm katsayıların değerine bağlı olarak her katsayının sıfırlık testi.

Farklı araçlar varsayılan olarak farklı p değerleri sunar, ancak tipik olarak her ikisini de edinme yöntemleriniz vardır. Parametreleri bir sıraya dahil etmek için istatistiklerin dışında bir nedeniniz yoksa, genellikle tip III test sonuçlarıyla ilgileneceksiniz.

Son olarak (son sorunuza daha fazla ilişkin), olasılık oranı testiyle, geri kalanı koşullu herhangi bir katsayı kümesi için her zaman bir test oluşturabilirsiniz. Aynı anda sıfır olmak üzere birden fazla katsayıyı test etmek istiyorsanız, bunun için gitmenin yoludur (aksi halde bazı kötü çoklu test sorunlarıyla karşılaşırsınız).


Lütfen bahsettiğiniz şartlılığı detaylandırabilir misiniz? Varyans regresyon belirleyicileri ve bir yolunu kesmek, parametre doğrusal bir kombinasyonuna bir hipotez test ψ = C ' β kullanımları testi istatistik t = ψ - ψ 0pψ=cβ ...t=ψ^ψ0σ^c(XX)1c
caracal

Burada ψ = C ' β ile β parametre tahminlerinin vektörüdür ve c katsayıları bir vektör. X tasarım matristir ve σ kalan standart hatadır | | e | | 2 / ( n - ( p + 1 ) ) , burada e , tedarik edilen modelden kalanların vektörüdür. J'nin 0 olduğu tek bir parametrenin testi için c , j'dir.ψ^=cβ^β^cXσ^||e||2/(n(p+1))ejcj-birim vektör ve . Model karşılaştırmalarının t için nerede bir rol oynadığını anlamıyorum . ψ0=0t
caracal

Meselenin özü, burada örneğin ele geçirilir . Anova'nın sadece özel bir regresyon olayı olduğunu unutmayın. Temel olarak, bu şudur: B değişkenli veya değişkensiz bir modelde A değişkeninin (sıfır katsayısı) bir testi yaparsanız, farklı sonuçlar alabilirsiniz. Bu nedenle sonuç, modelinize, verilere (B değişkeninin değerleri için bile) ve dolayısıyla testinizde değil modelinizde koşullara bağlıdır. Bu fikri matematikte bulmak biraz daha zor olabilir :-)
Nick Sabbe

p1pcββjF=(SSerSSeu)/(dferdfeu)SSeu/dfeuSSerdfer||er||2 ve kısıtlı model için onların df, aynı şekilde usınırsız model için. Açıkçası, bu gerçekten sınırlı ve sınırsız modellerin seçimine bağlıdır.
caracal

Sürekli durum, tamamen 0-1 kodlanmış bir değişkene eşit olmalıdır.
Nick Sabbe
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.