çoklu regresyon ve çoklu karşılaştırmalar


10

Diyelim ki p açıklayıcı değişkenlerin çoklu regresyonuna uyuyorum. T-testi bunlardan herhangi birinin anlamlı olup olmadığını kontrol etmeme izin verecektir ( ). Bazı alt kümelerinin önemli olup olmadığını kontrol etmek için kısmi bir F testi yapabilirim ( ).H 0 : β i = β j = . . . = β k = 0H0:βi=0H0:βi=βj=...=βk=0

Sık sık gördüğüm şey, birisinin 5 t-testinden 5 p-değeri almasıdır (5 ortak değişken olduğu varsayılarak) ve sadece p değeri <0.05 olanları tutar. Gerçekten bir çoklu karşılaştırma kontrol hayır olması gerektiği gibi biraz yanlış görünüyor? ve gibi bir şeyin önemli olduğunu ancak , ve gibi bir önemli olmadığını söylemek gerçekten adil mi?β 2 β 3 β 4 β 5β1β2β3β4β5

İlgili bir notta, diyelim ki 2 ayrı modelde 2 farklı regresyon (farklı sonuç). İki sonuç arasında önemli parametreler için çoklu bir karşılaştırma kontrolü olması gerekiyor mu?

Düzenleme: Benzer sorudan ayırt etmek için, p-değerlerine başka bir yorum var mı: "B_i diğer tüm ortak değişkenler için ayarlarken önemli (") önemlidir? Bu yorum her B_i'ye bakmamı ve 0.5'ten daha az olanları bırakmamı sağlıyor gibi görünüyor (bu da diğer gönderiye benzer).

Bana öyle geliyor ki B_i ve Y'nin bir ilişkisi olup olmadığını test etmenin kesin bir ateş yolu, her bir ortak değişken için bir korelasyon katsayısı p değeri elde etmek ve daha sonra bir multcomp yapmak olacaktır (bu kesinlikle sinyali kaybedecektir).

Son olarak, B1 / Y1, B2 / Y1 ve B3 / Y1 arasındaki korelasyonu hesapladığımı varsayalım (bu nedenle üç p değeri). İlişkisiz olarak, T1 / Y2, T2 / Y2, T3 / Y2 arasında bir korelasyon da yaptım. Doğru Bonferroni ayarının birlikte tüm 6 test için 6 (birinci grup için 3 ve ikinci grup için 3 yerine - ve böylece 2 "yarı" ayarlı p-değerleri elde) olacağını varsayıyorum.


1
Bu, (bu sorunun) bir kopyası gibi görünüyor [ istatistik.stackexchange.com/questions/3200/… değilse lütfen neden olmadığını söyleyin.
Peter Flom

Merhaba, Benzer ama tam olarak aynı değil. Belki daha iyi bir soru, biri p-değerleri listesini aldığında, aşağıdaki tek yorum olabilir: "Tüm diğer parametreler için kontrol, bu değişken / anlamlıdır". Hepsine nasıl bakacaksın.
user1357015

Sorunuzu düzenlemek istiyorsanız, sorun değil, ancak muhtemelen soruyu kendisi yapmak daha iyidir, böylece insanlar önce görür. Ama "Hepsinde nasıl düşünülmüş görünüyorsun" ne demek istemiyorum.
Peter Flom

Yanıtlar:


10

Haklısın. Birden fazla karşılaştırma sorunu her yerde mevcuttur, ancak, tipik olarak öğretilme şekli nedeniyle, insanlar sadece bir sürü testi ile birçok grubu birbirleriyle karşılaştırmayı düşünürler. Gerçekte, çoklu karşılaştırma sorununun olduğu, ancak çok sayıda ikili karşılaştırma gibi görünmediği birçok örnek vardır; Örneğin, çok sayıda sürekli değişkeniniz varsa ve bunlardan herhangi birinin ilişkili olup olmadığını merak ediyorsanız, çoklu karşılaştırma probleminiz olacaktır (buraya bakın: Bakın ve bir korelasyon bulacaksınız ). t

Başka bir örnek, yetiştirdiğiniz kişidir. 20 değişkenli bir çoklu regresyon yapacaksanız ve eşik olarak kullandıysanız , tüm null'ler doğru olsa bile değişkenlerinizden birinin şans eseri 'önemli' olmasını beklersiniz. Çoklu karşılaştırmalar problemi basitçe çok sayıda analiz çalıştırmanın matematiğinden gelir. Tüm boş hipotezler doğruysa ve değişkenler mükemmel bir şekilde ilişkisiz olsaydı, herhangi bir gerçek boş değeri yanlış bir şekilde reddetmeme olasılığı olurdu (örneğin, , bu ). α=.051 - ( 1 - α ) p p = 5 .231(1α)pp=5.23

Buna karşı ilk hafifletme stratejisi, modelinizin eşzamanlı bir testini yapmaktır. Bir OLS regresyonu takıyorsanız, çoğu yazılım, çıktınızın varsayılan bir parçası olarak size küresel bir testi verecektir . Genelleştirilmiş bir doğrusal model çalıştırıyorsanız, çoğu yazılım size benzer bir küresel olabilirlik oranı testi verecektir. Bu test, çoklu karşılaştırma problemi nedeniyle tip I hata enflasyonuna karşı size biraz koruma sağlayacaktır (bkz. Burada cevabım: Doğrusal regresyondaki katsayıların önemi: anlamlı t-testi vs anlamlı olmayan F-istatistiği ). Benzer bir durum, birkaç kukla kodla temsil edilen kategorik bir değişkeniniz olduğunda; bu yorumlamak istemezsiniz.Ftt-testler, ancak tüm kukla kodları bırakır ve bunun yerine iç içe bir model testi yapar.

Bir başka olası strateji, Bonferroni düzeltmesi gibi bir alfa ayarlama prosedürü kullanmaktır. Bunu yapmanın gücünüzü azaltacak ve aile tipi I. hata oranınızı azaltacağını anlamalısınız. Bu değiş tokuşun değip değmeyeceği bir karar vermenizdir. (FWIW, tipik olarak çoklu regresyonda alfa düzeltmeleri kullanmıyorum.)

Model seçimi yapmak için -değerlerini kullanma konusuna gelince, bunun gerçekten kötü bir fikir olduğunu düşünüyorum. 5 değişkenli bir modelden sadece 2 olan bir modele geçmeyeceğim, çünkü diğerleri 'anlamlı değildi'. İnsanlar bunu yaptığında, modellerine ağırlık verirler. Cevabımı burada okumanıza yardımcı olabilir: bunu daha iyi anlamak için otomatik model seçimi algoritmaları . p

Güncellemenizle ilgili olarak, son çoklu regresyon modelinde hangi değişkenlerin kullanılacağına karar vermek için önce tek değişkenli korelasyonları değerlendirmenizi önermem. Bunu yapmak, değişkenler birbirleriyle mükemmel bir şekilde ilişkisiz olmadıkça endojenlik sorunlarına yol açacaktır. Burada cevabım bu konuyu ele: Tahmin yerineb1x1+b2x2b1x1+b2x2+b3x3 .

Farklı bağımlı değişkenlerle analizlerin nasıl ele alınacağı sorusu ile ilgili olarak, bir tür ayarlama kullanmak isteyip istemediğiniz, analizleri birbirine göre nasıl gördüğünüze bağlıdır. Geleneksel fikir, anlamlı olarak bir 'aile' olarak kabul edilip edilmeyeceklerini belirlemektir. Burada tartışılmaktadır: Bir "hipotez ailesi" için açık ve pratik bir tanım ne olabilir? Bu konuyu da okumak isteyebilirsiniz: Birden çok bağımlı değişkeni tahmin etme yöntemleri .


Bunun için teşekkür ederim. Sadece ihtiyacım olan şey bu. Edogeneity yorumunuz hakkında. Bu anlamlıdır, ancak korelasyon p-değerleri üzerinde konservatif Bonferroni düzeltmesi yaparsam, endegoneity olsa bile, bonferroni düzeltmesi bunu açıklamamalıdır?
user1357015

Bonferroni düzeltmesi endojenite ile ilgisi yoktur. Eğer ortak değişkenleriniz birbiriyle hiç ilişkiliyse, tek değişkenli XY korelasyonları ilişkinin yanlı tahminleri olacaktır. Oraya sığdırmak ve durmak istediğiniz modeli takmalısınız. Genellikle, daha fazla ilerlemeye gerek yoktur. Gerçek bir öngörme modeli yapmanız gerekiyorsa, çapraz doğrulamayı veya buna uygun diğer teknikleri kullanmalısınız.
gung - Monica'yı

0

Pratik düzeyde, Betas'ın kategorik değişkenlerin (yani aptallar) seviyelerini yansıtıp yansıtmadığını da düşünmek gerekir. Bu durumlarda, belirli bir Beta'nın (anlamlı) bir referans Beta'ya kıyasla farklı olup olmadığını bilmek ilginizi çekebilir. Ancak ikili karşılaştırmalar yapmadan önce , kategorik değişken seviyelerinin genel olarak önemli olup olmadığını bilmek gerekir (bir ortak F testi veya bir olasılık oranı testi kullanarak). Bunu yapmak daha az df kullanma avantajına sahiptir

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.