Önem testi veya çapraz doğrulama?


20

İlişkili değişkenleri seçmek için iki yaygın yaklaşım, önem testleri ve çapraz validasyondur. Her biri hangi sorunu çözmeye çalışıyor ve ne zaman diğerini tercih ederim?

Yanıtlar:


22

İlk olarak, açık , vektör ) parametresi ile (ilişkili veya değil) gibi birkaç farklı değişken üzerinde bir yanıt değişkenini çoklu doğrusal regresyon bağlamına ve regresyon işlevi . belirli bir gözlemi . x 1 , , x p β = ( β 0 , β 1 , , β p ) f ( x 1 , , x p ) = β 0 + β 1 x 1 + + β p x p , x 1 , , X pyx1,,xpβ=(β0,β1,,βp)

f(x1,,xp)=β0+β1x1++βpxp,
x1,,xp

Soru bir alt kümesini seçmek için nasıl 'in, özellikle de sıfır olmayan, ve, bir karşılaştırma olarak anlamlılık testleri karşı çapraz doğrulama .βi

Terminoloji konusunda kristal netliğinde olmak için, önem testi farklı bağlamlarda farklı bir şekilde gerçekleştirilen genel bir kavramdır. Örneğin, bir test istatistiği seçimine bağlıdır. Çapraz doğrulama gerçekten önemli bir genel kavram olan ve bir kayıp fonksiyonunun seçimine bağlı olarak beklenen genelleme hatasının tahmini için bir algoritmadır .

Beklenen genelleme hatası resmen tanımlamak için biraz teknik ama deyişle öyle bağımsız bir veri seti üzerinde tahmin için kullanıldığında donatılmış bir modelin beklenen kaybı beklentisi tahmini yanı sıra bağımsız veriler için kullanılan verilerin bitti, tahmin için kullanılan küme.

Makul bir karşılaştırma yapmak için değerinin 0'a eşit olup olmadığına odaklanalım .β1

  • İçin anlamlılık testleri arasında boş hipotezinin ana prosedür hesaplamak için seçilen test istatistik Veri kümesi için gözlenenden daha büyük olduğu olasılığıdır-değeri, sıfır hipotezi altında olduğu, varsayarak . Yorum, küçük bir değerinin sıfır hipotezine karşı kanıt olduğudur. Ünlü 0.05 veya 0.01 önem seviyeleri gibi mutlak anlamda "küçük" ne anlama geldiği için yaygın olarak kullanılan kurallar vardır.β1=0pβ1=0p
  • İçin beklenen genelleme hata belki çapraz doğrulama, varsayımı altında beklenen genelleştirme sapmasının bir tahminini kullanarak hesaplamak . Bu miktar bize kullandığımız yöntemin ve ile modellerin bağımsız veriler üzerinde tahmin için kullanıldığında ortalama olarak ne kadar iyi performans göstereceğini gösterir . Beklenen büyük bir genelleme hatası kötüdür, ancak kötü olması için ne kadar büyük olması gerektiğine dair mutlak değeri açısından hiçbir kural yoktur. değerinin farklı olmasına izin verilen model için beklenen genelleme hatasını tahmin etmek zorundayız ve sonra iki tahmini hatayı karşılaştırabiliriz. Hangisi en küçükse seçtiğimiz modele karşılık gelir. β1=0β1=0β1

Anlamlılık testini kullanarak , doğrudan diğer modellere göre sıfır hipotezi altındaki modelin "performansı" ile ilgilenmiyoruz , ancak sıfırın yanlış olduğunu belgelemekle ilgileniyoruz . Bu, benim için asıl amacın, olarak formüle edilebilen, önceden belirlenmiş iyi bir bilimsel hipotezi onaylamak ve belgelemek olduğu doğrulayıcı bir kurulumda en anlamlı .β10

Beklenen genelleme hatası , diğer taraftan, sadece beklenen tahmini kaybı açısından ortalama "performans" ile ilgilidir ve bu izin en iyisidir verdiği sonucuna varır tahmini açısından 0'dan farklı olması belgeye bir girişim değildir bu , "gerçekten" farklıdır ne anlama .β1β1

Kişisel olarak hiçbir zaman anlamlılık testine ihtiyaç duyduğum bir sorun üzerinde çalışmadım, ancak -değerleri çalışmalarıma giriyor ve değişken seçim için mantıklı kılavuzlar ve ilk izlenimler sağlıyor. Bununla birlikte, çoğunlukla herhangi bir resmi model seçimi için genelleme hatası ile birlikte kement gibi cezalandırma yöntemlerini kullanıyorum ve yavaş yavaş -değerlerini hesaplamak için eğilimi bastırmaya çalışıyorum . pp

Keşif analizi için anlamlılık testi ve -değerleri lehine bir argüman görmüyorum ve kesinlikle değişken seçimi için beklenen genelleme hatası gibi bir konsepte odaklanmanızı tavsiye edeceğim. 0 olmadığını belgelemek için bir değeri kullanmayı düşünebileceği diğer bağlamlarda , bunun yerine tahmini ve bunun yerine bir güven aralığını bildirmenin neredeyse her zaman daha iyi bir fikir olduğunu .ppβ1β1


17

Sadece önem testleri ve model seçimi yapmak için aşamalı bir prosedür kullanmak, aslında, önemli bir yordayıcıya sahip çok güçlü bir modeliniz olduğuna inanmanıza neden olabilir; şans eseri güçlü korelasyonlar elde edebilirsiniz ve diğer gereksiz yordayıcıları kaldırdığınızda bu korelasyonlar daha iyi görünebilir.

Seçim prosedürü, elbette, yalnızca sonuçla en güçlü korelasyonları olan değişkenleri tutar ve aşamalı prosedür ilerledikçe, Tip I hatası yapma olasılığı hayal ettiğinizden daha büyük olur. Bunun nedeni, standart hataların (ve dolayısıyla p-değerlerinin) değişkenlerin modele rasgele dahil edilmek üzere seçilmemesi ve bu seti seçmek için çoklu hipotez testlerinin yapılması dikkate alınarak ayarlanmamış olmasıdır.

David Freedman, " Regresyon Denklemlerini Tarama Üzerine Bir Not " adlı bu noktaları sergilediği sevimli bir makaleye sahiptir . Soyut:

Maddi teorinin zayıf olduğu bir bağlamda bir regresyon modeli geliştirmeyi düşünün. Aşırı bir duruma odaklanmak için, aslında bağımlı değişken ve açıklayıcı değişkenler arasında bir ilişki olmadığını varsayalım. Yine de, eğer çok sayıda açıklayıcı değişken varsa, yüksek olacaktır. Eğer küçük t istatistiğine sahip açıklayıcı değişkenler düşürülürse ve denklem geri çekilirse, yüksek kalacaktır ve genel F oldukça anlamlı hale gelecektir. Bu simülasyon ve asimtotik hesaplama ile gösterilmiştir.R2R2

Bahsettiğiniz gibi, bu soruna olası bir çözüm, bir çapraz doğrulama varyantı kullanmaktır. Modelime inanmak için iyi bir ekonomik (araştırma alanım) veya istatistiksel bir nedenim olmadığında, uygun bir model seçmek ve çıkarım yapmak için tercih ettiğim yaklaşım budur.

Diğer katılımcılar, AIC veya BIC kullanan aşamalı prosedürlerin asemptomatik olarak çapraz validasyona eşdeğer olduğunu belirtebilirler. Bununla birlikte, bu sadece öngörücü sayısına göre gözlem sayısı arttıkça işe yarar. Gözlem sayısına göre çok sayıda değişken olması bağlamında (Freedman, 10 veya daha az gözlem başına 1 değişken diyor), bu şekilde seçim yukarıda tartışılan zayıf özellikleri gösterebilir.

Güçlü bilgisayarlar çağında, aşamalı seçim üzerinde çapraz seçimin bir model seçim prosedürü olarak kullanılmaması için herhangi bir neden görmüyorum.


AIC veya BIC kullanarak aşamalı prosedürler için referans verebilir misiniz ? Çapraz doğrulama ile asimpotik olarak eşdeğerdir ? AIC / BIC'nin çapraz doğrulamaya eşdeğerliğini okudum, ancak kademeli bir ortamda değil.
Richard Hardy
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.