Bir regresyon modelinin ne zaman uygun olduğunu nasıl tespit edebilirim?


14

İşi yapan siz olduğunuzda, ne yaptığınızın farkında olmak, modele ne zaman uyduğunuz konusunda bir fikir geliştirir. Birincisi, trend veya bozulmayı modelin Düzeltilmiş R Meydanı'nda takip edebilirsiniz. Ana değişkenlerin regresyon katsayılarının p değerlerinde de benzer bir bozulmayı izleyebilirsiniz.

Ancak, başka birini okuduğunuzda ve kendi iç model geliştirme süreci hakkında bir fikriniz yoksa, bir modelin aşırı uyup uymadığını nasıl net bir şekilde tespit edebilirsiniz.


Sadece konuyla ilgili birkaç fikir atmak için, çalışma standart regresyon istatistiklerini açıklıyorsa, katsayıların t istatistiklerine ve p değerlerine odaklanabilirsiniz. Modelin RSquare değeri yüksekse; ancak, değişkenlerden biri veya daha fazlası stat <2.0'dadır; bu kırmızı bir bayrak olabilir. Ayrıca, bazı değişkenlerdeki katsayıların işareti, muhtemelen başka bir kırmızı bayrak olan mantığa meydan okuyorsa. Çalışma model için bir bekleme süresi açıklamazsa, bu başka bir kırmızı bayrak olabilir. Umarım başka ve daha iyi fikirleriniz olur.
Sympa

Bir yol, modelin diğer (ancak benzer) veriler üzerinde nasıl performans gösterdiğini görmektir.
Shane

Yanıtlar:


15

Çapraz doğrulama ve düzenlileştirme, aşırı takmayı önlemek için oldukça yaygın tekniklerdir. Hızlı bir şekilde almak için, Andrew Moore'un çapraz doğrulama ( ayna ) kullanımı ile ilgili eğitici slaytlarını öneriyorum - uyarılara özellikle dikkat edin. Daha fazla ayrıntı için, konuyu ve ilgili konuyu derinlemesine kapsayan EOSL'nin 3. ve 7. bölümlerini kesinlikle okuyun .


2
Vay canına, Andrew Moore'un çapraz doğrulama hakkındaki eğitimi dünya standartlarında.
Sympa

7

Bir modeli kendim takarken genellikle uydurma işlemi sırasında AIC veya BIC gibi bilgi ölçütlerini veya alternatif olarak maksimum olasılığa dayalı modeller için Olabilirlik oranı testlerini veya en küçük karelere dayanan modeller için F-testini kullanırım.

Hepsi kavramsal olarak benzerdir, çünkü ek parametreleri cezalandırırlar. Bir modele eklenen her yeni parametre için "ek açıklayıcı güç" eşiği belirlediler. Hepsi bir çeşit düzenlileştirme .

Diğerlerinin modelleri için, bu tekniklerin kullanılıp kullanılmadığını görmek için yöntemler bölümüne bakıyorum ve parametre başına gözlem sayısı gibi başparmak kurallarını da kullanıyorum - parametre başına yaklaşık 5 (veya daha az) gözlem varsa merak etmeye başlıyorum.

Önemli olması için bir modelde bir değişkenin "önemli" olması gerekmediğini daima unutmayın. Bir karıştırıcı olabilirim ve hedefiniz diğer değişkenlerin etkisini tahmin etmekse bu temelde yer almalıyım.


AIC ve BIC testlerine bağlantılar için teşekkürler. Değişken eklemek için modelleri cezalandırarak benzer bir şey yapan Düzeltilmiş R Meydanı'na çok değer katıyorlar mı?
Sympa

1
@Gaeten, Düzeltilmiş R-kare, önceki ve sonraki modelin bir F testi önemli olduğunda artacaktır, bu nedenle eşdeğerdirler, ancak normal olarak ayarlanmış bir R-kare hesaplanması bir p değeri döndürmez.
Thylacoleo

1
@Gaeten - AIC & BIC, F testlerinden daha geneldir ve genellikle en küçük karelere uyan modellerle sınırlı olan ayarlanmış R-kare şeklindedir. AIC & BIC, olasılığın hesaplanabileceği ve serbestlik derecelerinin bilinebildiği (veya tahmin edilebildiği) herhangi bir model için kullanılabilir.
Thylacoleo

Bir değişken grubunu test etmek bir düzenlenme biçimi değildir (büzülme). Ve test, birine aşırı takılmayı azaltmakla hiçbir ilgisi olmayan değişkenleri kaldırma cazibesi verir.
Frank Harrell

@FrankHarrell Bu eski yorumunuzu biraz ayrıntılandırabilir misiniz? Bana öyle geliyor ki, bir değişkenin kaldırılması aşırı uydurmayı azaltacaktır, diğer tüm şeyler eşittir, çünkü fazla oturmak için mevcut özgürlük dereceleri azalır. Burada bazı nüansları kaçırdığımdan eminim.
Lepidopterist

5

BICmM

P(model m is true|one of the M models is true)wmexp(12BICm)j=1Mwjexp(12BICj)
=11+jmMwjwmexp(12(BICjBICm))

wjwj=1

BICfinal<BICjpd

M1+p+(p1)++(pd+1)=1+p(p1)(pd)(pd1)2

M1+p+(p1)++(d+1)=1+p(p1)d(d1)2

MBICjλBICm=BICjλ

11+(M1)exp(λ2)

λMM

11+p(p1)d(d1)2exp(λ2)

p=50d=20λP0

λ>2log(2(1P0)P0[p(p1)d(d1)])

P0=0.9λ>18.28


+1, bu gerçekten akıllı. Bu bir yerde yayınlandı mı? Bunun için 'resmi' bir referans var mı?
gung - Monica'yı eski

@gung - neden teşekkür ederim. Ne yazık ki, bu "zarfın arkası" cevabı idi. Daha ayrıntılı bir şekilde araştırırsanız, bununla ilgili problemler olduğundan eminim.
olasılık
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.