Sorun kümelerinin hesaplanması, yorumlanması ve model seçim prosedürü hakkında genel sorular

Kullanarak modelleri seçmek istiyorum regsubsets(). Olympiadaten adlı bir veri çerçevem var (yüklenen veriler: http://www.sendspace.com/file/8e27d0 ). Önce bu veri çerçevesini ekleyin ve sonra analiz etmeye başlar, benim kod:

attach(olympiadaten)

library(leaps)
a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp + 
              Schoolyears + ExpMilitary + Mortality +
PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2)
summary(a)
plot(a,scale="adjr2")


summary(lm(Gesamt~ExpHealth))

arsanın ekran görüntüsü:

Sorun şimdi, en iyi modeli tekrar "manuel" sığdırmak ve ona bir göz atmak istiyorum, ama ayarlanmış R kare değeri regsubsets çıktı ile aynı değil mi? Bu, örneğin grafikteki en basit modeli yaptığımda diğer modeller için de geçerlidir:

summary(lm(Gesamt~ExpHealth))

Grafik, yaklaşık 0.14'lük bir R kare ayarına sahip olması gerektiğini söylüyor, ancak çıktıya baktığımda 0.06435 değeri alıyorum.

İşte çıktı summary(lm(Gesamt~ExpHealth)):

Call:
lm(formula = Gesamt ~ ExpHealth)

Residuals:
    Min      1Q  Median      3Q     Max 
-18.686  -9.856  -4.496   1.434  81.980 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  -3.0681     6.1683  -0.497   0.6203  
ExpHealth     1.9903     0.7805   2.550   0.0127 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 18.71 on 79 degrees of freedom
  (4 observations deleted due to missingness)
Multiple R-squared: 0.07605,    Adjusted R-squared: 0.06435 
F-statistic: 6.502 on 1 and 79 DF,  p-value: 0.01271

Neyi yanlış yapmış olabileceğimi bilmiyorum, herhangi bir yardım takdir edilecektir.

Ve son olarak, en önemlisi, bazı sorular:

AIC ve adj. Tarafından modelleri seçmek arasındaki fark nedir? R kare mi?
Her ikisi de uyumu ölçer ve değişken sayısını tanır, bu nedenle AIC tarafından seçilen en iyi model değil, aynı zamanda en yüksek adj. r kare?
12 değişkenim olduğunda, bu , modellerin olasılığı olduğu anlamına gelir , değil mi? $2^12$
Yani gelmez regsubsets()komut her modeli hesaplamak ve en iyi iki (göstermek nbest=2her boyutta)?
Eğer öyleyse, gerçekten 'en iyi' modeli alabilir miyim?
Ve geriye doğru seçim (tüm değişkenleri içeren model ile başlayan) kullanarak AIC yaptığımda, bu da regsubsets()en iyi olduğunu söyleyen aynı model ile sonuçlanır ?

r multiple-regression model-selection

— user1690846
kaynak

Düzeltilmiş fark

R^{2}

$R^2$ değişkenlerin bazılarının eksik değerlere sahip olmasıdır. Aynı şeyi ayarlayacağına inanıyorum

R^{2}

$R^2$ modeli "el ile", yalnızca tüm değişkenlerin (regsubsets içindeki formülde) eksik olduğu verilerin alt kümesini kullanarak yerleştirdiyseniz. Not: regsubsets kullanarak modelinizi seçmek kötü bir yöntem olarak kabul edilir.

— mark999

@ mark999 Yorumlarınız iyi ve doğru cevabı veriyor gibi görünüyor. Bir cevaba dönüştürmelisiniz.

— Michael R. Chernick

Teşekkürler @ MichaelChernick ama sadece yorum olarak bırakmayı tercih ediyorum.

— mark999

@ user1690846 Peter Flom'un istatistiklere cevabına bakmanızı tavsiye ederim. stackexchange.com/questions/8303/…

— mark999

@ mark999 her şeyden önce bir cevap için teşekkürler, ama bu neden kötü bir yöntem? AIC ile seçim daha mı iyi? Peki, na.omit (olympiadaten) kullanarak modele uymalı mıyım? Herkes diğer sorulara bir cevap varsa daha fazla cevap çok takdir edilecektir, teşekkürler

— user1690846

Yanıtlar:

Tüm alt kümeleri veya en iyi alt küme araçlarını "En İyi" uygun model bulmak için kullanma fikrini daha da ileriye taşımak için Darrell Huff'un "İstatistiklere Nasıl Yalan" kitabı, Readers Digest'in sigara dumanındaki kimyasalların karşılaştırmasını yayınladığı hakkında bir hikaye anlatıyor. Makalelerinin amacı, farklı markalar arasında gerçek bir fark olmadığını göstermekti, ancak bir marka kimyasalların bazılarında en düşüktü (ancak farkın anlamsız olduğu kadar az) ve bu marka, Readers Digest'e göre "en düşük" veya "en iyi" olmak.

Tüm altkümeler veya en iyi altkümeler regresyonları benzerdir, gösterdiğiniz grafikten alınan gerçek mesaj "burada En iyisi" değildir ama gerçekten en iyi tek model yoktur. İstatistiksel bir bakış açısından (düzeltilmiş r kare kullanılarak) modelinizin çoğunluğu hemen hemen aynıdır (alt kısımdaki birkaç tanesi yukarıdakilerden daha aşağıdır, ancak geri kalanı benzerdir). Bu tablodan bir "En İyi" model bulmak istemeniz, sigara şirketinin, amaçlarının hepsinin benzer olduğunu göstermek olduğunda ürünlerinin en iyisi olduğunu söylemeye benziyor.

İşte denemek, veri kümesinden bir noktayı rastgele silmek ve analizi yeniden çalıştırmak, aynı "En İyi" modeli alıyor musunuz? ya da değişiyor mu? "En İyi" modelin nasıl değiştiğini görmek için her seferinde farklı bir noktayı silerek birkaç kez tekrarlayın. Verilerdeki bu küçük değişiklik farklı bir "En İyi" verdiğinde bir modelin "En İyi" olduğunu iddia etmekten gerçekten rahat mısınız? Ayrıca, farklı modeller arasındaki katsayıların ne kadar farklı olduğuna bakın, bu değişiklikleri nasıl yorumluyorsunuz?

Verilerin arkasındaki soruyu ve bilimi anlamak ve bu bilgileri "En İyi" bir modele karar vermek için kullanmak daha iyidir. Çok benzer olan 2 modeli düşünün, tek fark bir modelin $x_1$ diğeri de $x_2$ yerine. Modeli $x_1$ ancak ölçmek için biraz daha iyi uyuyor (0.49'a karşı 0.49'a göre r kare) $x_1$ ameliyat gerektirir ve ölçüm yaparken laboratuvar sonuçları için 2 hafta bekler $x_2$ 5 dakika ve bir Sfigmomanometre alır. Ekstra r kare içinde ekstra 0,01 elde etmek için fazladan zaman, masraf ve risk almaya değer mi yoksa daha iyi model daha hızlı, daha ucuz, daha güvenli model mi? Bilim açısından mantıklı olan nedir? Yukarıdaki örnekte, orduya yapılan harcamaların artmasının olimpiyat performansını artıracağını düşünüyor musunuz? ya da bu, daha fazla doğrudan etkiye sahip olacak diğer harcama değişkenleri için vekil olarak hareket eden bir değişken midir?

Dikkate alınması gereken diğer şeyler arasında birkaç iyi model almak ve bunları birleştirmek (Model Ortalamalama) ya da her bir değişkenin ya bir çeşit ceza ekleyerek (Ridge regresyon, LASSO, elastik ağ, ...) ya hepsi ya da hepsi dışarıda olmasını sağlamaktır.

— Greg Snow
kaynak

İyi cevap! İçin zirveler iyi "model '' soruyu ve veri ve yardımına bilgiler karar kullanımla arkasındaki bilimi anlamak daha iyidir" ve aşağıdaki bütün paragrafı.

— Andre Silva

Bazı sorular cevaplandı, bu yüzden sadece model seçimi ile ilgili olanlara değiniyorum. AIC, BIC, Ebegümeci Cp ve ayarlanmış R $^2$ ölçülendirilmiş bir ölçü veya ölçütlerdeki ceza fonksiyonu ile fazla donmuş modellerin problemlerini hesaba katan modelleri karşılaştırmak ve seçmek için kullanılan yöntemlerdir. Ancak ceza fonksiyonlarının farklı olduğu durumlarda, iki benzer kriterin nihai bir model için farklı seçimlere yol açması çok olasıdır. Farklı kriterler için minimum değer farklı modelleri oluşturabilir. Bu, AIC ve BIC tarafından seçilen modellere bakıldığında oldukça sık gözlenmiştir.

En iyi modelle ne demek istediğini gerçekten bilmiyorum. Her kriter esasen farklı bir en iyi tanımını verir. Bir modeli en iyi bilgi, entropi, stokastik karmaşıklık, açıklanan yüzde varyans (ayarlanmış) ve daha fazlası olarak adlandırabilirsiniz. Belirli bir kretle uğraşıyorsanız ve mesela AIC için gerçek minimum değeri mümkün olan tüm modellerde en iyi şekilde yakalayarak anlamını taşıyorsanız, bu sadece tüm modellere (yani değişkenler için tüm alt küme seçimleri) bakılarak garanti edilebilir. Yükseltme, düşürme ve adım adım prosedür, her zaman belirli bir kret açısından en iyi modeli bulamaz. Adım adım regresyon ile farklı bir model başlatarak farklı cevaplar da alabilirsiniz. Eminim Frank Harrell bunun hakkında söyleyecek çok şeyi olacak.

Daha fazla bilgi edinmek için, model / alt küme seçimi hakkında birkaç iyi kitap var ve burada diğer yazılarda bazılarına referans verdim. Ayrıca Lacey Gunter'ın SpringerBrief serilerindeki Springer ile monografisi yakında çıkacak. O kitapta onunla birlikte yazdım.

— Michael R. Chernick
kaynak