R'deki drop1 çıktısını yorumlama


14

R'de, drop1komut düzgün bir şey verir.
Bu iki komut size bazı çıktılar vermelidir:
example(step)#-> swiss
drop1(lm1, test="F")

Benimki şöyle:

> drop1(lm1, test="F")
Single term deletions

Model:
Fertility ~ Agriculture + Examination + Education + Catholic + 
    Infant.Mortality
                 Df Sum of Sq    RSS    AIC F value     Pr(F)    
<none>                        2105.0 190.69                      
Agriculture       1    307.72 2412.8 195.10  5.9934  0.018727 *  
Examination       1     53.03 2158.1 189.86  1.0328  0.315462    
Education         1   1162.56 3267.6 209.36 22.6432 2.431e-05 ***
Catholic          1    447.71 2552.8 197.75  8.7200  0.005190 ** 
Infant.Mortality  1    408.75 2513.8 197.03  7.9612  0.007336 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Bütün bunlar ne anlama geliyor? Ben hangi girdi değişkenleri tutulması karar "yıldız" yardımcı varsayıyorum. Yukarıdaki çıktıya baktığımda, "Sınav" değişkenini atmak ve "Eğitim" değişkenine odaklanmak istiyorum, yorumlama doğru mu?

Ayrıca, AIC değeri daha düşük, daha iyi, değil mi?

Ed. Lütfen aşağıdaki Topluluk Wiki yanıtını not edin ve bu çıktıyı netleştirmek için uygun görürseniz ekleyin.


7
R'deki yardım, işlevi nasıl kullanacağınızı açıklamak içindir. İstatistik üzerine bir ders olması amaçlanmamıştır. Ve bununla ilgili olarak, genel olarak R yardım sayfalarının bildiğim tüm açık kaynak paketlerinden en eksiksiz ve kullanışlı olduğuna inanıyorum. Ve bu konuda paketler ödemek. SPSS ve SAS size bir "yorum kılavuzu" olarak yarı gerçeklere ve tam anlamsızlara sahip bir sürü mumbo-jumbo verir.
Joris Meys

1
Bu soru reddedildi. + 1'imi vermek istemedim, ama şimdi bana oy vermek çok yapıcı değil gibi görünüyor: (1) OP bunun ödev olduğunu açıklıyor ve örnekleme için bir R yerleşik veri seti kullanıyor, veriler, (2) ile ilgili bir soru step()bu yazı yazılırken +2 olarak derecelendirilmiştir (peki neden ?!), (3) OP @ Joris'in yanıtının yararlılığını kabul etmiştir.
chl

@chl: R yardım sayfalarına gelince hassas ayakları olan tek kişi ben değilmişim gibi görünüyor :-). Ama gönülden sana katılıyorum. Soru geçerlidir, açık bir şekilde sorulmuştur ve bu nedenle onu aşağıya düşürmek için kesinlikle hiçbir neden yoktur.
Joris Meys

Heh, yardımım sırasında ayağımı çektiğimde üzgünüm, gerçekten komut satırı olan herhangi bir şey söz konusu olduğunda çok sabırlı değilim. Bu şekilde garipim, biliyorum. Beni çağıran ilk kişi sen değilsin :) Burası hoşuma gitti, insanlar dürüst.
gakera

İşte biz R ve R yardım savunucuları için rahatsız edici değil soruyu düzenledi :) Ve sadece okuyucuyu yanıltıcı OP önlemek için AIC sorusunu yeniden.
gakera

Yanıtlar:


10

drop1size AIC ölçütüne dayalı modellerin bir karşılaştırmasını verir ve seçeneği kullanırken yardım dosyalarında açıklandığı gibitest="F" bir "tip II ANOVA" eklersiniz . Yalnızca sürekli değişkenleriniz olduğu sürece , F değerleri sadece bu T değerleri kareler olduğu için bu tablo tam olarak eşdeğerdir . P değerleri tamamen aynıdır.summary(lm1)

Peki bununla ne yapmalı? Tam olarak bu şekilde yorumlayın: o terimi olmayan modelin, o terimle olan modelden "önemli ölçüde" farklı olduğunu ifade eder. Buradaki önem çoğu insanın düşündüğü gibi yorumlanamadığı için, etrafındaki "" ye dikkat edin. (çoklu test sorunu ve hepsi ...)

Ve AIC ile ilgili olarak: ne kadar düşük olursa o kadar iyi görünür. AIC, değişken için değil , model için geçerli bir değerdir . Dolayısıyla, bu çıktıdaki en iyi model, değişken inceleme olmayan model olacaktır.

Dikkat edin, hem AIC hem de F istatistiği hesaplaması R fonksiyonlarından farklıdır AIC(lm1). anova(lm1). İçin AIC(), bu bilgiler extractAIC(). İçin anova()fonksiyonu, bu tip I ve tip II SS aynı olmadığını ziyade ortada.

Kaba olmaya çalışmıyorum, ama orada yardım dosyalarında ne açıklandığını anlamadıysanız, ilk etapta işlevi kullanmamalısınız. Kademeli regresyon inanılmaz derecede zor, p değerlerinizi en derin şekilde tehlikeye atıyor. Yani yine do not p-değerleri üzerinde kendinizi temel. Modeliniz hipotezinizi yansıtmalı, tersi değil.


1
Bu düşünceyi beğendim, "Eğer zaten ne yaptığımı anlamıyorsam, öğrenmeye çalışmamalıyım ..." Bu aynı zamanda R yardımında alınan yaklaşımdır - zaten ne olduğunu bilmediğiniz sürece yardımcı olmaz devam ediyor. Bunun farklı bir şeyin başlangıcı olabileceğini umuyordum.
gakera

Ama cevabınızın bu kısmını kullanabilirim: "Tam olarak bu şekilde yorumlayın: o terimi olmayan modelin, o terim ile modelden önemli ölçüde farklı olup olmadığını ifade eder." Benim için bu, Pr (F) değerlerinin bu terimlerin her birinin önemi olduğu anlamına gelir ve küçük bir değer, bu değişkenin önemli olduğu anlamına gelir. Bu nedenle, iyi bir model yıldız içermeyen değişkenleri değil, "***" değişkenlerini içermelidir.
gakera

4
@gakera: Beni yanlış anladın. Ne yaptığınızı anlamıyorsanız, kullanmadan önce mutlaka öğrenmeye çalışmalısınız . Bu, istatistikleri okumak ve bir dersi takip etmek anlamına gelir. Bu nedenle, iyi bir model hipotezde formüle edilen değişkenleri içermelidir. Kendinizi "***" değişkenlerine dayandırıyorsanız, önce modelleme konusunda kapsamlı bir kursa ihtiyacınız vardır. Açıkçası son yorumumu anlamadın. Doğrudan iletişim için özür dilerim, adamla birlikte gelir. Kişisel bir şey değil.
Joris Meys

@gakera: Önemli bazı noktaları netleştirmek için cevabımı güncelledim. Temelde kullanabileceğinizi düşündüğünüz kısmı yanlış yorumladığınız için.
Joris Meys

Yaparak öğreniyorum, sonuçta bu ev ödevi, eğer bunu doğru anlamazsam kimse ölmeyecek - balık zaten öldü: P Şimdiye kadar yardım için teşekkürler ve endişelenme, bu değil internette ilk kez :)
gakera

4

Referans olarak, bu tabloya dahil edilmiştir değerler şunlardır:
Dfbelirtmektedir serbestlik derecesi , "serbestlik derecesi sayısı değişebilir serbesttir bir istatistik nihai hesaplanmasında değerleri sayısıdır."

Sum of SqKolon belirtir karelerinin toplamının (ya da daha kesin olarak sapmaların toplamı ). Kısacası bu, her bir değerin, bu değerlerin toplam ortalamasından saptığı miktarın bir ölçüsüdür.
RSSolduğu rezidüel kareler toplamı . Bunlar, bağımlı (veya çıktı) değişkenin öngörülen değerinin, kümedeki her veri noktası için gerçek değerden ne kadar değiştiğinin bir ölçüsüdür (veya daha çok sözlü olarak: veri tablosundaki her bir "satır").

AIColduğu Akaike bilgi kriteri genellikle kısacası, "açıklamak için çok karmaşık" olarak kabul ancak sadece bu, tahminen istatistiksel modelin uyum iyiliğinin ölçüsü. Daha fazla ayrıntıya ihtiyacınız varsa, üzerlerinde kelimeler olan ölü ağaçlara (yani kitaplar) dönmeniz gerekecektir. Veya Wikipedia ve oradaki kaynaklar.

Bu F value, F testi olarak adlandırılanı gerçekleştirmek için kullanılır ve Pr(F)bundan F değerinin ne kadar olası (veya Olasılık = Pr) olduğunu belirten değer türetilir . Sıfıra yakın bir Pr (F) değeri (ile gösterilir ***), iyi bir modele dahil edilmesi bir şekilde önemli olan bir giriş değişkeninin, yani içermeyen bir modelin "önemli ölçüde" farklı olduğunu gösterir. öyle.

Bu değerlerin tümü, drop1komut bağlamında , genel modeli (tüm girdi değişkenleri dahil), çıktı tablosundaki her satır başına belirli bir değişkenin kaldırılmasıyla sonuçlanan modelle karşılaştırmak için hesaplanır.

Şimdi, bu geliştirilebilirse, lütfen ekleyebilir veya herhangi bir sorunu açıklığa kavuşturabilirsiniz. Amacım sadece R komutunun çıktısından gerçek anlamına daha iyi bir "geriye doğru arama" referansı açıklamak ve sağlamaktır.


@gakera R kullanarak Pratik Regresyon ve Anova , doğrusal modelleri ve değişkenler / model seçimi ile ilgili yöntemleri anlamak için iyi bir başlangıç ​​noktasıdır. @ Joris'in işaret ettiği gibi, adım adım regresyon nadiren her derde devadır.
chl

hah, neden gönderemediğime dair feragatnamemi muhafaza ederken @chl linklerini eklediğiniz için teşekkür ederiz. Benim
emdiğimi

1
@gakera Düzenleme başına birden fazla bağlantı eklemek için daha fazla temsilciniz olması gerektiğini düşünüyorum - Bir Soru-Cevap web sitesinde başlarken bunun çok hoş olmadığını anlayabiliyorum. Son cümlenizi kendiniz kaldıracağınızı varsayıyordum. Öte yandan, kendi sorunuza cevap vermek için çok fazla oy beklememeniz gerektiğini düşünüyorum, çünkü bu bir tür özettir '(yine de yararlı).
chl

Bunu upvotes için yapmıyorum (bu Reddit: P) - yararlı özet tam olarak istediğim şey - esas olarak kendim için ama muhtemelen başkaları için de yararlı.
gakera

@gakera Eminim ki bu oyları almak için değildi. Çoğu zaman, daha fazla veya çelişkili bilgi eklemedikleri zaman, kendi yanıtımızı Topluluk Wiki (CW) olarak belirledik. Bu, başkalarının yanıtlarını özetlemek veya toplamak için tarafsız bir yoldur.
chl
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.