Basit doğrusal regresyon, p değerleri ve AIC


14

Bu konu örneğin önce birkaç kez gelip vardır fark burada , ama yine de benim regresyon çıkışını nasıl yorumlanacağı iyi emin değilim.

Ben yere (loc) göre iki gruba bölünmüş bir x değerleri sütunu ve y değerleri sütunu içeren çok basit bir veri kümesi var . Puanlar şöyle görünür

resim açıklamasını buraya girin

Bir meslektaşım, kullandığım her gruba ayrı basit doğrusal regresyonlar eklememiz gerektiğini varsaydı y ~ x * C(loc). Çıktı aşağıda gösterilmiştir.

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.873
Model:                            OLS   Adj. R-squared:                  0.866
Method:                 Least Squares   F-statistic:                     139.2
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           3.05e-27
Time:                        14:18:50   Log-Likelihood:                -27.981
No. Observations:                  65   AIC:                             63.96
Df Residuals:                      61   BIC:                             72.66
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
=================================================================================
                    coef    std err          t      P>|t|      [95.0% Conf. Int.]
---------------------------------------------------------------------------------
Intercept         3.8000      1.784      2.129      0.037         0.232     7.368
C(loc)[T.N]      -0.4921      1.948     -0.253      0.801        -4.388     3.404
x                -0.6466      0.230     -2.807      0.007        -1.107    -0.186
x:C(loc)[T.N]     0.2719      0.257      1.057      0.295        -0.242     0.786
==============================================================================
Omnibus:                       22.788   Durbin-Watson:                   2.552
Prob(Omnibus):                  0.000   Jarque-Bera (JB):              121.307
Skew:                           0.629   Prob(JB):                     4.56e-27
Kurtosis:                       9.573   Cond. No.                         467.
==============================================================================

resim açıklamasını buraya girin

Katsayılar için p-değerlerine bakıldığında, konum ve etkileşim terimi için kukla değişken sıfırdan önemli ölçüde farklı değildir, bu durumda regresyon modelim esasen yukarıdaki grafikte sadece kırmızı çizgiye düşer. Bana göre bu, iki gruba ayrı satırlar yerleştirmenin bir hata olabileceğini ve daha iyi bir modelin aşağıda gösterildiği gibi tüm veri kümesi için tek bir regresyon hattı olabileceğini düşündürmektedir.

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.593
Model:                            OLS   Adj. R-squared:                  0.587
Method:                 Least Squares   F-statistic:                     91.93
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           6.29e-14
Time:                        14:24:50   Log-Likelihood:                -65.687
No. Observations:                  65   AIC:                             135.4
Df Residuals:                      63   BIC:                             139.7
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
Intercept      8.9278      0.935      9.550      0.000         7.060    10.796
x             -1.2446      0.130     -9.588      0.000        -1.504    -0.985
==============================================================================
Omnibus:                        0.112   Durbin-Watson:                   1.151
Prob(Omnibus):                  0.945   Jarque-Bera (JB):                0.006
Skew:                           0.018   Prob(JB):                        0.997
Kurtosis:                       2.972   Cond. No.                         81.9
==============================================================================

resim açıklamasını buraya girin

Bu bana görsel olarak iyi görünüyor ve tüm katsayılar için p değerleri artık önemli. Bununla birlikte, ikinci model için AIC birinciden çok daha yüksektir.

Model seçiminin sadece p-değerlerinden veya sadece AIC'den daha fazlası olduğunu anlıyorum, ancak bunun ne yapacağından emin değilim. Herkes bu çıktıyı yorumlama ve uygun bir model seçme konusunda pratik önerilerde bulunabilir mi?

Gözüme göre, tek regresyon çizgisi TAMAM görünüyor (bunların hiçbirinin özellikle iyi olmadığının farkındayım), ancak ayrı modellerin (?) Takılması için en azından bir gerekçe varmış gibi görünüyor.

Teşekkürler!

Yorumlara yanıt olarak düzenlendi

@Cagdas Ozgenc

İki hatlı model Python'un istatistik modelleri ve aşağıdaki kod kullanılarak takıldı

reg = sm.ols(formula='y ~ x * C(loc)', data=df).fit()

Anladığım kadarıyla, bu aslında böyle bir model için kısaca

y=β0+β1x+β2l+β3xl

burada , konumu temsil eden ikili "kukla" bir değişkendir. Pratikte bu sadece iki doğrusal model, değil mi? Tüm , ve model azaltırl o c = D l = 0lloc=Dl=0

y=β0+β1x

Yukarıdaki çizimde kırmızı çizgi var. Tüm , ve model olurl = 1loc=Nl=1

y=(β0+β2)+(β1+β3)x

Yukarıdaki çizimde mavi çizgi var. Bu model için AIC, istatistik modelleri özetinde otomatik olarak rapor edilir. Kullandığım tek hatlı model için

reg = ols(formula='y ~ x', data=df).fit()

Bence bu iyi mi?

@ user2864849

Tek hatlı modelin daha iyi olduğunu düşünmüyorum, ama için regresyon çizgisini ne kadar kötü sınırladığı konusunda endişeleniyorum . İki konum (D ve N) uzayda çok uzaklar ve ortadaki bir yerden ek veri toplamak, zaten sahip olduğum kırmızı ve mavi kümeler arasında kabaca çizilen noktalarda ek veri toplarsam hiç şaşırmam. Bunu yedeklemek için henüz hiçbir verim yok, ancak tek satır modelinin çok korkunç göründüğünü sanmıyorum ve işleri olabildiğince basit tutmayı seviyorum :-)loc=D

Düzenle 2

Sadece tamlık için, @whuber tarafından önerildiği gibi artık arsalar. İki hatlı model aslında bu açıdan çok daha iyi görünüyor .

İki satırlı model

resim açıklamasını buraya girin

Tek satırlı model

resim açıklamasını buraya girin

Herkese teşekkürler!


3
Tek regresyon çizgisinin neden size daha iyi geldiğini açıklamak ister misiniz? Benim için doğrusal olarak ayrılabilir iki küme görüyorum ve N kategorisinde çok az varyans var. Üst üste gelen güven grupları nedeniyle birincinin daha kötü olduğunu düşünüyor musunuz?
Marsenau

6
(1) Kesişme tahminleriniz size çok az şey söyler - bunlar verilerinizdeki değerleri aralığıyla ilgili değildir . Onların belirgin önem eksikliği sizi yanıltıcı. (2) Neler olup bittiğini gerçekten görmek için, kalıntıları iki uyumun her birine çizin. İkinci (tek satır) uyumun ne kadar kötü olduğu hemen belli olacak. x
whuber

3
@STudentT Modeller birbirinin içine yerleştirilmiştir; AIC bunları karşılaştırmak için gayet iyi. Her iki durumda da BTW, istatistikleri yayınlanır. R2
whuber

3
@StudentT her iki model de tüm veri noktalarını kullanır. Basit model daha az bağımsız değişken kullanır. Bir veri noktası tüm demettir.
Çağdaş Özgenç

5
Model seçimine hipotez testi tabanlı bir yaklaşım uygulamak istiyorsanız, her iki modelin de önemsiz olduğu için her ikisini de modelden kaldırmanın çok az içe aktarılacağını varsaymamalısınız . Eklem önemi için F testi uygun olacaktır.
Scortchi - Monica'yı eski durumuna döndürün

Yanıtlar:


1

Etkileşim olmadan her iki öngörücüyü de kullanmayı denediniz mi? Yani şöyle olur:

y ~ x + Loc

AIC ilk modelde daha iyi olabilir çünkü konum önemlidir. Ancak etkileşim önemli değildir, bu yüzden P-değerleri önemli değildir. Daha sonra Loc için kontrol ettikten sonra bunu x'in etkisi olarak yorumlayacaksınız.


1

Bence sadece p-değerleri ve AIC değerlerinin bir modelin uygulanabilirliğini belirleyebileceği fikrine meydan okudunuz. Ayrıca burada paylaşmayı seçtiğiniz için memnunum.

Gösterdiğiniz gibi, çeşitli terimleri ve muhtemelen etkileşimlerini düşündüğünüzde yapılan çeşitli ödünleşmeler var. Akılda tutulması gereken bir soru modelin amacı . Konumun üzerindeki etkisini belirlemek için görevlendirildiyseniz y, p değerinin ne kadar zayıf olduğuna bakılmaksızın konumu modelde tutmalısınız. Null sonuç, bu durumda önemli bilgilerdir.

İlk bakışta, Dyerin daha büyük olduğu ima edilmektedir y. Ama sadece dar bir aralık var xher ikisine de sahip olan Dve Nkonumu için değerleri. Bu küçük aralık için model katsayılarınızı yeniden oluşturmak muhtemelen çok daha büyük bir standart hata verecektir.

Ancak , tahmin etme kapasitesinin ötesinde bir yeri umursamıyorsunuzdur y. Bu sadece sahip olduğunuz verilerdi ve çiziminizde renk kodlaması ilginç bir desen ortaya koydu. Bu durumda , modelin öngörülebilirliği ile favori katsayınızın yorumlanabilirliğinden daha fazla ilgilenebilirsiniz . Bu durumda AIC değerlerinin daha yararlı olduğundan şüpheleniyorum. Henüz AIC'ye aşina değilim; ancak karışık terimi cezalandırıyor olabileceğinden şüpheleniyorum çünkü sabit bir yer değiştirebileceğiniz sadece küçük bir aralık var x. Konumu açıklamıyor çok az açıklıyor x.


0

Her iki grubu ayrı ayrı rapor etmelisiniz (veya belki de çok seviyeli modellemeyi düşünmelisiniz). Grupları basitçe birleştirmek, regresyonun temel varsayımlarından birini (ve diğer birçok çıkarımsal istatistik tekniğini), gözlemlerin bağımsızlığını ihlal eder. Veya başka bir deyişle, analizinizde dikkate alınmadıkça gruplama değişkeni (konum) gizli bir değişkendir.

Aşırı bir durumda, bir gruplama değişkenini göz ardı etmek Simpson'un paradoksuna yol açabilir. Bu paradoksta, her ikisinde de pozitif bir korelasyon bulunan iki grubunuz olabilir, ancak bunları birleştirirseniz (yanlış, yanlış) negatif bir korelasyonunuz vardır. (Ya da tam tersi, tabii ki.) Bkz. Http://www.theregister.co.uk/2014/05/28/theorums_3_simpson/ .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.