Bireysel regresyonlar önemli olduğunda, ancak VIF'ler düşük olduğunda çoklu bağlantı


13

tahmin etmek için kullandığım 6 değişkenim var ( ) . Veri analizimi yaparken önce çoklu doğrusal regresyon denedim. Bundan sadece iki değişken anlamlıydı. Bununla birlikte, her bir değişkeni ayrı ayrı karşılaştıran doğrusal bir regresyon çalıştırdığımda , biri hariç hepsi anlamlıydı ( , 0.01'den 0.001'e kadar herhangi bir yerde). Bunun çoklu bağışıklığa bağlı olduğu ileri sürüldü. y y px1...x6yyp

Bu konudaki ilk araştırmam VIF'leri kullanarak çoklu doğrusallığı kontrol etmeyi önermektedir . Uygun paketi R'den indirdim ve sonuçta ortaya çıkan VIF'lerle sonuçlandım: 3.35, 3.59, 2.64, 2.24 ve 5.56. Çevrimiçi çeşitli kaynaklara göre, VIF'lerinizle çoklu bağlantı konusunda endişelenmeniz gereken nokta 4 veya 5'tir.

Şimdi bunun verilerim için ne anlama geldiğini bilmiyorum. Çoklu bağlantı problemim var mı ya da yok mu? Eğer yaparsam, nasıl bir yol izlemeliyim? (Daha fazla veri toplayamıyorum ve değişkenler bir modelin açıkça ilişkili olmayan bölümleridir) Bu problemim yoksa, verilerimden ne almalıyım, özellikle bu değişkenlerin son derece önemli olması ayrı ayrı, ancak birleştirildiğinde hiç önemli değil.

Düzenleme: Veri kümesi ile ilgili bazı sorular soruldu ve bu yüzden genişletmek istiyorum ...

Bu özel durumda, belirli sosyal ipuçlarının (jest, bakış vb.) Başka bir ipucu üretme olasılığını nasıl etkilediğini anlamak istiyoruz. Modelimizin tüm önemli özellikleri içermesini istiyoruz, bu yüzden gereksiz görünen bazılarını kaldırmaktan rahatsızım.

Şu anda bununla ilgili herhangi bir hipotez yok. Aksine, sorun incelenmemiştir ve hangi özelliklerin önemli olduğunu daha iyi anlamak istiyoruz. Anlayabildiğim kadarıyla, bu özellikler birbirinden nispeten bağımsız olmalıdır (sadece bakışların ve hareketlerin aynı olduğunu veya bir diğerinin alt kümesini söyleyemezsiniz). Diğer araştırmacıların neye bakıldığını anlamasını istediğimiz için, her şey için p değerlerini bildirmek güzel olurdu.

Düzenleme 2: bir yerde aşağıda yukarı geldiğinden beri, benim 24 olduğunu.n


Eğer varsayarsak do @ rolando2 modelin amaçlanan amacına, anlaşılacağı gibi çoklu doğrusal var, sen genişletebilirsiniz? Tüm öngörücülerin diğer araştırmacılar için önemli olduğu (bu durumda her biri için önem düzeylerini bildirmek istersiniz) mi yoksa sadece bir veya iki tanesini dışarı atabilir misiniz?

@jlovegren Yukarıda bazı bilgiler ekledim - daha fazla bilgiye ihtiyacınız varsa bana bildirin.
cryptic_star

Açıklayıcı değişkenler sürekli olarak ölçülüyor mu? Bu durumda, çok zor olmayan artıklaştırma yöntemleri vardır. Eğer kategorik iseler, bilmiyorum ama umarım başka biri olur (ben bu sitede benzer bir soru sordum ).

@jlovegren Altı değişkenin beşi sayımdır.
cryptic_star

bir şey daha, sadece emin olmak için. sayımların sıkça ulaşılan net bir üst limiti var mıdır veya prensipte sınırsız sayımın maksimum değeri varsa?

Yanıtlar:


18

Neler olabileceğini anlamak için, tarif edilen şekilde davranan verileri üretmek (ve analiz etmek) öğreticidir.

Basitlik için, altıncı bağımsız değişkeni unutalım. Dolayısıyla, soru, bir bağımlı değişkeninin beş bağımsız değişken , karşı regresyonlarını açıklar ;x 1 , x 2 , x 3 , x 4 , x 5yx1,x2,x3,x4,x5

  • Her bir normal regresyon , ila daha düşük seviyelerde anlamlıdır . 0.01 0.001yxi0.010.001

  • Çoklu regresyon sadece verimi önemli katsayıları ve .x 1 x 2yx1++x5x1x2

  • Tüm varyans enflasyon faktörleri (VIF'ler) düşüktür, bu da tasarım matrisinde iyi koşullandırmayı gösterir (yani, arasında eksikliği ).xi

Bunu aşağıdaki gibi yapalım:

  1. ve için normal olarak dağıtılmış değerler oluşturun . ( sonra seçeceğiz .)x 1 x 2 nnx1x2n

  2. Let burada ortalama bağımsız normal bir hata . için uygun bir standart sapma bulmak için biraz deneme yanılma gerekir ; cezası çalışıyor (ve oldukça dramatiktir: edilir son derece iyi ile ilişkili ve sadece orta derecede korelasyon olsa bile, ve bireysel olarak).ε 0 ε 1 / -100 y x 1 x 2 x 1 x 2y=x1+x2+εε0ε1/100yx1x2x1x2

  3. Let = , , bağımsız standart normal hatadır. Bu kılan sadece biraz bağımlı . Bununla birlikte, ve arasındaki sıkı korelasyon sayesinde , bu, ve bu arasında küçük bir korelasyona neden olur .x 1 / 5 + δ j = 3 , 4 , 5 δ x 3 , x 4 , x 5 x 1 x 1 y y x jxjx1/5+δj=3,4,5δx3,x4,x5x1x1yyxj

İşte ovmak: Eğer yeterince büyütürsek, sadece ilk iki değişken tarafından neredeyse tamamen "açıklanmasına" rağmen , bu küçük korelasyonlar önemli katsayılara neden olacaktır .yny

rapor edilen p-değerlerini üretmek için gayet iyi çalıştığını gördüm . İşte altı değişkenin hepsinin dağılım grafiği matrisi:n=500

spm

Sağ sütunu (veya alt sıra) yapabilirsiniz inceleyerek bakın o ile iyi (pozitif) korelasyon vardır ve diğer değişkenlerle ancak çok az belirgin korelasyon. Bu matrisin geri kalanını inceleyerek, bağımsız değişkenlerinin karşılıklı olarak ilişkisiz göründüğünü görebilirsiniz (rastgele maskesi, bildiğimiz küçük bağımlılıkları maskeler.) Olağanüstü veriler yok - korkunç bir şey yok. dışsal veya yüksek kaldıraçlı. Histogramlar, bu altı değişkenin de normal olarak yaklaşık olarak dağıldığını gösterir: bu veriler istenildiği kadar sıradan ve "düz vanilya" dır.yx1x2x1,,x5δ

Regresyonu olarak karşı ve , p-değerleri, esasen ayrı ayrı regresyonlarında 0 olan karşı sonra, karşı ve karşı , p-değerleri 0.0024, 0.0083 ve 0.00064 sırasıyla : yani "son derece önemlidir". Ancak tam çoklu regresyonda, karşılık gelen p değerleri sırasıyla .46, .36 ve .52'ye şişer: hiç önemli değildir. Bunun nedeni, kez ve karşı gerilediğindeyx1x2yx3yx4yx5yx1x2, "açıklamak" için kalan tek şey, artıklarda yaklaşan küçük hata miktarıdır ve bu hata kalan ile neredeyse tamamen ilişkisizdir . ("Neredeyse" doğrudur: artıkların kısmen ve değerlerinden hesaplanması ve , zayıf bir ilişkisi olması gerçeğinden kaynaklanan çok küçük bir ilişki vardır. ve gördüğümüz gibi. Bu kalıntı ilişki olsa da, pratikte mümkün değildir.)εxix1x2xii=3,4,5x1x2

Tasarım matrisinin koşullandırma sayısı sadece 2.17'dir: bu çok düşüktür, yüksek çoklu doğrusallık belirtisi göstermez . (Mükemmel eşzamanlılık eksikliği 1 koşullama sayısına yansıtılacaktır, ancak pratikte bu sadece yapay veriler ve tasarlanmış deneylerle görülür. 1-6 aralığındaki koşullandırma sayıları (veya daha fazla değişkenle daha yüksek) dikkat çekici değildir.) Bu simülasyonu tamamlar: sorunun her yönünü başarıyla yeniden üretti.

Bu analizin sunduğu önemli bilgiler şunları içerir:

  1. p-değerleri bize doğrudan doğru dürüstlük hakkında hiçbir şey söylemez. Büyük oranda veri miktarına bağlıdır.

  2. Çoklu regresyonlardaki p değerleri ile ilişkili regresyonlardaki p değerleri (bağımsız değişkenin alt kümelerini içeren) arasındaki ilişkiler karmaşıktır ve genellikle öngörülemez.

Sonuç olarak, diğerlerinin de iddia ettiği gibi, p-değerleri model seçimi için tek rehberiniz (hatta ana rehberiniz) olmamalıdır.


Düzenle

Bu fenomenlerin ortaya çıkması için kadar büyük olması gerekli değildir . 500n500 Söz konusu ek bilgi esinlenerek, aşağıdaki ile benzer bir şekilde imal edilen bir veri kümesi olup (bu durumda için ). Bu, ve arasında 0,38 ile 0,73 arasında korelasyonlar yaratır . Tasarım matrisinin koşul numarası 9.05: biraz yüksek, ama korkunç değil. (Bazı temel kurallar 10'a kadar olan koşul sayılarının iyi olduğunu söyler.) karşı bireysel regresyonların p değerlerix j = 0,4 x 1 + 0,4 x 2 + δ j = 3 , 4 , 5 x 1 - 2 x 3 - 5 x 3 , x 4 , x 5n=24xj=0.4x1+0.4x2+δj=3,4,5x12x35x3,x4,x50.002, 0.015 ve 0.008'dir: anlamlı ila yüksek anlamlı. Bu nedenle, bazı çoklu doğrusallık söz konusudur, ancak kişi onu değiştirmek için çalışacak kadar büyük değildir. Temel içgörü aynı kalır : önem ve çoklu doğrusallık farklı şeylerdir; aralarında sadece hafif matematiksel kısıtlamalar vardır; ve tek bir değişkenin dahil edilmesinin veya hariç tutulmasının, ciddi çoklu doğrusallık sorunu olmasa bile, tüm p-değerleri üzerinde derin etkileri olması mümkündür.

x1 x2 x3 x4 x5 y
-1.78256    -0.334959   -1.22672    -1.11643    0.233048    -2.12772
0.796957    -0.282075   1.11182 0.773499    0.954179    0.511363
0.956733    0.925203    1.65832 0.25006 -0.273526   1.89336
0.346049    0.0111112   1.57815 0.767076    1.48114 0.365872
-0.73198    -1.56574    -1.06783    -0.914841   -1.68338    -2.30272
0.221718    -0.175337   -0.0922871  1.25869 -1.05304    0.0268453
1.71033 0.0487565   -0.435238   -0.239226   1.08944 1.76248
0.936259    1.00507 1.56755 0.715845    1.50658 1.93177
-0.664651   0.531793    -0.150516   -0.577719   2.57178 -0.121927
-0.0847412  -1.14022    0.577469    0.694189    -1.02427    -1.2199
-1.30773    1.40016 -1.5949 0.506035    0.539175    0.0955259
-0.55336    1.93245 1.34462 1.15979 2.25317 1.38259
1.6934  0.192212    0.965777    0.283766    3.63855 1.86975
-0.715726   0.259011    -0.674307   0.864498    0.504759    -0.478025
-0.800315   -0.655506   0.0899015   -2.19869    -0.941662   -1.46332
-0.169604   -1.08992    -1.80457    -0.350718   0.818985    -1.2727
0.365721    1.10428 0.33128 -0.0163167  0.295945    1.48115
0.215779    2.233   0.33428 1.07424 0.815481    2.4511
1.07042 0.0490205   -0.195314   0.101451    -0.721812   1.11711
-0.478905   -0.438893   -1.54429    0.798461    -0.774219   -0.90456
1.2487  1.03267 0.958559    1.26925 1.31709 2.26846
-0.124634   -0.616711   0.334179    0.404281    0.531215    -0.747697
-1.82317    1.11467 0.407822    -0.937689   -1.90806    -0.723693
-1.34046    1.16957 0.271146    1.71505 0.910682    -0.176185

Bu değişkenler arasındaki ilişkileri ve bunların y'yi tahmin etmedeki önemini açıklamaya çalıştığım düşünüldüğünde, eşzamanlılık eksikliği bana esasen ilk çoklu doğrusal regresyonun bana ne söylediğini anlatıyor mu: sadece iki değişkenin önemli olduğunu? Değişkenler eşbiçimlilik gösterdiyse, birkaçının önemli olduğu, ancak benzer bilgilerin sağlandığı anlamına mı gelir? Lütfen bu noktayı tamamen kaçırıp kaçırmadığımı bana bildirin - Ben kesinlikle bir istatistik uzmanı değilim.
cryptic_star

Oh, ve bunu orijinal yazıma ekleyeceğim, ama n 24'üm (insan denekler işe yarıyor, bu oldukça yüksek). Gönderinize dayanarak, çoklu bağlılık yapan insanların daha fazla veri almayı önerdiklerini varsayabilirim - farklılıkları daha iyi vurgulamak için.
cryptic_star

olduğunda bile fenomenlerinizin nasıl olabileceğini gösteren yeni bir örnek veriyorum . İlgili tüm sayılar pozitif tam sayılar olacak şekilde kolayca değiştirilebilir: sayımlar, yani. n=24
whuber

1
Eşdoğrusallık gereksiz olabilir açıklayıcı değişkenler (IV enzimlerini) bazı önerir, ancak bu değildir: İlk yorumunuzu Re mutlaka kılıf. Önemli olan IV'ler ve bağımlı değişken (DV) arasındaki ilişkilerdir. IV'lerden birinin diğer IV'lere büyük ölçüde bağımlı olması, ancak DV ile ilgili benzersiz yararlı bilgiler içermesi mümkündür. Bu kritik bir kavramdır: sadece IV'ler arasındaki ilişkilerin hiçbir analizi size hangi değişkenlerin DV'yi en iyi açıkladığını söyleyemez. Eşzamanlılık eksikliği - sadece IV'lerin bir özelliği - DV hakkında hiçbir şey ortaya çıkarmaz.
whuber

9

Çoklu bağlantı problemim var mı ya da yok mu? Eğer yaparsam, nasıl bir yol izlemeliyim?

Bu bir ya da durum değildir. Ve "4 veya 5" yönergesi konusunda şüpheliyim. Tahminlerinizin her biri için, katsayının standart hatası, yordayıcı diğerleriyle ilişkisiz olsaydı olduğu kadar 2.2 ila 5.6 kat daha büyüktür. Ve belirli bir öngörücünün başkaları tarafından açıklanamayan kısmı 1 / 2.2 ila 1 / 5.6 veya% 18 ila 45 arasında değişir. Tamamen, bu oldukça önemli bir eşzamanlılık gibi görünüyor.

Ama bir dakika geriye gidelim. Gerçekten çalışıyorsun tahmin çalışırken aksine, * Y * açıklamak bunu? Eğer öncekiyse, o zaman modelde başkaları varsa belirli bir değişkenin önem düzeyinin değişip değişmediğine dikkat etmeniz gerekmez. İşiniz, gerçek bir açıklamaya ihtiyaç duyulduğu zaman olduğundan çok daha kolay.

Açıklama amacınızsa, bu değişkenlerin birbiriyle nasıl ilişkili olduğunu düşünmelisiniz - istatistiksel bilgilerden daha fazlasını gerektiren bir şey. Açıkça, Y ile ilişkilerinde örtüşüyorlar ve bu eşzamanlılık, örneğin Y'yi hesaba katmada önem derecelerinin belirlenmesini zorlaştıracak . Bu durumda izleyebileceğiniz tek bir yol yoktur.

Her durumda, umarım çapraz validasyon yöntemlerini düşünürsünüz.


Bu cevap, John'unki gibi, düşük p değerlerini yüksek korelasyon ile karıştırıyor gibi görünüyor. Unutmayın: katsayıların standart hataları artan veri miktarı ile azalır ( caeteris paribus ), bu nedenle yeterli gözlem olması koşuluyla neredeyse hiçbir korelasyonu olmayan verilerle düşük p değerlerine ulaşılabilir .
whuber

Düşük p-değerlerini yüksek korelasyon ile karıştırmak? Pas du tout!
rolando2

O zaman lütfen kesin bir p-değeri kavramının ("katsayıdaki standart hatanın, öngörücünün diğerleriyle ilişkisiz olmasından 2,2 ile 5,6 kat arasında ne kadar büyük" olduğunu açıklayın ") oldukça önemli görünüyor" korelasyon ile güçlü bir şekilde ilişkili olan kolinearlık miktarı "(kolinearlık ölçüleri, değişkenler standartlaştırıldığında korelasyon matrisinin özellikleridir)
whuber

Bu şekilde bakıyorum. VIF 5.6 olduğunda, bu öngörücüdeki varyansın% 82'si diğer öngörücüler tarafından açıklanabilir. Bunun N'ye nasıl bağlı olabileceğini görmüyorum
rolando2

1
Bu kötümser değerlendirmenin (değişkenler kadar 5-10 kat daha fazla gözlem gerektirmesi gibi temel kurallarda bazı gerekçeleri olan) bir karşıtı olarak, modelleme ve veri analizi alanlarının tamamının az sayıda problem etrafında büyüdüğü dikkat çekicidir. gözlemler ve DACE gibi pek çok yordayıcı (bilgisayar deneylerinin tasarımı ve analizi). Bir seminal makale için ressources-actuarielles.net/EXT/ISFA/1226.nsf/… adresine bakın .
whuber

6

Çoklu doğrusallığınız var. İlk analiziniz bunu gösterdi. Bir sorun olduğu sürece, bu davanızda birçok cevaba sahip gibi görünen başka bir soru.

Belki temel sorunu daha iyi anlarsanız ne yapmanız daha açık olur? ...

Çoklu doğrusallık ile regresyon katsayılarınız, modelinize her değişkenin benzersiz (benzersizden çok daha yakın) katkılarıyla ilgilidir. Bazıları birbiriyle korelasyonluysa, her bir korelasyonun kendine özgü katkısı daha küçüktür. Muhtemelen kısmen birlikte olmadıklarında hiçbirinin önemli olmamalarının sebebi budur, ancak yalnız kullanıldığında olabilir.

Yapmanız gereken ilk şey, değişkenleriniz arasındaki karşılıklı ilişkinin ne anlama geldiğini düşünmektir. Örneğin, aynı şeyi temsil eden bir sürü değişkeniniz var mı? Tahmin edicilerinizi zayıf bir ölçekte ölçtünüz ve arızi korelasyonlar aldınız mı? Regresyonu düzeltmeye çalışmayın, değişkenlerinizi anlamaya çalışın.

Aralarında çok güçlü bir korelasyon bulunan X1 ve X2'yi düşünelim, diyelim r = 0.90. X1'i modele yerleştirirseniz ve bu önemli bir yordayıcıysa, yalnızca X2'li başka bir model de büyük olasılıkla önemli olacaktır çünkü neredeyse aynı şeydir. Onları bir araya getirirseniz, en azından birinin acı çekmesi gerekir, çünkü çoklu regresyon onların eşsiz katkılarına çözecektir. İkisi de anlamlı olmayabilir. Ama mesele bu değil, mesele neden bu kadar çok örtüştüklerini ve hatta birbirinden farklı bir şey söylediklerini ve onlara ihtiyacınız olup olmadığını anlamak. Belki biri, bir değişkeni yanıt değişkeninizle diğerinden daha anlamlı ve anlamlı olarak ifade eder. Belki de bunların farklı değişkenlik seviyeleriyle aynı şey olduğu sonucuna varacaksınız.

Ayrıca, her türlü modele bakarken, özellikle de karşılıklı olarak ilişkili öngörücülerle, p-değerleri, yeni bir öngörücünün anlamlı bir katkı yapıp yapmadığını anlatmanın korkunç bir yoludur (eğer yapmaya çalıştığınız buysa ... ne yaptığınızdan emin değilim) yapmaya çalışıyorsunuz, çünkü sadece A) ya da B) regresyonunu istediğiniz gibi ortaya çıkarmaya çalışıyorsunuz ... ikisi de mümkün değil). Muhtemelen hangi tahmincileri tutmanız gerektiğini ve hangilerinin hiçbir şeye katkıda bulunmadığını belirlemenize yardımcı olması için AIC'ye bakabilirsiniz.


Düşük p değerleri çoklu bağışıklığı nasıl gösterir? İki kavram tamamen farklı. Yeterli veriyle, düşük p değerlerine sahip olabilirsiniz ve neredeyse hiç eşbiçimliğiniz yoktur.
whuber

Bu tam olarak itiraz ettiğim şey John: ilk cümlede OP'nin açıkladığı şeyin "Çoklu bağlantıya sahip olduğunuzu" ima ettiği sonucuna vardınız. Ama OP tam olarak bunu bilmek istiyor: "Çoklu bağlantı problemim var mı ya da yok mu?" Doğru cevabın "bize yeterince bilgi vermediniz, ama muhtemelen değil" olduğunu iddia ediyorum çünkü soruda açıklanan fenomen iyi şartlandırılmış problemlerle mükemmel bir şekilde tutarlıdır. Gerçekten de, OP tarafından bildirilen düşük VIF'ler iddianızın yanlış olduğunu göstermektedir.
whuber

Bunu hiçbir yerde söylemedim. Belki de ilk analiz hakkında söylediklerimi kastediyorsun. İlk analiz, başka hangi etkilerin eklendiğine bağlı olarak etkilerin çok değiştiği idi. Bunun sebebi çoklu-eş-doğrusallıktır (nicelleştirmese de). Elbette önem farklı bir konudur. Ne elde ettiğinizi gerçekten bilmiyorum?
John

Üzgünüm Whuber yorum güncellemek için, ama seninki zaten iyi çalışıyor .... okuyucular, yukarıdaki son iki ters ve benim hatam. Whuber, ben sadece "problem" kelimesine odaklandım. Çoklu doğrusallık ölçtüğünüz bir şeydir. Biraz var. Ne olursa olsun değişkenler hakkında fazla düşünmeyi önerir. Ayrıca, eklendiğinde veya çıkarıldığında katkı maddesi öngörücülerinin değişmesinin nedeninin bu çoklu bağlantı nedeniyle olduğunu gösterir. Sorgulayıcının bunun bir hesaplama "problemi" olduğuna dair gerçekten bir cevap almak istediği izlenimini edemedim.
John

Soruyu farklı şekillerde yorumlayabiliriz, John. Buradaki yorumlarımın muhtemelen karıştığı sorunu bırakmak istemediğim için, amacımı açıklamak için bir cevap ekledim.
whuber

2

Şahsen, kollektifliği analiz etmek için koşul indekslerini ve varyans açıklamasını tabloyu kullanırdım.

Ben de model oluşturma için bir kriter olarak p değerlerini kullanmazdım ve 6 IV'lü modelleri 1'li modellerle karşılaştırırken, her ikisinin de değişkeninin parametresinin etki boyutundaki değişikliklere bakardım.

Ancak, söz konusu sonuçları kesinlikle eşzamanlılık olmadan elde edebilirsiniz. Eşitsizlik sadece X değişkenleri ve ilişkileri ile ilgilidir. Fakat iki değişken birbiriyle güçlü bir şekilde ilişkili değilken, Y ile güçlü bir şekilde ilişkili olabilir.


1
Bu benim için sezgisel görünmüyor, iki değişkenin birbiriyle güçlü bir şekilde bağlantı kurmadan Y ile güçlü bir şekilde ilişkili olabileceği. Beni işaret edebileceğiniz bir örnek veya daha uzun bir açıklama var mı?
cryptic_star

@Peter - 1- (1 / 5.6) = Diğerleri tarafından açıklanan son yordayıcıdaki varyansın% 82'si, neden eşbiçimlilik olmayabileceğini söylüyorsunuz?
rolando2 11:12

3
x1x2y=x1+x2yx1x2x1x2

0

Çoklu doğrusallık ile ilgili olarak, genellikle test edilen değişken ile diğer bağımsız değişkenler arasında 0.90'lik bir temel R Kare değerine karşılık gelen 10'luk bir VIF etrafında yakınsak çeşitli eşiklerden bahsedilmektedir. Değişkenlerinizin VIF'leri pasif görünür ve bunları teknik olarak bir modelde tutabilirsiniz.

Yine de, değişkenlerin en iyi kombinasyonunu ve değişkenleri ekleyerek ne kadar daha fazla açıklama (R Square'de artan artış) olduğunu görmek için aşamalı bir regresyon yöntemi kullanacağım. Tahkim ölçütü, değişken eklemek için modeli cezalandırarak R Kare değerini aşağı doğru ayarlayan Düzeltilmiş R Kare değeri olmalıdır.

Değişkenleriniz birbirleriyle biraz ilişkilidir. Bu kaçınılmaz, sadece bir derece meselesi. Bahsettiğiniz VIF'ler göz önüne alındığında, bilgi / açıklama bitinin büyük çoğunluğunu en iyi 2 değişken kombinasyonundan alacağınızdan sezgisel olarak şüpheleniyorum. Ve bu değişkenlerin eklenmesi sadece marjinal artımlı değer katabilir.

Kademeli regresyon süreci tarafından seçilen değişkenlerin kombinasyonuna bakarken, hangi değişkenlerin seçildiğine ve bunların regresyon katsayılarının y ile korelasyonu ile tutarlı olup olmadığına da bakarım. Değilse, değişkenler arasındaki yasal bir etkileşime bağlı olabilir. Ancak, model aşırı uyumunun ve regresyon katsayılarının sahte olması da olabilir. Matematiksel bir uyumu yansıtırlar, ancak altta yatan nedensellik açısından anlamsızdırlar.

Değişkenlerinizi seçmenin başka bir yolu, mantık açısından, hangilerinin modelde olması gereken ana 2 veya 3 değişken olduğuna karar vermektir. Bunlarla başlıyorsunuz ve daha sonra bir değişken ekleyerek ne kadar daha fazla bilgi elde ettiğinizi kontrol ediyorsunuz. Ayarlanan R Kare, regresyon katsayısının orijinal regresyona göre tutarlılığını kontrol edin ve tüm modelleri açık tutma süresi ile test edin. Çok yakında, en iyi modelinizin ne olduğu belli olacak.


4
Radj2

Belirttiğiniz sorunların çoğu genel olarak doğrusal regresyon modeli için ortaktır. Bu tür teknik sorunların genel olarak tüm aşamalı regresyon yöntemlerini ve doğrusal regresyonu atmak için nedenler olduğundan emin değilim. Neden kademeli regresyonun "bir çok soruna neden olan rastgele bir değişkene dayanarak seçildiğini bilmiyorum." Adım adım, her modelde olduğu gibi en uygun olanı bulur. Daha önemli olduğunu düşündüğüm, matematiksel uyumun çözdüğünüz sorunun temel teorisine veya mantığına uygun olmasını sağlamaktır.
Sympa

3
R2Radj2Fp

gung, aynı şeyden bahsettiğimizden emin değilim. Stepwise Regresyonu iki şekilde kullanıyorum. Birincisi manuel, en iyi regresörü kullanarak bir model oluşturuyorsunuz. Ve, ilk modelin hatasını en iyi açıklayan 2. en iyi değişkeni kullanarak ekleyin. Ve AIC skorunuz kötüleşene kadar devam edersiniz. Kullandığım 2. yöntem, süreci otomatikleştiren ve Thierry Fahmy ve ekibi tarafından geliştirilen XLStat yazılımı kullanıyor. Takımındaki diğerleriyle birlikte matematik doktorasını anladım. Ve bahsettiğiniz tüm tuzaklara düşeceklerinden emin değilim.
Sympa

2
Gaetan, @gung'un söylemeye çalıştığı şey, adım adım yöntemlerin ilk istatistiksel regresyon çerçevesine (kayıp fonksiyonu, p değerleri, vb.) Ciddi hasara neden olabileceğini düşünüyorum. Frank Harrell'ın yanıtı ve yorumları için buraya bakınız . Cezalandırılmış regresyon, birkaç konuda tartışıldığı gibi, iyi bir alternatif olabilir. "(...) yazılımı otomatikleştiren yazılım" bana hatırlatıyor fortune(224): burada trol yok, sadece bir seçenek olarak size otomatik olarak hangi yazılımın sunduğu (veya sunduğu) güvenmeniz gerekmediğini vurgulamak istiyorum.
chl

0

Açıklayıcı değişkenleriniz sayım verileriyse ve normalde dağıtıldığını varsaymak mantıklı değilse, R scalekomutunu kullanarak bunları standart normal değişkenlere dönüştürebilirsiniz . Bunu yapmak kollektifliği azaltabilir. Ancak bu muhtemelen tüm sorunu çözmeyecektir.

Florian Jaeger'in blogunda , eşzamanlılığı analiz etmek ve başa çıkmak için yararlı bir R komutları grubu bulunur :

z. <- function (x) scale(x)
r. <- function (formula, ...) rstandard(lm(formula, ...))

z.Fonksiyonu, standart normal değişme bir vektör dönüştürür. r.İşlevini verir diğerine karşı bir tahmincisi olarak gerileme bayağı para standardize. Bunu, model sapmasını etkili bir şekilde farklı dilimlere ayırmak için kullanabilirsiniz, böylece sadece bazı değişkenler en üst düzey dilime erişebilir, ardından kalan değişkenler bir sonraki dilime sunulacaktır. (Evdeki terminolojim için özür dilerim)

Y ~ A + B

Çoklu doğrusallıktan muzdaripse,

Y ~ A + r.(B)
Y ~ r.(A) + B

böylece sadece "genç dilim" değişkeninin kalıntıları ("kıdemli dilim" değişkenine karşı gerilediğinde) modele takılır. Bu şekilde, çoklu doğrusallıktan korunursunuz, ancak rapor etmek için daha karmaşık bir parametre setiniz olur.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.