Neler olabileceğini anlamak için, tarif edilen şekilde davranan verileri üretmek (ve analiz etmek) öğreticidir.
Basitlik için, altıncı bağımsız değişkeni unutalım. Dolayısıyla, soru, bir bağımlı değişkeninin beş bağımsız değişken , karşı regresyonlarını açıklar ;x 1 , x 2 , x 3 , x 4 , x 5yx1,x2,x3,x4,x5
Her bir normal regresyon , ila daha düşük seviyelerde anlamlıdır . 0.01 0.001y∼xi0.010.001
Çoklu regresyon sadece verimi önemli katsayıları ve .x 1 x 2y∼x1+⋯+x5x1x2
Tüm varyans enflasyon faktörleri (VIF'ler) düşüktür, bu da tasarım matrisinde iyi koşullandırmayı gösterir (yani, arasında eksikliği ).xi
Bunu aşağıdaki gibi yapalım:
ve için normal olarak dağıtılmış değerler oluşturun . ( sonra seçeceğiz .)x 1 x 2 nnx1x2n
Let burada ortalama bağımsız normal bir hata . için uygun bir standart sapma bulmak için biraz deneme yanılma gerekir ; cezası çalışıyor (ve oldukça dramatiktir: edilir son derece iyi ile ilişkili ve sadece orta derecede korelasyon olsa bile, ve bireysel olarak).ε 0 ε 1 / -100 y x 1 x 2 x 1 x 2y=x1+x2+εε0ε1/100yx1x2x1x2
Let = , , bağımsız standart normal hatadır. Bu kılan sadece biraz bağımlı . Bununla birlikte, ve arasındaki sıkı korelasyon sayesinde , bu, ve bu arasında küçük bir korelasyona neden olur .x 1 / 5 + δ j = 3 , 4 , 5 δ x 3 , x 4 , x 5 x 1 x 1 y y x jxjx1/5+δj=3,4,5δx3,x4,x5x1x1yyxj
İşte ovmak: Eğer yeterince büyütürsek, sadece ilk iki değişken tarafından neredeyse tamamen "açıklanmasına" rağmen , bu küçük korelasyonlar önemli katsayılara neden olacaktır .yny
rapor edilen p-değerlerini üretmek için gayet iyi çalıştığını gördüm . İşte altı değişkenin hepsinin dağılım grafiği matrisi:n=500
Sağ sütunu (veya alt sıra) yapabilirsiniz inceleyerek bakın o ile iyi (pozitif) korelasyon vardır ve diğer değişkenlerle ancak çok az belirgin korelasyon. Bu matrisin geri kalanını inceleyerek, bağımsız değişkenlerinin karşılıklı olarak ilişkisiz göründüğünü görebilirsiniz (rastgele maskesi, bildiğimiz küçük bağımlılıkları maskeler.) Olağanüstü veriler yok - korkunç bir şey yok. dışsal veya yüksek kaldıraçlı. Histogramlar, bu altı değişkenin de normal olarak yaklaşık olarak dağıldığını gösterir: bu veriler istenildiği kadar sıradan ve "düz vanilya" dır.yx1x2x1,…,x5δ
Regresyonu olarak karşı ve , p-değerleri, esasen ayrı ayrı regresyonlarında 0 olan karşı sonra, karşı ve karşı , p-değerleri 0.0024, 0.0083 ve 0.00064 sırasıyla : yani "son derece önemlidir". Ancak tam çoklu regresyonda, karşılık gelen p değerleri sırasıyla .46, .36 ve .52'ye şişer: hiç önemli değildir. Bunun nedeni, kez ve karşı gerilediğindeyx1x2yx3yx4yx5yx1x2, "açıklamak" için kalan tek şey, artıklarda yaklaşan küçük hata miktarıdır ve bu hata kalan ile neredeyse tamamen ilişkisizdir . ("Neredeyse" doğrudur: artıkların kısmen ve değerlerinden hesaplanması ve , zayıf bir ilişkisi olması gerçeğinden kaynaklanan çok küçük bir ilişki vardır. ve gördüğümüz gibi. Bu kalıntı ilişki olsa da, pratikte mümkün değildir.)εxix1x2xii=3,4,5x1x2
Tasarım matrisinin koşullandırma sayısı sadece 2.17'dir: bu çok düşüktür, yüksek çoklu doğrusallık belirtisi göstermez . (Mükemmel eşzamanlılık eksikliği 1 koşullama sayısına yansıtılacaktır, ancak pratikte bu sadece yapay veriler ve tasarlanmış deneylerle görülür. 1-6 aralığındaki koşullandırma sayıları (veya daha fazla değişkenle daha yüksek) dikkat çekici değildir.) Bu simülasyonu tamamlar: sorunun her yönünü başarıyla yeniden üretti.
Bu analizin sunduğu önemli bilgiler şunları içerir:
p-değerleri bize doğrudan doğru dürüstlük hakkında hiçbir şey söylemez. Büyük oranda veri miktarına bağlıdır.
Çoklu regresyonlardaki p değerleri ile ilişkili regresyonlardaki p değerleri (bağımsız değişkenin alt kümelerini içeren) arasındaki ilişkiler karmaşıktır ve genellikle öngörülemez.
Sonuç olarak, diğerlerinin de iddia ettiği gibi, p-değerleri model seçimi için tek rehberiniz (hatta ana rehberiniz) olmamalıdır.
Düzenle
Bu fenomenlerin ortaya çıkması için kadar büyük olması gerekli değildir . 500n500 Söz konusu ek bilgi esinlenerek, aşağıdaki ile benzer bir şekilde imal edilen bir veri kümesi olup (bu durumda için ). Bu, ve arasında 0,38 ile 0,73 arasında korelasyonlar yaratır . Tasarım matrisinin koşul numarası 9.05: biraz yüksek, ama korkunç değil. (Bazı temel kurallar 10'a kadar olan koşul sayılarının iyi olduğunu söyler.) karşı bireysel regresyonların p değerlerix j = 0,4 x 1 + 0,4 x 2 + δ j = 3 , 4 , 5 x 1 - 2 x 3 - 5 x 3 , x 4 , x 5n=24xj=0.4x1+0.4x2+δj=3,4,5x1−2x3−5x3,x4,x50.002, 0.015 ve 0.008'dir: anlamlı ila yüksek anlamlı. Bu nedenle, bazı çoklu doğrusallık söz konusudur, ancak kişi onu değiştirmek için çalışacak kadar büyük değildir. Temel içgörü aynı kalır : önem ve çoklu doğrusallık farklı şeylerdir; aralarında sadece hafif matematiksel kısıtlamalar vardır; ve tek bir değişkenin dahil edilmesinin veya hariç tutulmasının, ciddi çoklu doğrusallık sorunu olmasa bile, tüm p-değerleri üzerinde derin etkileri olması mümkündür.
x1 x2 x3 x4 x5 y
-1.78256 -0.334959 -1.22672 -1.11643 0.233048 -2.12772
0.796957 -0.282075 1.11182 0.773499 0.954179 0.511363
0.956733 0.925203 1.65832 0.25006 -0.273526 1.89336
0.346049 0.0111112 1.57815 0.767076 1.48114 0.365872
-0.73198 -1.56574 -1.06783 -0.914841 -1.68338 -2.30272
0.221718 -0.175337 -0.0922871 1.25869 -1.05304 0.0268453
1.71033 0.0487565 -0.435238 -0.239226 1.08944 1.76248
0.936259 1.00507 1.56755 0.715845 1.50658 1.93177
-0.664651 0.531793 -0.150516 -0.577719 2.57178 -0.121927
-0.0847412 -1.14022 0.577469 0.694189 -1.02427 -1.2199
-1.30773 1.40016 -1.5949 0.506035 0.539175 0.0955259
-0.55336 1.93245 1.34462 1.15979 2.25317 1.38259
1.6934 0.192212 0.965777 0.283766 3.63855 1.86975
-0.715726 0.259011 -0.674307 0.864498 0.504759 -0.478025
-0.800315 -0.655506 0.0899015 -2.19869 -0.941662 -1.46332
-0.169604 -1.08992 -1.80457 -0.350718 0.818985 -1.2727
0.365721 1.10428 0.33128 -0.0163167 0.295945 1.48115
0.215779 2.233 0.33428 1.07424 0.815481 2.4511
1.07042 0.0490205 -0.195314 0.101451 -0.721812 1.11711
-0.478905 -0.438893 -1.54429 0.798461 -0.774219 -0.90456
1.2487 1.03267 0.958559 1.26925 1.31709 2.26846
-0.124634 -0.616711 0.334179 0.404281 0.531215 -0.747697
-1.82317 1.11467 0.407822 -0.937689 -1.90806 -0.723693
-1.34046 1.16957 0.271146 1.71505 0.910682 -0.176185