Bu durumda standart hatalar olmadan önemi hakkında konuşamazsınız; değişkenler ve katsayılarla ölçeklenirler. Ayrıca, her bir katsayı modeldeki diğer değişkenlere bağlıdır ve eşdoğrusallık aslında hp ve disp'in önemini artırıyor gibi görünmektedir.
Yeniden ölçeklendirme değişkenleri sonuçların önemini hiç değiştirmemelidir. Gerçekten de, regresyonu yeniden düzenlediğimde (değişkenler olduğu gibi ve ortalamayı çıkararak ve standart hatalara bölerek normalize edildiğimde), her bir katsayı tahmini (sabit hariç), ölçeklemeden önce tam olarak aynı t-statüne sahipti ve Genel anlamlılığın F testi tamamen aynı kaldı.
Yani, tüm değişkenler ortalama sıfır ve 1 varyansa sahip olacak şekilde ölçeklendirilse bile, regresyon katsayılarının her biri için tek bir standart hata boyutu yoktur, bu yüzden sadece standart regresyon hala önem konusunda yanıltıcıdır.
David Masip'in açıkladığı gibi, katsayıların görünen boyutunun veri noktalarının büyüklüğü ile ters bir ilişkisi vardır. Ancak disp ve hp katsayıları büyük olsa bile, yine de sıfırdan önemli ölçüde farklı değildir.
Aslında, hp ve disp birbirleri ile yüksek derecede ilişkilidir, r = .79, bu nedenle bu katsayılar üzerindeki standart hatalar katsayı büyüklüğüne göre özellikle yüksektir, çünkü bunlar çok doğrusaldır. Bu regresyonda, garip bir dengeleme yapıyorlar, bu yüzden birinin pozitif katsayısı ve negatif katsayısı var; aşırı uydurma bir durum gibi görünüyor ve anlamlı görünmüyor.
Hangi değişkenlerin mpg cinsinden en fazla açıklanacağını görmenin iyi bir yolu (düzeltilmiş) R kare'dir. Kelimenin tam anlamıyla, x değişkenlerindeki varyasyon ile açıklanan y'deki varyasyonun yüzdesidir. (Düzeltilmiş R-karesi, dengelemeyi aşırı dengelemek için denklemdeki her ek x değişkeni için hafif bir ceza içerir.)
Neyin önemli olduğunu görmenin iyi bir yolu - diğer değişkenlerin ışığında - bu değişkeni regresyondan çıkardığınızda, düzeltilmiş R-kare şeklindeki değişime bakmaktır. Bu değişiklik, diğer değişkenleri sabit tuttuktan sonra, bu faktörün açıkladığı bağımlı değişkende varyans yüzdesidir. (Resmi olarak, kalan değişkenlerin bir F testi ile önemli olup olmadığını test edebilirsiniz ; değişken seçim için kademeli regresyonlar bu şekilde çalışır.)
Bunu göstermek için, değişkenlerin her biri için ayrı ayrı lineer regresyonlar çalıştırdım ve mpg'yi tahmin ettim. Sadece wt değişkeni, mpg cinsinden varyasyonun% 75,3'ünü açıklar ve hiçbir değişken daha fazlasını açıklamaz. Bununla birlikte, diğer değişkenlerin çoğu wt ile ilişkilidir ve aynı varyasyonun bazılarını açıklar. (Standart hata ve önem hesaplamalarında küçük farklılıklara yol açabilecek ancak katsayıları veya R-karesini etkilemeyecek sağlam standart hatalar kullandım.)
+------+-----------+---------+----------+---------+----------+-------+
| | coeff | se | constant | se | adj R-sq | R-sq |
+------+-----------+---------+----------+---------+----------+-------+
| cyl | -0.852*** | [0.110] | 0 | [0.094] | 0.717 | 0.726 |
| disp | -0.848*** | [0.105] | 0 | [0.095] | 0.709 | 0.718 |
| hp | -0.776*** | [0.154] | 0 | [0.113] | 0.589 | 0.602 |
| drat | 0.681*** | [0.123] | 0 | [0.132] | 0.446 | 0.464 |
| wt | -0.868*** | [0.106] | 0 | [0.089] | 0.745 | 0.753 |
| qsec | 0.419** | [0.136] | 0 | [0.163] | 0.148 | 0.175 |
| vs | 0.664*** | [0.142] | 0 | [0.134] | 0.422 | 0.441 |
| am | 0.600*** | [0.158] | 0 | [0.144] | 0.338 | 0.360 |
| gear | 0.480* | [0.178] | 0 | [0.158] | 0.205 | 0.231 |
| carb | -0.551** | [0.168] | 0 | [0.150] | 0.280 | 0.304 |
+------+-----------+---------+----------+---------+----------+-------+
Tüm değişkenler birlikte olduğunda, R-kare 0.869 ve ayarlanan R-kare 0.807'dir. Bu nedenle, wt'ye katılmak için 9 daha fazla değişken atmak, varyasyonun başka bir% 11'ini (veya aşırı sığdırma için düzeltirsek sadece% 5 daha fazla) açıklar. (Değişkenlerin çoğu mpg'de wt ile aynı varyasyonların bazılarını açıklamıştır.) Ve tam modelde, p değeri% 20'nin altında olan tek katsayı, w = 0.089'da wt'dir.