Doğrusal Regresyon ve verilerin ölçeklendirilmesi


10

Aşağıdaki grafik doğrusal regresyon ile elde edilen katsayıları göstermektedir ( mpghedef değişken olarak ve diğerleri tahmin ediciler olarak).

Verileri ölçeklendirerek veya ölçeklendirmeden mtcars veri kümesi için ( burada ve burada ):

resim açıklamasını buraya girin

Bu sonuçları nasıl yorumlayabilirim? Değişkenler hpve dispyalnızca veri ölçeklenirse önemlidir. Are amve qseceşit derecede önemli ya da amdaha önemli qsec? Hangi değişkenin önemli belirleyicileri olduğunu söylemeliyiz mpg?

Fikriniz için teşekkürler.


Eğer sakıncası yoksa, sadece birkaç farklı model çalıştırabilir ve hangi özelliklerin gerçekten önemli olduğunu kontrol edebilirsiniz? Verilerin ölçeklendirilmesi, farklı sütunlar için gerçekten çok farklı ölçeklerimiz olduğunda yapılır ve bunlar grafiğinizden (güzel grafikler) kötü bir şekilde farklı olduğunda, ölçeklemenin, modelin ölçekleme olmadan verilerle ilgili gerçek manzaraları bulmasına yardımcı olduğu oldukça açıktır. modelin herhangi bir seçeneği yok ama tahmin ettiğiniz şey de biraz yüksek olması şartıyla büyük ölçeklere sahip değişkene daha fazla ağırlık vermek ..
Aditya

Arsa hakkındaki yorumunuz için teşekkürler. "Birkaç farklı model çalıştır" derken ne demek istediğinizden emin değilim. Sinir ağı gibi diğer bazı teknikleri kullanarak hangi özelliklerin gerçekten önemli olduğunu bulabilir misiniz, böylece lineer regresyon bulgularıyla karşılaştırılabilir.
rnso

Belirsiz olduğum için üzgünüm, demek istediğim, ağaç tabanlı vb.Gibi farklı ml algoritmalarını denemek ve tüm özelliklerini karşılaştırmak Önemlidir ..
Aditya

Yanıtlar:


4

Veri ölçeklenmediğinde hp ve disp katsayılarının düşük ve veriler ölçeklendiğinde yüksek olması, bu değişkenlerin bağımlı değişkeni açıklamaya yardımcı olduğu, ancak büyüklüklerinin büyük olduğu için ölçeklenmemiş durumdaki katsayıların düşük olması gerektiği anlamına gelir.

"Önem" açısından, ölçeklendirilmiş durumdaki katsayıların mutlak değerinin, ölçeklendirilmemiş durumdan çok, öneminin iyi bir ölçüsü olduğunu söyleyebilirim, çünkü değişkenin büyüklüğü de konuyla ilgilidir ve değil.

Tabii ki daha önemli değişken ağırlıktır.


4

Bu durumda standart hatalar olmadan önemi hakkında konuşamazsınız; değişkenler ve katsayılarla ölçeklenirler. Ayrıca, her bir katsayı modeldeki diğer değişkenlere bağlıdır ve eşdoğrusallık aslında hp ve disp'in önemini artırıyor gibi görünmektedir.

Yeniden ölçeklendirme değişkenleri sonuçların önemini hiç değiştirmemelidir. Gerçekten de, regresyonu yeniden düzenlediğimde (değişkenler olduğu gibi ve ortalamayı çıkararak ve standart hatalara bölerek normalize edildiğimde), her bir katsayı tahmini (sabit hariç), ölçeklemeden önce tam olarak aynı t-statüne sahipti ve Genel anlamlılığın F testi tamamen aynı kaldı.

Yani, tüm değişkenler ortalama sıfır ve 1 varyansa sahip olacak şekilde ölçeklendirilse bile, regresyon katsayılarının her biri için tek bir standart hata boyutu yoktur, bu yüzden sadece standart regresyon hala önem konusunda yanıltıcıdır.

David Masip'in açıkladığı gibi, katsayıların görünen boyutunun veri noktalarının büyüklüğü ile ters bir ilişkisi vardır. Ancak disp ve hp katsayıları büyük olsa bile, yine de sıfırdan önemli ölçüde farklı değildir.

Aslında, hp ve disp birbirleri ile yüksek derecede ilişkilidir, r = .79, bu nedenle bu katsayılar üzerindeki standart hatalar katsayı büyüklüğüne göre özellikle yüksektir, çünkü bunlar çok doğrusaldır. Bu regresyonda, garip bir dengeleme yapıyorlar, bu yüzden birinin pozitif katsayısı ve negatif katsayısı var; aşırı uydurma bir durum gibi görünüyor ve anlamlı görünmüyor.

Hangi değişkenlerin mpg cinsinden en fazla açıklanacağını görmenin iyi bir yolu (düzeltilmiş) R kare'dir. Kelimenin tam anlamıyla, x değişkenlerindeki varyasyon ile açıklanan y'deki varyasyonun yüzdesidir. (Düzeltilmiş R-karesi, dengelemeyi aşırı dengelemek için denklemdeki her ek x değişkeni için hafif bir ceza içerir.)

Neyin önemli olduğunu görmenin iyi bir yolu - diğer değişkenlerin ışığında - bu değişkeni regresyondan çıkardığınızda, düzeltilmiş R-kare şeklindeki değişime bakmaktır. Bu değişiklik, diğer değişkenleri sabit tuttuktan sonra, bu faktörün açıkladığı bağımlı değişkende varyans yüzdesidir. (Resmi olarak, kalan değişkenlerin bir F testi ile önemli olup olmadığını test edebilirsiniz ; değişken seçim için kademeli regresyonlar bu şekilde çalışır.)

Bunu göstermek için, değişkenlerin her biri için ayrı ayrı lineer regresyonlar çalıştırdım ve mpg'yi tahmin ettim. Sadece wt değişkeni, mpg cinsinden varyasyonun% 75,3'ünü açıklar ve hiçbir değişken daha fazlasını açıklamaz. Bununla birlikte, diğer değişkenlerin çoğu wt ile ilişkilidir ve aynı varyasyonun bazılarını açıklar. (Standart hata ve önem hesaplamalarında küçük farklılıklara yol açabilecek ancak katsayıları veya R-karesini etkilemeyecek sağlam standart hatalar kullandım.)

+------+-----------+---------+----------+---------+----------+-------+
|      |   coeff   |   se    | constant |   se    | adj R-sq | R-sq  |
+------+-----------+---------+----------+---------+----------+-------+
| cyl  | -0.852*** | [0.110] |        0 | [0.094] |    0.717 | 0.726 |
| disp | -0.848*** | [0.105] |        0 | [0.095] |    0.709 | 0.718 |
| hp   | -0.776*** | [0.154] |        0 | [0.113] |    0.589 | 0.602 |
| drat |  0.681*** | [0.123] |        0 | [0.132] |    0.446 | 0.464 |
| wt   | -0.868*** | [0.106] |        0 | [0.089] |    0.745 | 0.753 |
| qsec |  0.419**  | [0.136] |        0 | [0.163] |    0.148 | 0.175 |
| vs   |  0.664*** | [0.142] |        0 | [0.134] |    0.422 | 0.441 |
| am   |  0.600*** | [0.158] |        0 | [0.144] |    0.338 | 0.360 |
| gear |  0.480*   | [0.178] |        0 | [0.158] |    0.205 | 0.231 |
| carb | -0.551**  | [0.168] |        0 | [0.150] |    0.280 | 0.304 |
+------+-----------+---------+----------+---------+----------+-------+

Tüm değişkenler birlikte olduğunda, R-kare 0.869 ve ayarlanan R-kare 0.807'dir. Bu nedenle, wt'ye katılmak için 9 daha fazla değişken atmak, varyasyonun başka bir% 11'ini (veya aşırı sığdırma için düzeltirsek sadece% 5 daha fazla) açıklar. (Değişkenlerin çoğu mpg'de wt ile aynı varyasyonların bazılarını açıklamıştır.) Ve tam modelde, p değeri% 20'nin altında olan tek katsayı, w = 0.089'da wt'dir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.