Çoklu regresyon yaparken tahmin değişkenleri ne zaman dönüştürülmelidir?


10

Şu anda lisansüstü düzeyde ilk uygulamalı doğrusal regresyon dersimi alıyorum ve çoklu doğrusal regresyonda öngörücü değişken dönüşümleri ile mücadele ediyorum. Kullandığım metin, Kutner ve ark. "Uygulamalı Doğrusal İstatistiksel Modeller" yaşadığım soruyu kapsamıyor gibi görünüyor. (çoklu öngörücülerin dönüştürülmesi için bir Box-Cox yöntemi olduğunu öne sürmek dışında).

Bir cevap değişkeni ve birkaç tahmin değişkeni ile karşılaşıldığında, her tahmin değişkeni ile hangi koşullar yerine getirilmeye çalışılır? Nihayetinde hata varyansı ve normal olarak dağıtılmış hataların sabitliğini aradığımızı anlıyorum (en azından şimdiye kadar öğrettiğim tekniklerde.) Geri dönüp, çözümün y ~ x1 + (1/x2) + log(x3)nerede olduğu, bir veya daha fazla öngörücü dönüştürüldü.

Basit doğrusal regresyon altında mantığı anladım, çünkü y ~ x1'e ve ilgili teşhislere (artıkların qq grafikleri, artıklar vs y, artıklar vs x, vb.) Bakmak ve y ~ log ( x1) varsayımlarımıza daha iyi uyum sağlar.

Bir öngörücünün ne zaman birçok öngörücünün varlığında dönüştürüleceğini anlamaya başlamak için iyi bir yer var mı?

Şimdiden teşekkür ederim. Mat

Yanıtlar:


3

Ben olmak sorunuzu atın: Eğer nasıl algılamak koşullar uygun exist dönüşümleri yapmak zaman oldukça mantıklı koşullar olandan, vardır . Veri analizlerini keşif, özellikle de grafiksel veri keşifleri ile ayırmak her zaman iyidir. (Çeşitli testler yapılabilir, ancak burada grafik EDA'ya odaklanacağım.)

Her değişkenin tek değişkenli dağılımına ilk bakış için çekirdek yoğunluk grafikleri histogramlardan daha iyidir. Birden çok değişkenle, bir dağılım grafiği matrisi kullanışlı olabilir. Lowess başlangıçta da her zaman tavsiye edilir. Bu, ilişkilerin yaklaşık olarak doğrusal olup olmadığına hızlı ve kirli bir bakış verecektir. John Fox'un araba paketi bunları yararlı bir şekilde birleştirir:

library(car)
scatterplot.matrix(data)

Değişkenlerinizi sütun olarak kullandığınızdan emin olun. Çok değişkeniniz varsa, ayrı ayrı grafikler küçük olabilir. Çizim penceresini en üst düzeye çıkarın ve dağılım grafikleri, tek tek incelemek istediğiniz grafikleri seçecek kadar büyük olmalı ve daha sonra tekli grafikler yapmalıdır. Örneğin,

windows()
plot(density(X[,3]))
rug(x[,3])
windows()
plot(x[,3], y)
lines(lowess(y~X[,3]))

Bir çoklu regresyon modeli taktıktan sonra, tıpkı basit doğrusal regresyonda olduğu gibi yine de verilerinizi çizip kontrol etmelisiniz. Kalıntılar için QQ grafikleri de aynıdır ve daha önce olduğu gibi benzer bir prosedürü izleyerek kalıntılarınızın bir tahmini dağılım matrisini öngörücülerinize karşı yapabilirsiniz.

windows()
qq.plot(model$residuals)
windows()
scatterplot.matrix(cbind(model$residuals,X))

Şüpheli görünen bir şey varsa, tek tek çizin ve abline(h=0)görsel bir rehber olarak ekleyin . Etkileşiminiz varsa, bir X [, 1] * X [, 2] değişkeni oluşturabilir ve kalıntıları buna göre inceleyebilirsiniz. Benzer şekilde, artıklara karşı dağılımın bir grafiğini X [, 3] ^ 2 vb. Gibi yapabilirsiniz. Kalıntılara karşı x gibi diğer grafik türleri de benzer şekilde yapılabilir. Bunların tümünün çizilmeyen diğer x boyutlarını göz ardı ettiğini unutmayın. Verileriniz gruplandırılmışsa (yani bir denemeden), marjinal grafiklere ek olarak / yerine kısmi grafikler oluşturabilirsiniz.

Umarım yardımcı olur.


2
Daha doğrudan bir yaklaşımı teşvik ederim: (1) doğrusallığı varsaymamak ve (2) tüm dönüşümleri aynı anda tahmin etmek için öngörücülerin etkilerini modellemek için regresyon spline'larını kullanın. Bu, kuadratik regresyona benzer - tüm öngörücüler için kare bir terim ekler. Kısıtlı kübik spline'larla, örneğin, doğrusal olarak çalıştığı bilinmeyen her bir öngörücü için modele bir veya daha fazla doğrusal olmayan temel fonksiyon eklenir.
Frank Harrell

@Frank Genellikle sınırlı kübik spline'ları severim. Tek olumsuz yorum biraz zor ve çoğu zaman müşterilerimi kapatır. (Merkezlemeden sonra) bir polinom terimi eklemek daha yorumlanabilir görünüyor
Peter Flom

Giriş için hepinize teşekkür ederim, çok teşekkür ederim. Şu anda bana çok fazla kredi verdiğinizi düşünüyorum. Benim sorum aslında, bir dönüşümün ne zaman uygulanıp uygulanamayacağını bilmek için bireysel öngörücülerde nelerin aranacağı üzerine odaklanmıştır. Örneğin, 3 tahmin ediciyle katı bir şekilde toplanır bir modelim varsa, uygun bir dönüşümü nasıl belirleyebilirim? Çoklu öngörücüler durumunda, genellikle basit doğrusal regresyonda aradığımız ilkelerin aynısını mı deniyoruz? (yani, uygun artıklar ile tahmini kalıntıların ve qqplot'un karşılaştırılması).
Matt

1
Peter-regresyon kamaları kuadratiklerden çok daha karmaşık değildir. Zaten modelde yaş ^ 2 olduğunda yaş katsayısını nasıl yorumlayacağını kim bilebilir? Ve merkezlemenin nerelere yardımcı olduğunu görmüyorum. Spline uyumlarını işbirlikçilerimin sevdiği grafiklerle yorumluyorum. Mat neredeyse her zaman bir dönüşüme ihtiyaç vardır. Bu sadece doğrusal olmayan etkilere uyacak kadar parametre tahmin etmek için örneklem büyüklüğünün yeterliliği meselesidir. Regresyon spline'ları dönüşümleri doğrudan tahmin eder ve "veri görünümü" için cezalandırılan uygun güven aralıklarına yol açar. Artıklar dolaylı bir yaklaşım içerir.
Frank Harrell

Üzgünüm, hala burada yayın asmak. Lütfen affet. Son yorumuma açıklamak için: Bir metinde geçtiğim son bir örnekte ortaya çıkan y ~ x1 + log (x2) modeli vardı ve dönüşümle ilgili tek not "x2'nin logaritmik bir dönüşüm için çok uygun olduğu aşikardı. ." Dönüşümlerin ne zaman geçerli olduğu konusundaki anlayışımı geliştirmeye çalışıyorum. Sadece y ~ x_i grafiklerine bakmak ve tek bir öngörücü durumda yaptığımız gibi ilerlemek yeterli mi? Başka ne düşünmeliyim?
Matt
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.