Parametrik olmayan regresyon ne zaman kullanılır?


9

Aşağıdaki formun bir regresyon denklemine uyması için SAS'ta PROC GLM kullanıyorum

Y=b0+b1X1+b2X2+b3X3+b4t

Sonuçta ortaya çıkan kırmızı renklerin QQ grafiği normallikten sapmayı gösterir. herhangi bir dönüşümü , artıkların normal hale getirilmesinde yararlı değildir.Y

Bu noktada, PROC LOESS gibi parametrik olmayan yöntemlere güvenle geçebilir miyim.

Zaten PROC LOESS kullandım ve uyum PROC GLM'den daha iyi görünüyor. Fakat parametrik olmayan regresyon konusunda fazla bilgim yok. Parametrik regresyona göre parametrik olmayan regresyonun ne zaman seçileceğini bilmiyorum.

Birisi bana bu konuda yardımcı olabilir mi?

Devam edip bir soru daha ekleyeceğim. Modeldeki değişkenlerimin açıklaması aşağıdadır. Bazen negatif tahmin edilen maliyet elde ederim. Bu mantıklı değil. Bu sorunu nasıl çözebilirim?

Y=cost of medical careX1=number of injectionsX2=number of surgeriesX3=number of physical therapiest=time

2
Tabii ki günlüğünü modelleyerek negatif maliyetleri tahmin etmekten kaçınabilirsiniz:log(Y)=b0+b1X1+b2X2+b3X3+b4t
Dirk

Yanıtlar:


10

Kalıntıların QQplot'larına bakmadan önce, kalıntıları modeldeki öngörücülere (ve muhtemelen, kullanmadığınız diğer değişkenlere karşı) çizerek uyum kalitesini değerlendirmelisiniz. Bu grafiklerde doğrusal olmama durumu gösterilmelidir. Değişken etkisi gerçekten doğrusal ise, karşı artıkların grafiğinin görünür bir yapı olmadan "yatay" olmasını beklersiniz :xx

                                                                   *
*                 *
      *                               *
        *   
                                                  *
--------------------------------------*------------------------------x
   *     
           *

                                     *
       *                                                    *
                                *

Yani, çizgi kalıntısı = 0 etrafında ortalanmış noktalardan oluşan rastgele bir yatay "damla".

Etki doğrusal değilse, bu grafikte bir miktar eğrilik görmeyi beklersiniz. (ve, lütfen, yukarıdaki grafikleri kullanarak doğrusal olmayanlar dizilenene kadar QQplot'ları yoksayın!)

Ayrıca olası etkileşimleri de düşünmelisiniz (genellikle ürün terimlerine göre modellenir), yani bir değişkenin etkisi diğerinin seviyelerine bağlıdır, (Eğer üç değişkeninizin hepsi aynı anda yüksek değerlere sahipse, belki de bazı zorluklar gösterir. Eğer öyleyse, etkileşimler gerekebilir).

Doğrusal olmayan bir modele giderseniz, etkileşimler ve dönüşümleri denedikten sonra (denediniz log(Cost)mi?) Bazı kutu-cox dönüşümlerini denediniz mi? Birden fazla regresyonunuz olduğundan, loessihtiyacınız olan şeyin bu olduğunu düşünmüyorum, gamaramalısınız (genelleştirilmiş katkı modelleri, SAS buna sahip olmalı, R'de pakette mgcv).


1
Değerli bilgi için teşekkürler. Doğrusal regresyon ile log (maliyet) denedim, ama çok yardımcı olmadı. Etkileşim efektlerini ekleyeceğim ve neler olduğunu gözlemleyeceğim. Ayrıca dönüşümleri tekrar deneyeceğim. Gelişmelerim ve bulgularımla herkesi haberdar edeceğim.
ann

6

Veriler gerçekten düz bir çizgi üzerinde değilse, bir LOESS her zaman regresyondan daha iyi bir uyum sağlayacaktır. LOESS, verilere yaklaşmak üzere tasarlanmış yerel olarak doğrusal bir yaklaşımdır. Bu yöntemler temelde keşifçidir. Ve lineer bir modeli uyum sınırlarının ötesinde tahmin etmek tehlikeli olsa da, LOESS durumunda ekstrapolasyon pervasız olacaktır.

Modeliniz size negatif maliyetler veriyorsa, bu, lineer regresyonun sahip olduğunuz değişkenler için uygun olmadığının oldukça iyi bir işaretidir. Dönüşümleri denediğini söylüyorsun. Tahminlerinize karşı maliyet günlüğünü aldınız mı?

Şeylerin doğasında, maliyet ile bahsettiğiniz değişkenler arasında basit bir ilişki olması olası değildir. Bazen doğrusal bir regresyonun amacı basitçe bir tür korelasyonun var olduğunu göstermek ve belki de mantıklı bir dizi belirleyici seçmektir.


1
Negatif maliyetlerin doğrusal regresyonun uygun olmayabileceğini belirtmesi çok mantıklıdır. Analizime devam edeceğim ve bazı etkileşimler ekleyeceğim. Teşekkür ederim.
ann

3

Bravo artık analiz yaptığı için. Sizi tipik analistin çok ötesine taşır. (Bununla birlikte, model tanımınız hata yapısını tanımlamamakta yetersizdir.) X'lerin dönüşümlerini ve Y'lerin dönüşümlerine bakmayı düşünmelisiniz. Spline fitlerle modellemede SAS'ın R'nin arkasında olduğunun farkındayım, ancak son sürümlerin bu kapasiteyi sunduğunu anlıyorum. X terimleri için kısıtlı kübik spline uyumları eklemeyi düşünün. Referans olarak Frank Harrell'in "Regresyon Modelleme Stratejileri" metnini yenmek zor. Bu yaklaşım için sağlam istatistiksel argümanlara sahiptir. Bu, diğer bilge özlenecek verilerde yapının keşfine izin veren parametrik bir yaklaşımdır.


DWin'i takdir ettiğin için teşekkürler. Yeni mezun oldum ve bu benim analist olarak ilk işim. Tesadüfen, bu tür analizler şirket için de yeni. Yani, tamamen saçma olmayan bir analiz yapmaya çalışıyorum. Önerinizi alacağım ve her ikisinde de dönüşümleri deneyeceğimY ve Xdeğişkenler. Referansı da inceleyeceğim. Ben sadece bir pdf sürümünü çevrimiçi buldum. Girdiniz için teşekkürler.
ann

Log dönüşümünde ve çıktılarda sezgisel olarak lineer olarak bağımlı olan bir şeyler var. Model verirsenizlog(Y)=b0+b1log(X1)+b2log(X2) nerede X1 sağ koldaki enjeksiyonlardır ve X2Sol kolda enjeksiyonlar, aynı kolda tüm enjeksiyonları olan ve her iki tarafında yarısı olan biri için tamamen farklı maliyetler tahmin edersiniz
Dirk Horsten

Yorumunuz benim yanıtım için oldukça teğet görünüyor (ve enjeksiyonların kolla bölümlendirilmesinden hiç bahsedilmediğinden beri soruyorum) Umarım spline işlevlerinin log dönüşümlerine eşdeğer olduğunu düşünmezsiniz. Y'nin log dönüşümü, modelin maliyet ölçeğine dönüştüğünde tahmin edicilerde çarpıcı olduğu bir model yaratır. Bu oldukça büyük bir değişiklik ve problemlerini sorgulayıcıya yeterince tanımlamadığınız bir değişiklik.
DWin

2

Bence kjetil size bazı iyi önerilerde bulundu. Normal olmayan kalıntıların doğrusal veya doğrusal olmayan regresyondan parametrik olmayan regresyona atlamak zorunda olduğunuz anlamına gelmediğini de ekleyeceğim. Parametrik olmayan regresyona giderek fonksiyonel bir formun yapısından vazgeçersiniz. İlk gidebileceğiniz OLS regresyonuna alternatif güçlü regresyon vardır. Daha sonra sonraki adımlara ihtiyaç duyulursa genelleştirilmiş doğrusal modeller ve genelleştirilmiş katkı modelleri. Benim görüşüme göre LOESS son çare olmalı. Sanırım bu konuda kjetil ile hemfikirim.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.