K kategorik değişkenlere eşdeğer regresyon yumuşatma spline k knot seçimi?


9

Hastanın yaşının (yıl olarak ölçülen bir tamsayı miktarı) öngörücü değişkenlerden biri olduğu öngörücü bir maliyet modeli üzerinde çalışıyorum. Yaş ve hastanede kalış riski arasında doğrusal olmayan güçlü bir ilişki açıktır:

resim açıklamasını buraya girin

Hasta yaşı için bir regresyon düzeltme spline'ı cezalandırmayı düşünüyorum. İstatistiksel Öğrenmenin Unsurlarına göre (Hastie ve diğerleri, 2009, s.151), optimal düğüm yerleşimi üye yaşının benzersiz değeri başına bir düğümdür.

Yaşı bir tamsayı olarak koruduğum göz önüne alındığında, cezalandırılmış yumuşatma spline, veri kümesinde her yaş değerinde (referans için eksi bir) bulunan 101 farklı yaş göstergesi değişkenine sahip bir sırt regresyonu veya kement çalıştırmaya eşdeğer midir? Daha sonra, her bir yaş göstergesindeki katsayılar sıfıra doğru küçüldüğünden aşırı parametrelendirmeden kaçınılır.


Yaş göstergeleri + büzülme teklifiniz aslında 0.
derecenin

Diğer tahmin değişkenlerinin ne olduğunu belirttiyseniz, önerilen cevaplardan biri olarak, kabul nedenini kontrol ederseniz çok farklı bir grafiğiniz olabilir.
seanv507

Yanıtlar:


11

Harika bir soru. Sorduğunuz sorunun cevabının - "sırt regresyonu veya kement çalıştırmaya eşdeğer cezalandırılmış düzeltme spline" - evet olduğuna inanıyorum. Orada yorum ve perspektif sağlayabilecek bir dizi kaynak var. Başlamak isteyebileceğiniz bir yer bu PDF bağlantısıdır . Notlarda belirtildiği gibi:

"Pürüzsüzleştirici bir spline modelinin yerleştirilmesi, doğal spline'lar için bir tür sırt regresyonu gerçekleştirmek anlamına gelir."

Bazı genel okumalar arıyorsanız , Cezalandırılmış Regresyonlar: Kemente Karşı Köprü hakkındaki bu mükemmel makaleye göz atmanın keyfini çıkarabilirsiniz . Bu, daha genel bir bakış açısı sağlamasına rağmen, cezalandırılmış düzeltme spline'ın tam olarak eşdeğer olup olmadığı sorusunu cevaplamaya yardımcı olabilir. Farklı teknikleri birbirleriyle, özellikle de LASSO ile yeni bir köprü regresyon modelini ve Ridge Regresyonunu karşılaştırdıklarından ilginç buluyorum.

Kontrol edilmesi gereken bir başka taktik yer de R'deki smooth.spline paketi için paket notları olabilir. = X c (yani c spline katsayılarının vektörüdür), cezalandırılmış log olasılığıL=(y-f)TW(y-f)+λcTΣc, ve dolayısıyla c (sırt regresyonunun) çözümü (XTWX+λΣ)c=XTWy."


Endişelenme @RobertF. İyi günler.
Nathaniel Payne

1
Paragraf 1'deki bağlantı PDF'sine bağlantı koptu.
Jthorpe

3

Arsa göz önüne alındığında gerçekten çok fazla deniz mili istediğinizden emin değilim.

Belli yaşlarda küçük örnekleriniz olabilir gibi görünüyor; 74'teki tepe noktası ve düşük ve üst uçtaki 0 ​​değerleri çok az anlam ifade eder.

Sitenizin kaynağının yetkisi göz önüne alındığında, belki daha az sayıda düğüm ile kısıtlı kübik splinelar mı istiyorsunuz?


1
Teşekkürler Peter - evet obs # çok genç ve yaşlı için seyrek. Bu kadar çok düğüm kullanmak mantıksız görünüyor, ESL'de ilk okurken her gözlemde bir düğüm yerleştirmenin cezalandırılmış kalan kareler toplamını en aza indirdiğini zihinsel olarak iki kere aldım . Test veri kümesindeki yanıt değişkenimi tahmin etmede kısıtlı bir kübik spline veya cezalandırılmış yumuşatma spline'ın daha iyi çalıştığının kanıtı pudingde.
RobertF

0

Bu tartışmaya geç kaldım, ancak verilerin çizelgesine bakın ... 70 yaş üstü verilerdeki belirgin spikeyness, yaşa bağlı riskin gerçek bir yansıması değil, seyrek verilerin ve bazı rastgele özelliklerin bir belirtisi.

Yılda bir düğüm kullanarak, kesinlikle gürültünün aşırı takılmasına yol açacağını modellemek istemezsiniz.

Ayrıca, dişi ve erkeğe bakarsanız çok farklı bir model bulacaksınız. 15-30 yaş aralığındaki zirvenin çoğu Obstetrik olacak.


Merhaba Doug - Doğru, 70 yaşın üzerinde kesinlikle daha az gözlem var. Düğüm spline modeli başına bir yıl cezalandırılmış olması, 70 + katsayısını sıfıra düşürecektir. Buradaki amaç, düğüm yerleşiminin manuel seçimini, özellikle tahmin modelinde yararlı olan yaş ve IP kabulleri arasındaki doğrusal olmayan ilişkiye en uygun otomatik bir işlemle değiştirmek olacaktır.
RobertF
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.