B-Splines VS regresyondaki yüksek mertebeden polinomlar


10

Aklımda belirli bir örnek veya görevim yok. Ben sadece b-spline'ları kullanma konusunda yeniyim ve regresyon bağlamında bu işlevi daha iyi anlamak istedim.

Yanıt değişkeni ile bazı belirleyicileri arasındaki ilişkiyi değerlendirmek istediğimizi varsayalım . Öngörücüler bazı sayısal değişkenlerin yanı sıra bazı kategorik değişkenleri içerir.yx1,x2,...,xp

Diyelim ki bir regresyon modeli takıldıktan sonra, örneğin sayısal değişkenlerden biri önemlidir. Sonrasında mantıklı bir adım , ilişkiyi aşırı sığmadan yeterince açıklamak için daha yüksek mertebeden polinomların örneğin: ve gerekip gerekmediğini değerlendirmektir .x1x12x13

Sorularım:

  1. Hangi noktada b-spline'lar veya basit üst düzey polinomlar arasında seçim yaparsınız. örneğin R'de:

    y ~ poly(x1,3) + x2 + x3
    

    vs

     y ~ bs(x1,3) + x2 + x3
    
  2. Bu ikisi arasındaki seçiminizi bildirmek için grafikleri nasıl kullanabilirsiniz ve arazilerden çok açık değilse ne olur (örneğin: çok miktarda veri noktası nedeniyle)

  3. Nasıl arasında iki yönlü etkileşim terimlerini değerlendiriyorsunuz ve diyelim kix 3x2x3

  4. Yukarıdakiler farklı model türleri için nasıl değişir?

  5. Asla yüksek dereceli polinomları kullanmayı ve daima b-spline'larını takmayı ve yüksek esnekliği cezalandırmayı düşünür müsünüz?



Ne kadar gelişmiş mgcvolduğu göz önüne alındığında , neden (genelleştirilmiş) katkı modelleri kullanılmıyor? Pürüzsüzlük seçimi otomatiktir ve çıkarımsal yöntemler iyi gelişmiştir.
generic_user

Yanıtlar:


17

Genellikle polinomlardan ziyade sadece splineları düşünürdüm. Polinomlar eşikleri modelleyemez ve çoğu zaman istenmeyen küreseldir, yani öngörücünün bir aralığındaki gözlemler, modelin farklı bir aralıkta ne yaptığı üzerinde güçlü bir etkiye sahiptir ( Magee, 1998, Amerikan İstatistikçi ve Frank Harrell'in Regresyon Modelleme Stratejileri ). Ve elbette, aşırı düğümlerin dışında doğrusal olan kısıtlanmış splinelar, tahminlerin aşırı değerlerinde ekstrapolasyon, hatta intrapolasyon için daha iyidir.

Polinomları düşünmek isteyebileceğiniz bir durum, modelinizi teknik olmayan bir kitleye açıklamanın önemli olduğu durumdur. İnsanlar polinomları kamalardan daha iyi anlarlar. (Düzenleme: Matthew Drury , insanların sadece polinomları spline'den daha iyi anladıklarını düşünebileceklerine dikkat çekiyor . Bu soruya taraf olmayacağım.)

Grafikler, doğrusal olmama ile başa çıkmanın farklı yolları arasında karar vermede genellikle çok yararlı değildir. Çapraz doğrulama yapmak daha iyidir. Bu ayrıca etkileşimleri değerlendirmenize veya iyi bir ceza bulmanıza yardımcı olacaktır.

Son olarak, cevabım model türüyle değişmez, çünkü yukarıdaki noktalar herhangi bir istatistiksel veya ML modeli için geçerlidir.


Cevabınız için çok teşekkürler, çok yardımcı oldu. Kısa bir takip sorusu. Düğümleri bulmanın bir "son teknoloji" yolu var mı? Benim en iyi tahminim 1) sezgi kullanın örneğin: eğer değişken ay cinsinden zaman temsil ediyorsa o zaman her 6 veya 12 knot kullanın? 2) değişken aralığından geçen bir dizi tanıtmak ve belki en uygun düğüm bulmak için çapraz doğrulama kullanın?
Vasilis Vasileiou

8
İnsanlar polinomları kamalardan daha iyi anladıklarını düşünüyorlar .
Matthew Drury

3
Düğüm yerleşimi ile ilgili olarak: çapraz doğrulama bir yaklaşımdır, ancak dürüst olmak gerekirse, düğümlerin makul bir şekilde yerleştirildiği ve çok fazla kümelenmediği sürece sonuçların yerleşimi bilmek için oldukça duyarsız olacağını düşünüyorum. Frank Harrell, Regresyon Modelleme Stratejilerindeki yordayıcı dağılımının miktarları açısından sezgisel düğüm yerleşimlerine sahip bir tabloya sahiptir .
Stephan Kolassa

1
Cevabınız bu bağlamda tamamen geçerli olsa da, ifadeniz çok sayıda gerçek dünya sürecinin polinomlar tarafından daha iyi modellenebileceğini göz önünde bulundurarak çok güçlüdür.
koalo

6

"İstatistiksel Öğrenmenin Öğeleri" nin 7.4.5 bölümünde, spline'ların polinom regresyonundan daha üstün sonuçlar verdiği söylenir, çünkü:

  • Esnek uyum sağlar;
  • Daha kararlı tahminler üretir;
  • Polinomlar sınırlarda istenmeyen sonuçlar verebilir.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.