Temel OLS regresyonu, bir fonksiyonu bir veri kümesine uydurmak için çok iyi bir tekniktir. Bununla birlikte, basit regresyon sadece tüm olası aralığı için sabit olan düz bir çizgiye uyar . Bu, belirli bir durum için uygun olmayabilir. Örneğin, veriler bazen eğrisel bir ilişki gösterir. Bu, Y'nin X , f ( X ) dönüşümüne gerilemesi ile halledilebilir . Farklı dönüşümler mümkündür. X ve Y arasındaki ilişkinin monotonik olduğu , ancak sürekli olarak azaldığı durumlarda , bir günlük dönüşümüXYXf(X)XYkullanılabilir. Bir başka popüler bir seçim yeni terimler yükselterek tarafından ortaya konmaktadır bir polinom kullanmaktır güçlerin bir dizi (örneğin, için X 2 , X 3 , vs.). Bu stratejinin uygulanması kolaydır ve uygunluğu, verilerinizde kaç tane 'büküm' bulunduğunu (büküm sayısının ihtiyaç duyulan en yüksek güce eksi 1'e eşit olduğu) söyleyerek yorumlayabilirsiniz. XX2X3
Bununla birlikte, logaritma veya ortak değişkenin bir üssüne dayanan regresyonlar, ancak bu gerçek ilişkinin kesin doğası olduğunda en uygun şekilde olacaktır. ve Y arasında, dönüşümlerin sağladığı olanaklardan farklı, eğrisel bir ilişki olduğunu hayal etmek oldukça makul . Böylece, iki stratejiye daha geliyoruz. Birinci yaklaşım lös , hareketli bir pencere üzerinde hesaplanan ağırlıklı doğrusal regresyonun bir dizi. Bu yaklaşım daha eskidir ve keşifsel veri analizine daha uygundur . XY
Diğer yaklaşım spline kullanmaktır. En basit haliyle, spline, X aralığının sadece bir kısmı için geçerli olan yeni bir terimdir . Örneğin, X 0 ile 1 arasında değişebilir ve spline terimi yalnızca .7 ile 1 arasında değişebilir. Bu durumda, .7 düğümdür . Basit, doğrusal bir spline terimi şu şekilde hesaplanır:
X s p l i n e = { 0XX
ve senin modeline eklenebilirek olarakorijinalXterimi. Takılan model, 0'dan 0,7'ye kadar düz bir çizgiyle .7'de keskin bir kırılma gösterecek ve çizgi, 7'den 1'e kadar farklı bir eğimle devam edecektir. Ancak, spline teriminin doğrusal olması gerekmez. Özellikle, kübik splineların özellikle yararlı olduğu belirlenmiştir (yani,X 3 s p l i n e
Xspline={0X−.7if X≤.7if X>.7
XX3spline). Keskin aralar da orada olmak zorunda değil. Takılan parametreleri birinci ve ikinci türevlerin düğümlerde eşleşeceği şekilde sınırlayan ve düğümlerin çıktıda algılanmasını imkansız hale getiren algoritmalar geliştirilmiştir. Tüm bunların Sonuçta (yazılım sizin için belirleyebilir) seçim yerlerde (genellikle 3-5) sadece birkaç knot ile hemen hemen üreyebilir olmasıdır
herhangieğrisi. Dahası, serbestlik dereceleri doğru bir şekilde hesaplanır, böylece sonuçlara güvenebilirsiniz, bu da önce verilerinize baktığınızda doğru değildir ve daha sonra bir bükülme gördüğünüz için kare bir terime uymaya karar verirsiniz. Buna ek olarak, tüm bunlar temel doğrusal modelin sadece bir başka (daha karmaşık da olsa) versiyonudur. Böylece, doğrusal modellerle elde ettiğimiz her şey bununla birlikte gelir (örneğin, tahminler, artıklar, güven bantları, testler, vb.) Bunlar
önemli avantajlardır.
Bildiğim bu konulara en basit giriş: