Bunu birkaç yıl önce sıfırdan programladım ve bilgisayarımda parça halinde doğrusal regresyon yapmak için bir Matlab dosyam var. Yaklaşık 20 ölçüm noktası için yaklaşık 1 ila 4 kesme noktası hesaplanabilir. 5 veya 7 kesme noktası gerçekten çok fazla olmaya başlar.
Gördüğüm gibi saf matematiksel yaklaşım, sorunuzun altındaki yorumda bağlantılı soruda mbq kullanıcısı tarafından önerilen tüm olası kombinasyonları denemektir.
Takılan hatların hepsi ardışık ve bitişik (çakışma yok) olduğundan, birleştiriciler Paskal üçgenini takip edecektir. Hat bölümleri tarafından kullanılan veri noktaları arasında çakışmalar olsaydı, birleştiricilerin bunun yerine ikinci tür Stirling numaralarını izleyeceğine inanıyorum.
Aklımdaki en iyi çözüm, takılan hatların R ^ 2 korelasyon değerlerinin en düşük standart sapmasına sahip takılan hatların kombinasyonunu seçmektir. Bir örnekle açıklamaya çalışacağım. Verilerde kaç kırılma noktası bulunması gerektiğini sormanın, "Britanya sahili ne kadar sürer?" Sorusunu sormaya benzer olduğunu unutmayın. Benoit Mandelbrots'un (matematikçi) fraktallarla ilgili makalelerinde olduğu gibi. Ve kırılma noktası sayısı ile regresyon derinliği arasında bir denge vardır.
Şimdi örneğe bakalım.
Varsayalım ki bir fonksiyonu olarak mükemmel verisine sahibiz ( ve tamsayılardır):yxxy
x12345678910111213141516171819202122232425262728y123456789109876543212345678910R2line11,0001,0001,0001,0001,0001,0001,0001,0001,0001,0000,97090,89510,77340,61340,43210,25580,11390,027200,00940,02220,02780,02390,01360,00320,00040,01180,04R2line20,04000,01180,00040,00310,01350,02380,02770,02220,0093−1,9780,02710,11390,25580,43210,61340,77330,89510,97081,0001,0001,0001,0001,0001,0001,0001,0001,0001,000sumofR2values1,04001,01181,00041,00311,01351,02381,02771,02221,00931,0000,99801,00901,02921,04551,04551,02911,00900,99801,0001,00941,02221,02781,02391,01361,00321,00041,01181,04standarddeviationofR20,67880,69870,70670,70480,69740,69020,68740,69130,70040,70710,66730,55230,36590,12810,12820,36590,55230,66720,70710,70040,69140,68740,69020,69740,70480,70680,69870,6788
Bu y değerleri şu grafiğe sahiptir:
Açıkça iki kırılma noktası var. Argüman olarak R ^ 2 korelasyon değerlerini (Excel hücre formülleriyle (Avrupa nokta-virgül stili)) hesaplayacağız:
=INDEX(LINEST(B1:$B$1;A1:$A$1;TRUE;TRUE);3;1)
=INDEX(LINEST(B1:$B$28;A1:$A$28;TRUE;TRUE);3;1)
iki takılmış hattın çakışan olası tüm kombinasyonları için . Olası tüm R ^ 2 değer çiftlerinin grafiği vardır:
Soru, hangi çift R ^ 2 değerini seçmeliyiz ve başlıkta istendiği gibi birden fazla kırılma noktasına nasıl genelleme yapabiliriz? Bir seçenek, R-kare korelasyonunun toplamının en yüksek olduğu kombinasyonu seçmektir. Bunu çizerken, aşağıdaki üst mavi eğriyi elde ederiz:
R kare değerlerinin toplamı olan mavi eğri, ortadaki en yüksek değerdir. Bu, en yüksek değer olarak değerine sahip tablodan daha açık bir şekilde görülebilir . Bununla birlikte, kırmızı eğrinin minimumunun daha doğru olduğunu düşünüyorum. Yani, takılan regresyon hatlarının R ^ 2 değerlerinin standart sapmasının minimum değeri en iyi seçim olmalıdır.1,0455
Parça bilge doğrusal regresyon - Matlab - çoklu kırılma noktaları