Doğrusal regresyon neden basit bir deterministik dizinin sonucunu tahmin edemiyor?


9

Bir meslektaşım bana bu problemi internette tur attı:

If $3 = 18, 4 = 32, 5 = 50, 6 = 72, 7 = 98$, Then, $10 =$ ?

Cevap 200 gibi görünüyor.

3*6  
4*8  
5*10  
6*12  
7*14  
8*16  
9*18  
10*20=200  

R doğrusal bir regresyon yaptığımda:

data     <- data.frame(a=c(3,4,5,6,7), b=c(18,32,50,72,98))  
lm1      <- lm(b~a, data=data)  
new.data <- data.frame(a=c(10,20,30))  
predict  <- predict(lm1, newdata=new.data, interval='prediction')  

Alırım:

  fit      lwr      upr  
1 154 127.5518 180.4482  
2 354 287.0626 420.9374  
3 554 444.2602 663.7398  

Doğrusal modelim tahmin ediyor .10=154

Verileri çizdiğimde doğrusal görünüyor ... ama açıkçası doğru olmayan bir şey varsaydım.

R'de doğrusal modellerin en iyi şekilde nasıl kullanılacağını öğrenmeye çalışıyorum. Bu seriyi analiz etmenin doğru yolu nedir? Nerede hata yaptım?


7
Ahem . (i) Sorunun ifadesi anlamsızdır. 3 = 18 nasıl olabilir? Elbette niyet böyle bir şeyf(3)=18; (ii) yazmak için yeterli görüyorsanız18=3x6, 32=4x8Vb mutlaka daha sonra bu, her ikinci dönem bölmek için görebilir ( , daha sonra yazma için, ve benzeri): , , vb. Ve anında karesel noktayı tespit edin,6=3x28=4×218=3×3×232=4×4×2f(x)=2x2. (Zor kısmı yaptınız, bir sonraki adım daha da basit!)
Glen_b-Monica'yı yeniden eski haline getir

4
Ayrıca, sorun yanıtta asgari bilgi içeriği kriteri belirledi mi? Matematiğimi doğru hatırlarsam, bu noktalara uyan sayılamayacak kadar sonsuz sayıda fonksiyon vardır ve hepsi için farklı cevaplar verir.f(10). Tipik olarak bilgiçlikten uzak değilim, ama zaman kaybına neden olan e-postalar bunu hak ediyor.
parlak yıldız

1
@TrevorAlexander, bu sorunun zaman kaybı olduğunu düşünüyorsanız neden cevap vermeye zahmet ediyorsunuz? Açıkçası bazı insanlar bunu ilginç buluyor.
jwg

Yanıtlar:


23

Bu tür bir regresyon modeli, lm()örtük olarak, altta yatan veri üretme sürecinin olasılıklı olduğunu varsayar . Modellemeye çalıştığınız kuralın deterministik olduğunu varsayıyorsunuz . Bu nedenle, yapmaya çalıştığınız şey ile yapmaya çalıştığınız yol arasında bir uyumsuzluk var.

Belirleyici verilere en basit işlevi bulmak / sığdırmak için açıkça tasarlanmış başka yazılımlar (yani R değil) vardır (bir örnek Eureqa olacaktır ). Bunun için bir R paketi olabilir (bilmiyorum), ancak R olasılıksal verilerin istatistiksel modellemesi için tasarlanmıştır.

lm()Size verilen cevaba gelince , makul görünüyor ve doğru olabilir. Ancak bu sorunun sunulduğu bağlamı, deterministik olarak anlaşılması gerektiğini ima ediyorum. Durum böyle olmasaydı ve uyumun makul olup olmadığını merak ediyor olsaydınız, fark edebileceğiniz bir şey, iki aşırı veri noktasının regresyon çizgisinin üzerinde olduğu, orta verilerin ise altında olduğu. Bu, yanlış tanımlanmış fonksiyonel bir formu önerir. Bu aynı zamanda artıklarla karşılaştırmalı arsada da görülebilir ( plot(lm1, which=1):

resim açıklamasını buraya girin

@AlexWilliams'a uyan modele gelince, çok daha iyi görünüyor:

resim açıklamasını buraya girin


17
+1 Kalan arsa, hikayeyi öyle bir şey anlatır ki, özleyemezsiniz. Gerçekten de, OP'nin 'doğrusal görünmesinin' neden genellikle yanıltıcı olduğunu gösterir - sadece bir dönüm noktasına yakın olmayan birkaç noktaya bakarsak, birçok kavisli fonksiyon 'neredeyse düz' görünebilir. Doğrusal olduğunu düşünüyorsanız, bu çizgiyi çıkarın ve geride kalanları görün!
Glen_b

1
İnanılmaz derecede faydalı bilgiler! Teşekkür ederim, gerçekten minnettarım
Brett Phinney

1
Bunun olasılıklı ve deterministik veriler arasındaki ayrımla kesinlikle bir ilgisi yoktur. Doğrusal regresyon, eğer doğrusal olsaydı deterministik verilere uyacak ve tahmin edebilecekti. Altta yatan model ikinci dereceden olsaydı olasılık verileri için iyi bir tahmin yapamazdı.
jwg

3
@jwg: Bununla çok ilgisi var. Yoksa her zamann ile gözlemler (n-1)hiçbir derece düşük polinom mükemmel bir uyum verdiğinde inci derece polinom?
Scortchi - Monica'yı eski durumuna döndürün

Mükemmel bir uyum aradığını sanmıyorum. Öngörülen değerin neden bu kadar uzakta olduğunu anlamaya çalışıyor.
Ocak'ta

22

Eğilim ikinci dereceden doğrusal değil. Deneyin:

lm1 <- lm(b~I(a^2), data=data)

Güncelleme: İşte kod.

data <- data.frame(a=c(3,4,5,6,7),b=c(18,32,50,72,98))
lm1 <- lm(b~I(a^2), data=data)
new.data <- data.frame(a=c(10,20,30))
predict(lm1, newdata = new.data, interval='prediction')

Ve çıktı:

   fit  lwr  upr
1  200  200  200
2  800  800  800
3 1800 1800 1800

Bu cevap benim için biraz dairesel gözüküyor: sorunun tüm mesele ikinci dereceden davranışı tanımak. İkinci dereceden davranış belirtildiğinde, lineer regresyonun katsayıları bulabileceğini doğru olarak işaret edersiniz. Ama aslında bu cevabın ilk satırını yazdığınız zamana kadar çok önemli bir analiz yaptınız .
whuber

5
@whuber - Soru, doğrusal bir modelin neden başarısız olduğu. Başarısız çünkü fonksiyonel form doğrusal değil, ikinci dereceden. Cevabı basit ve konuya vermek istedim. Gung'un cevabı ayrıntılara girme konusunda iyi bir iş çıkarır ve daha iyi bir model bulmak için artık grafikleri nasıl kullanabileceğinizi gösterir. (Sadece kalem ve kağıt üzerinde yaptım.) Cevabının daha ayrıntılı ve eksiksiz olduğunu kabul ediyorum ve iptal ettim.
Alex Williams

13

Alex Williams ve gung tarafından verilen mükemmel cevapları eklemekte tereddüt ettim, ancak yapılması gereken başka bir nokta daha var. Soru, muhtemelen aynı anlama geldiklerini düşündüren 'doğrusal regresyon' ve 'doğrusal model' ifadelerini kullanıyor. Bununla birlikte, 'doğrusal regresyon'un olağan anlamı,' doğrusal ' parametrelerde' doğrusal 'anlamına gelen Klasik Doğrusal Regresyon Modeli'ni (CLRM) ifade eder . Bu, bağımsız değişkenlerde değil parametrelerde bir koşuldur. Yani aşağıdaki gibi ikinci dereceden bir model:

Yben=β1+β2Xben2

CLRM anlamında hala doğrusal, çünkü parametrelerde doğrusal β1 ve β2. Buna karşılık, model:

Yben=β1+β2Xben

parametrelerinde lineer ve ayrıca Xben. Doğrusal bir model olarak adlandırmak yerine, daha kesin bir ifade, parametrelerinde doğrusal olması ve doğrusal fonksiyonel forma sahip olmasıdır. Bu nedenle, dizinin, ikinci dereceden fonksiyonel forma (Alex Williams tarafından gösterildiği gibi) sahip olması koşuluyla, ancak lineer fonksiyonel forma sahip bir modelle değil, parametrelerinde doğrusal olan bir modelle analiz edilebileceği söylenebilir.


1
Bunu hatırlamakta her zaman zorlanırım. Bu diğer cevaplara harika bir ektir.
17:15
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.