Doğrusal ve doğrusal olmayan regresyon


13

Teorik olarak üstel olarak ilişkili ve değerleri bir dizi var :xy

y=axb

Katsayıları elde etmenin bir yolu, her iki tarafa doğal logaritmalar uygulamak ve doğrusal bir model yerleştirmektir:

> fit <- lm(log(y)~log(x))
> a <- exp(fit$coefficients[1])
> b <- fit$coefficients[2]

Bunu elde etmenin bir başka yolu, teorik bir başlangıç ​​değerleri kümesi verildiğinde doğrusal olmayan bir regresyon kullanmaktır:

> fit <- nls(y~a*x^b, start=c(a=50, b=1.3))

İkinci algoritmayı uygularsam, testlerim teoriyle ilgili daha iyi sonuçlar verir. Ancak, her yöntemin istatistiksel anlamını ve sonuçlarını bilmek istiyorum.

Hangisi daha iyi?


3
Lütfen benzer bir soruyla ilgilenen bu gönderiye bir göz atın . Bu makale de ilgi çekici olabilir.
COOLSerdash

5
"üstel" genellikle aşağıdakileri temel alan bir şeyi ifade eder exp(): burada sahip olduğunuza daha çok güç fonksiyonu, güç yasası veya ölçeklendirme yasası denir. Diğer isimler şüphesiz var. Hipotez testi anlamında iktidarla hiçbir bağlantısı yoktur.
Nick Cox

Yanıtlar:


16

"Daha iyi" modelinizin bir fonksiyonudur.

Karışıklık nedeninizin bir kısmı, modelinizin sadece yarısını yazmış olmanızdır.

dediğinizde , bu aslında doğru değildir. Gözlenen değerleriniz eşit değil ; bir hata bileşeni var.y=axbyaxb

Örneğin, bahsettiğiniz iki model (hiçbir şekilde tek olası modeller değil) hata hakkında tamamen farklı varsayımlar yapar.

Muhtemelen daha yakın bir şey kastediyorsunuz .E(Y|X=x)=axb

Ama sonra bir varyasyon hakkında ne diyorsunuz , belirli bir uzak beklentisiyle gelen ? Fark eder, önemi var!Yx

  • Doğrusal olmayan en küçük kareler modeline uyduğunuzda, hataların toplanır olduğunu ve hataların standart sapmasının veriler arasında sabit olduğunu söylüyorsunuz:

    yiN(axib,σ2)

    Veya eşdeğer olarak

    yi=axib+ei ,var(ei)=σ2

  • günlükleri alıp doğrusal bir modele sığdırdığınızda, hatanın günlük ölçeğinde toplanır ve veriler arasında (günlük ölçeğinde) sabit olduğunu söylüyorsunuz. Bu, gözlemlerin ölçeğinde, hata teriminin çarpımsal olduğu ve bu nedenle beklenen değerler daha büyük olduğunda hataların daha büyük olduğu anlamına gelir :

    yilogN(loga+blogxi,σ2)

    Veya eşdeğer olarak

    η ilogN ( 0 , σ 2 )yi=axibηi ,ηilogN(0,σ2)

    ( 1 olmadığını unutmayın. küçükse, bu efekt için izin vermeniz gerekir)σ 2E(η)σ2

(Normallik / lognormal dağılımları varsaymadan en az kareler yapabilirsiniz, ancak tartışılan merkezi sorun hala geçerlidir ... ve normalliğe yakın bir yerde değilseniz, muhtemelen farklı bir hata modeli düşünmelisiniz)

Bu yüzden en iyi olan, hangi tür hata modelinin durumunuzu tanımladığına bağlıdır.

Eğer daha önce görülmemiş sürülmemiştir verilerin çeşit bazı keşif analiz yapıyorsanız [, aşağıdaki gibi soruları dikkate alacağını "veri neye önem verirsiniz? (Yani karşı çizilen ? Artıklar karşı gibi neye ? Öte yandan, bu gibi değişkenler nadir değilse, genel davranışları hakkında zaten bilgi sahibi olmalısınız.]x xyxx


9

Her iki modele de uyduğunuzda, artık setinin (gözlenen ve tahmin edilen Y değerleri arasındaki tutarsızlıklar) bir Gauss dağılımını takip ettiğini varsayıyorsunuz. Eğer bu varsayım ham verileriniz (doğrusal olmayan regresyon) için doğruysa, o zaman log-dönüştürülmüş değerler (doğrusal regresyon) için geçerli olmaz ve bunun tersi de geçerlidir.

Hangi model "daha iyi"? Modelin varsayımlarının verilerle en yakından eşleştiği.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.