Doğrusal regresyon modeli veya doğrusal olmayan regresyon modeli arasında karar verme


10

Doğrusal regresyon modeli veya doğrusal olmayan regresyon modeli kullanma arasında nasıl karar verilmelidir?

Amacım Y'yi tahmin etmektir.

Basit ve veri kümesi durumunda, bir dağılım grafiği çizerek hangi regresyon modelinin kullanılması gerektiğine kolayca karar verebilirim.xy

ve gibi çoklu değişkenlerde . Hangi regresyon modelinin kullanılacağına nasıl karar verebilirim? Yani, basit doğrusal model veya kuadrik, kübik vb.Gibi doğrusal olmayan modellerle devam etmeye nasıl karar vereceğim.x1,x2,...xny

Hangi regresyon modelinin kullanılması gerektiğine karar vermek için herhangi bir teknik veya istatistiksel yaklaşım ya da grafik grafik var mı?


"Doğrusal olmayan model" oldukça geniş bir kategoridir. Aklınızda bir tane var mı? Analiz hedefleriniz neler?
shadowtalker

Bu hedeflerinize bağlıdır. Bir tahmin / tahmin modeli mi oluşturuyorsunuz?
Aksakal

Tahmin benim hedefim.
shakthydoss

1
"Verileri çizin" yaklaşımı gibi bir şey peşindeyseniz ancak birden çok öngörücü için, bir miktar değerli olabilecek değişken grafikleri eklenmiştir. Ancak hedefiniz tahmin ise sorun, verileri görmeye dayanarak ne gideceğinizi seçmenizdir, bu nedenle sahip olduğunuz verilerde diğer verilere göre çok daha iyi görünecektir (ve böyle bir sorunla birlikte gelen diğer birçok sorun vardır) model seçimine yaklaşım) - bir örnekleme örneğindeki şeyleri değerlendirmeniz / çapraz doğrulama gibi bir şeyi düşünmeniz için örnek öngörme yeteneğini doğru bir şekilde değerlendirmek için.
Glen_b

1
Bir süre önce başlattığım ilgili bir tartışmayı faydalı bulabilirsiniz .
Aleksandr Blekh

Yanıtlar:


10

Bu, model seçimi adı verilen bir istatistik alanıdır. Bu alanda çok fazla araştırma yapıldı ve kesin ve kolay bir cevap yok.

Diyelim ki ve ve modele bir terimi eklemeniz gerekmediğini bilmek istiyorsunuz . Böyle bir durumda, daha gösterişli modeliniz daha karmaşık modelinize yerleştirilir. Başka bir deyişle, ve değişkenleri (değişken model) ve değişkenlerinin bir alt kümesidir (karmaşık model). Model yapımında (en azından) aşağıdaki iki ana hedeften birine sahipsiniz:X1,X2X3X32X1,X2X3X1,X2,X3X32

  1. Verileri açıklar: Eğer anlamaya çalışıyoruz nasıl değişkenlerden bazıları seti yanıt değişkeni etkileyen veya nasıl ilgilenen edilir etkileri ise etkilerini kontrolX1YX2,...Xp
  2. Tahmin : Eğer doğru tahmin etmek istiyorum Modelinizdeki ne ya kaç değişkenleri hakkında bakmakta olmadan,YY

Hedefiniz 1 numaraysa, Olabilirlik Oranı Testi'ni (LRT) öneririm. LRT, iç içe geçmiş modelleriniz olduğunda ve "verilerin karmaşık modelden gelme olasılığı daha yüksek olan modelden çok daha mı büyüktür?" Bu, hangi modelin verileriniz arasındaki ilişkiyi daha iyi açıkladığına ilişkin fikir verecektir.

Hedefiniz 2 numaraysa, verilerinizin boyutuna bağlı olarak bir çeşit çapraz doğrulama (CV) tekniği ( -katlı CV, bir defaya mahsus CV, test eğitimi CV) öneririm . Özetle, bu yöntemler verilerinizin bir alt kümesinde bir model oluşturur ve kalan verilerdeki sonuçları tahmin eder. Kalan verileri tahmin ederek en iyi işi yapan modeli seçin.k


Lütfen (1) ve (2) hedefleri arasındaki farkı daha belirgin hale getirebilir misiniz? Şu anda pek bir fark yok.
ttnphns

@ttnphns İki hedefin kısa bir açıklamasını ekledim.
TrynnaDoStat

@TrynnaDoStat Buradaki ifadeyle kafam karıştı En iyi işi tahmin eden modeli seçin. En iyi modelle, doğrusal (cimri) model ve karmaşık model arasında seçim yapmak istersiniz. Bildiğim şey k katlama olduğu için, görünmeyen verilerdeki model performansını kontrol etmek için bir kez bırakılan CV kullanılır. Model seçimi için kullanılmazlar. Burada kafam karıştı.
tushaR

1

"Linearn veya regresyon için doğrusal olmayan model" için google'ı bu kitaba götüren bazı bağlantılar alıyorum: http://www.graphpad.com/manuals/prism4/RegressionBook.pdf Bu kitap ilginç değil ve yapmıyorum % 100 güvenmeyin (bazı nedenlerden dolayı).

Bu makaleyi de buldum: http://hunch.net/?p=524 başlıklı: Neredeyse tüm doğal problemler doğrusal olmama gerektirir

Ben de oldukça iyi bir açıklama ile benzer bir soru buldum: /programming/1148513/difference-between-a-linear-problem-and-a-non-linear-problem-essence-of-dot-pro

Deneyimlerime dayanarak, hangi modelin kullanıldığını bilmediğinizde, her ikisini de kullanın ve başka bir özellik deneyin.


0

Belirttiğiniz gibi, doğrusal modeller genellikle doğrusal olmayan modellerden daha basittir, yani daha hızlı çalışırlar (oluşturma ve tahmin etme), yorumlanması ve açıklanması daha kolaydır ve genellikle hata ölçümlerinde düzdür. Dolayısıyla amaç, doğrusal bir regresyon varsayımlarının verilerinizle uyumlu olup olmadığını bulmaktır (eğer doğrusal desteği desteklemezseniz, o zaman sadece doğrusal olmayan ile devam edin). Genellikle tek değişkenli grafiğinizi tüm değişkenlerle tek tek tekrarlar ve diğer tüm değişkenleri sabit tutarsınız.

Belki de daha da önemlisi, verilerinizi doğrusal uzaya taşımak için bir çeşit dönüşüm, değişken etkileşim veya kukla değişken uygulayıp uygulayamayacağınızı bilmek istersiniz. Varsayımları doğrulayabiliyorsanız veya verilerinizi iyi motive edilmiş veya akıllıca bilgilendirilmiş dönüşümler veya modifikasyonlar uygulayacak kadar iyi biliyorsanız, bu dönüşüme devam etmek ve doğrusal regresyon kullanmak istersiniz. Artıklara sahip olduğunuzda, doğrusal olmayan yöntemlere geçmeniz gerekip gerekmediğine daha fazla karar vermek için bunları öngörülen değerlere veya bağımsız değişkenlere göre çizebilirsiniz.

Duke'taki lineer regresyon varsayımlarının mükemmel bir dökümü var . Dört ana varsayım listelenmiştir ve her biri model üzerindeki etkilere, verilerde nasıl teşhis konulacağına ve varsayımı muhafaza etmek için verileri "düzeltmek" (yani dönüştürmek veya eklemek) için potansiyel yollara ayrılmıştır. Aşağıda, ele alınan dört varsayımı özetleyen küçük bir alıntı var, ancak oraya gitmeli ve arızaları okumalısınız.

Çıkarım veya tahmin amacıyla lineer regresyon modellerinin kullanımını haklı çıkaran dört temel varsayım vardır:

(i) bağımlı ve bağımsız değişkenler arasındaki ilişkinin doğrusallığı ve katkısı:

(a) Bağımlı değişkenin beklenen değeri, diğer bağımsız değişkenleri sabit tutan, her bağımsız değişkenin düz çizgi fonksiyonudur.

(b) Bu çizginin eğimi diğer değişkenlerin değerlerine bağlı değildir.

(c) Farklı bağımsız değişkenlerin bağımlı değişkenin beklenen değeri üzerindeki etkileri katkı maddesidir.

(ii) hataların istatistiksel bağımsızlığı (özellikle, zaman serisi verileri durumunda> ardışık hatalar arasında korelasyon yoktur)

(iii) hataların eşcinsellik (sabit varyans)

(a) zamana karşı (zaman serisi verileri durumunda)

(b) tahminlere karşı

(c) herhangi bir bağımsız değişkene karşı

(iv) hata dağılımının normalliği.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.