13

Doğrusal regresyonda yanıt değişkeninin sürekli olması gerektiğini biliyorum ama neden böyle? Yanıt değişkeni için neden ayrık veri kullanamadığımı açıklayan çevrimiçi hiçbir şey bulamıyorum.

regression linear

— ilovestats
kaynak

25

Beğendiğiniz iki sayı sütununda doğrusal regresyon kullanmayı durduracak hiçbir şey yoktur. Oldukça mantıklı bir seçim bile olabileceği zamanlar vardır.

Bununla birlikte, dışarı çıktıklarınızın özellikleri mutlaka yararlı olmayacaktır (örneğin, olmasını istediğiniz her şey olmayacaktır).

$E(Y|x) = g(x)$ $g$

$x$ $E(Y|x) = P(Y=1|X=x)$

$E(Y)$ $0$ $1$

Gerçekten de, beklenti sınırlara yaklaştıkça, değerlerin bu sınırdaki değeri gittikçe daha sık alması gerektiğini görmek mümkündür, bu nedenle varyansı, beklentinin ortaya yakın olandan daha küçük hale gelir - varyans 0'a düşmelidir Böylece sıradan bir regresyon ağırlıkları yanlış yapar ve koşullu beklentinin 0 veya 1'e yakın olduğu bölgedeki verileri zayıflatır. A ve b arasında sınırlı bir değişkeniniz varsa, örneğin her bir gözlemin ayrı bir sayı olması gibi bu gözlem için bilinen toplam olası sayımdan)

Ek olarak, normal olarak koşullu ortalamanın üst ve alt sınırlara doğru asimptot olmasını bekleriz, bu da ilişkinin normalde kavisli olacağı, düz olmadığı anlamına gelir, bu nedenle doğrusal regresyonumuz muhtemelen veri aralığı içinde yanlış yapar.

Benzer sorunlar, bir sınırın yakınında olduğunuzda yalnızca bir tarafta sınırlanmış verilerle (ör. Üst sınırı olmayan sayımlar) ortaya çıkar.

Her iki ucunda da sınırlanmamış ayrı verilere sahip olmak (nadir ise) mümkündür ; değişken çok fazla farklı değer alırsa, modelin ortalama ve varyansın açıklaması makul olduğu sürece, ayrıklık göreceli olarak az bir sonuç verebilir.

Aşağıda doğrusal regresyon kullanmanın tamamen makul olacağına dair bir örnek verilmiştir:

Herhangi bir ince x-değer şeridinde gözlemlenmesi muhtemel sadece birkaç farklı y-değeri olsa da (belki de genişlik 1 aralıkları için yaklaşık 10 civarında), beklenti iyi tahmin edilebilir ve hatta standart hatalar ve p- bu durumda değerler ve güven aralıkları az çok makul olacaktır. Tahmin aralıkları biraz daha az işe yarar (çünkü bu durumda normallik olmaması daha doğrudan bir etkiye sahip olacaktır)

-

Hipotez testleri yapmak veya güven veya tahmin aralıklarını hesaplamak istiyorsanız, olağan prosedürler normallik varsayımı yapar. Bazı durumlarda bu önemli olabilir. Bununla birlikte, bu özel varsayımı yapmadan çıkarım yapmak mümkündür.

— Glen_b-Monica'yı eski durumuna döndür
kaynak

Teşekkür ederim, söylediğin her şeyi anladığımdan emin değilim ama üzerinde çalışacağım.

— ilovestats

3

Belirli sorularınız varsa onlara cevap

— vermeye çalışabilirim

@ilovestats Ekonometri alanında yüksek lisansım var ve bu cevabın her kelimesini anlamaya değer olduğundan emin olabilirim. Lojistik regresyonu tanıtmak için kolay bir segue / iyi bir temel ile mükemmel cevap.

— d8aninja

3

Ben yorum, o yüzden cevap olacak edebilirsiniz: Sıradan doğrusal regresyon yanıt değişkeni ihtiyacını değil sürekli olması için, sizin varsayım değildir:

y = β_{0} + β_{1} x

$y = β_0 + β_1x$

ama:

E [y] = β_{0} + β_{1} x .

$E[y] = β_0 + β_1x.$

Sıradan doğrusal regresyon, sürekli ve ayrık değişkenler için uygun olduğuna inanılan bir yöntem olan kare artıkların minimizasyonundan kaynaklanır (bakınız Gauss-Markof teoremi). Tabii ki genel olarak kullanılan güven veya tahmin aralıkları ve hipotez testleri Glen_b'in doğru şekilde işaret ettiği gibi normal dağılım varsayımına dayanır, ancak parametrelerin OLS tahminleri yoktur.

— carlo
kaynak

2

Doğrusal regresyonda, sürekli olmak için yanıt almamızın nedeni, yaptığımız varsayımlardan kaynaklanmaktır. Bağımsız değişken ise süreklidir, o zaman arasındaki doğrusal ilişkiyi kabul ve olan $x$ $x$ $y$

y = β_{0} + β_{1} x + ϵ

$y=\beta_0+\beta_1 x+\epsilon$

burada, artık normaldir. Ve sürekli olduğunu bildiğimiz formülü oluştur. $\epsilon$ $y$

Diğer yandan, genelleştirilmiş doğrusal modelde , yanıt değişkeni ayrık / kategorik (lojistik regresyon) olabilir. Ya da say (Poisson regresyonu).

Adres mark999 ve remapt'ın yorumlarını düzenleyin.

Doğrusal regresyon, insanların onu farklı şekilde kullanabileceği genel bir terimdir. Ayrık değişkente kullanmamızı engelleyen hiçbir şey yoktur VEYA bağımsız değişken ve bağımlı değişken doğrusal değildir.

Hiçbir şey varsaymazsak ve doğrusal regresyon yaparsak, yine de sonuç alabiliriz. Ve sonuçlar ihtiyaçlarımızı karşılarsa, tüm süreç tamamdır. Ancak, Glan_b'ın dediği gibi

Hipotez testleri yapmak veya güven veya tahmin aralıklarını hesaplamak istiyorsanız, olağan prosedürler normallik varsayımı yapar.

Bu cevabım var, çünkü OP'nin klasik regresyon kitabından doğrusal regresyonu istediğini varsayıyorum çünkü doğrusal regresyonu öğretirken genellikle bu varsayımımız var.

— Haitao Du
kaynak

Teşekkür ederim, açıklamanızı anladım. En çok takdir edilen.

— ilovestats

1

Açıklayıcı değişkenin neden sürekli veya ayrık olabileceğini de açıklayabilir misiniz (birçok yayının söylediği gibi)? Açıklamanızda x bağımsız değişkeninin sürekli olduğunu söylersiniz (ve mantıklıdır).

— ilovestats

2

Bu cevabın doğru olduğunu düşünmüyorum. Yanıt değişkeninin, açıklayıcı değişken (ler) in belirleyici bir işlevi olduğu varsayılmaz ve açıklayıcı değişken (ler) in sürekli olduğunu varsaymaya gerek yoktur.

— mark999

2

Sonuç kesikli ya da kasılmalar olabilir, bu cevap gayet yanlıştır

— Mart'ta

@ Yorumunuz için teşekkürler, lütfen düzenlememi kontrol edin.

— Haitao Du

0

Öyle değil. Model çalışırsa, kimin umurunda?

Teorik açıdan, yukarıdaki cevaplar doğrudur. Ancak, pratik olarak, her şey verilerinizin alanına ve modelinizin öngörücü gücüne bağlıdır.

Gerçek hayattan bir örnek eski MDS İflas Modelidir. Bu, borçlunun iflas beyan etme olasılığını tahmin etmek için tüketici kredi verenler tarafından kullanılan erken risk puanlarından biriydi. Bu model, borçlunun kredi raporundan ayrıntılı veriler ve tahmin dönemi boyunca iflas olduğunu göstermek için ikili bir 0/1 bayrağı kullandı. Sonra bu verileri ... evet ... tahmin ettiniz.

Düz Eski Doğrusal Regresyon

Bir zamanlar bu modeli yapan insanlardan biriyle konuşma fırsatı buldum. Ona varsayımların ihlali hakkında sordum. Artıklarla ilgili varsayımları tamamen ihlal etmesine rağmen umursamadığını açıkladı.

Anlaşılıyor ...

Bu 0/1 doğrusal regresyon modeli (okunması kolay bir skora standardize edildiğinde / ölçeklendiğinde ve uygun bir kesimle eşleştirildiğinde), veri dağıtım örneklerine karşı temiz bir şekilde doğrulandı ve İflas için İyi / Kötü bir ayrımcı olarak çok iyi performans gösterdi.

Model yıllardır FICO'nun risk skoruyla (60+ günlük kredi temerrütünü tahmin etmek için tasarlanmıştır) iflasa karşı ikinci bir kredi puanı olarak kullanılmıştır.

— Jay Stevens
kaynak

Doğrusal regresyonda yanıt değişkeni neden sürekli olmalıdır?

Öyle değil. Model çalışırsa, kimin umurunda?