Doğrusal regresyonda yanıt değişkeninin sürekli olması gerektiğini biliyorum ama neden böyle? Yanıt değişkeni için neden ayrık veri kullanamadığımı açıklayan çevrimiçi hiçbir şey bulamıyorum.
Doğrusal regresyonda yanıt değişkeninin sürekli olması gerektiğini biliyorum ama neden böyle? Yanıt değişkeni için neden ayrık veri kullanamadığımı açıklayan çevrimiçi hiçbir şey bulamıyorum.
Yanıtlar:
Beğendiğiniz iki sayı sütununda doğrusal regresyon kullanmayı durduracak hiçbir şey yoktur. Oldukça mantıklı bir seçim bile olabileceği zamanlar vardır.
Bununla birlikte, dışarı çıktıklarınızın özellikleri mutlaka yararlı olmayacaktır (örneğin, olmasını istediğiniz her şey olmayacaktır).
Gerçekten de, beklenti sınırlara yaklaştıkça, değerlerin bu sınırdaki değeri gittikçe daha sık alması gerektiğini görmek mümkündür, bu nedenle varyansı, beklentinin ortaya yakın olandan daha küçük hale gelir - varyans 0'a düşmelidir Böylece sıradan bir regresyon ağırlıkları yanlış yapar ve koşullu beklentinin 0 veya 1'e yakın olduğu bölgedeki verileri zayıflatır. A ve b arasında sınırlı bir değişkeniniz varsa, örneğin her bir gözlemin ayrı bir sayı olması gibi bu gözlem için bilinen toplam olası sayımdan)
Ek olarak, normal olarak koşullu ortalamanın üst ve alt sınırlara doğru asimptot olmasını bekleriz, bu da ilişkinin normalde kavisli olacağı, düz olmadığı anlamına gelir, bu nedenle doğrusal regresyonumuz muhtemelen veri aralığı içinde yanlış yapar.
Benzer sorunlar, bir sınırın yakınında olduğunuzda yalnızca bir tarafta sınırlanmış verilerle (ör. Üst sınırı olmayan sayımlar) ortaya çıkar.
Her iki ucunda da sınırlanmamış ayrı verilere sahip olmak (nadir ise) mümkündür ; değişken çok fazla farklı değer alırsa, modelin ortalama ve varyansın açıklaması makul olduğu sürece, ayrıklık göreceli olarak az bir sonuç verebilir.
Aşağıda doğrusal regresyon kullanmanın tamamen makul olacağına dair bir örnek verilmiştir:
Herhangi bir ince x-değer şeridinde gözlemlenmesi muhtemel sadece birkaç farklı y-değeri olsa da (belki de genişlik 1 aralıkları için yaklaşık 10 civarında), beklenti iyi tahmin edilebilir ve hatta standart hatalar ve p- bu durumda değerler ve güven aralıkları az çok makul olacaktır. Tahmin aralıkları biraz daha az işe yarar (çünkü bu durumda normallik olmaması daha doğrudan bir etkiye sahip olacaktır)
-
Hipotez testleri yapmak veya güven veya tahmin aralıklarını hesaplamak istiyorsanız, olağan prosedürler normallik varsayımı yapar. Bazı durumlarda bu önemli olabilir. Bununla birlikte, bu özel varsayımı yapmadan çıkarım yapmak mümkündür.
Ben yorum, o yüzden cevap olacak edebilirsiniz: Sıradan doğrusal regresyon yanıt değişkeni ihtiyacını değil sürekli olması için, sizin varsayım değildir:
ama:
Sıradan doğrusal regresyon, sürekli ve ayrık değişkenler için uygun olduğuna inanılan bir yöntem olan kare artıkların minimizasyonundan kaynaklanır (bakınız Gauss-Markof teoremi). Tabii ki genel olarak kullanılan güven veya tahmin aralıkları ve hipotez testleri Glen_b'in doğru şekilde işaret ettiği gibi normal dağılım varsayımına dayanır, ancak parametrelerin OLS tahminleri yoktur.
Doğrusal regresyonda, sürekli olmak için yanıt almamızın nedeni, yaptığımız varsayımlardan kaynaklanmaktır. Bağımsız değişken ise süreklidir, o zaman arasındaki doğrusal ilişkiyi kabul ve olanx y
burada, artık normaldir. Ve sürekli olduğunu bildiğimiz formülü oluştur.y
Diğer yandan, genelleştirilmiş doğrusal modelde , yanıt değişkeni ayrık / kategorik (lojistik regresyon) olabilir. Ya da say (Poisson regresyonu).
Adres mark999 ve remapt'ın yorumlarını düzenleyin.
Doğrusal regresyon, insanların onu farklı şekilde kullanabileceği genel bir terimdir. Ayrık değişkente kullanmamızı engelleyen hiçbir şey yoktur VEYA bağımsız değişken ve bağımlı değişken doğrusal değildir.
Hiçbir şey varsaymazsak ve doğrusal regresyon yaparsak, yine de sonuç alabiliriz. Ve sonuçlar ihtiyaçlarımızı karşılarsa, tüm süreç tamamdır. Ancak, Glan_b'ın dediği gibi
Hipotez testleri yapmak veya güven veya tahmin aralıklarını hesaplamak istiyorsanız, olağan prosedürler normallik varsayımı yapar.
Bu cevabım var, çünkü OP'nin klasik regresyon kitabından doğrusal regresyonu istediğini varsayıyorum çünkü doğrusal regresyonu öğretirken genellikle bu varsayımımız var.
Teorik açıdan, yukarıdaki cevaplar doğrudur. Ancak, pratik olarak, her şey verilerinizin alanına ve modelinizin öngörücü gücüne bağlıdır.
Gerçek hayattan bir örnek eski MDS İflas Modelidir. Bu, borçlunun iflas beyan etme olasılığını tahmin etmek için tüketici kredi verenler tarafından kullanılan erken risk puanlarından biriydi. Bu model, borçlunun kredi raporundan ayrıntılı veriler ve tahmin dönemi boyunca iflas olduğunu göstermek için ikili bir 0/1 bayrağı kullandı. Sonra bu verileri ... evet ... tahmin ettiniz.
Düz Eski Doğrusal Regresyon
Bir zamanlar bu modeli yapan insanlardan biriyle konuşma fırsatı buldum. Ona varsayımların ihlali hakkında sordum. Artıklarla ilgili varsayımları tamamen ihlal etmesine rağmen umursamadığını açıkladı.
Anlaşılıyor ...
Bu 0/1 doğrusal regresyon modeli (okunması kolay bir skora standardize edildiğinde / ölçeklendiğinde ve uygun bir kesimle eşleştirildiğinde), veri dağıtım örneklerine karşı temiz bir şekilde doğrulandı ve İflas için İyi / Kötü bir ayrımcı olarak çok iyi performans gösterdi.
Model yıllardır FICO'nun risk skoruyla (60+ günlük kredi temerrütünü tahmin etmek için tasarlanmıştır) iflasa karşı ikinci bir kredi puanı olarak kullanılmıştır.