Doğrusal regresyonda yüzde sonucunu kullanma ile ilgili sorunlar nelerdir?


11

Birçok sonucun yüzdeler gibi temsil edildiği bir çalışmam var ve bazı kategorik değişkenlerin bu sonuçlar üzerindeki etkisini değerlendirmek için çoklu doğrusal regresyonlar kullanıyorum.

Merak ediyordum, doğrusal bir regresyon sonucun sürekli bir dağılım olduğunu varsayarsa, bu modeli 0 ile 100 arasında sınırlı olan yüzdelere uygularken metodolojik problemler var mı?


1
Bu yüzdeler sürekli mi (örneğin sütteki kremin yüzdesi gibi) veya ayrık mı (binom oranları gibi, bazı kategorilerdeki toplam sayımın bir sayısı gibi)?
Glen_b-Monica

1
Uhm ... aradaki farkı göremiyorum. İkisi de sürekli değil mi? Her neyse, sanırım ikincisi verilerimi daha iyi açıklıyor, çünkü toplamda insanlar hakkında konuşuyoruz.
Bakaburg

Sayımların sayımlara bölünmesi kesinlikle ayrıdır. Aslında, pay genellikle bir binom olarak modellenir, payda üzerinde koşullandırılır (sabit olarak işlem görür), bu nedenle oran genellikle ölçekli bir binom olarak kabul edilir. Numunesi alan sayılabilir olduğundan, ancak payda bir rastgele değişkenin alse bile bu oran hala fark edilmeyecek
Glen_b -Reinstate Monica

Yanıtlar:


17

Kesikli veya sürekli olasılıkla ilgili konuları ele alacağım:

  1. Ortalamanın açıklamasında bir sorun

    Sınırlı bir yanıtınız var. Ancak taktığınız model sınırlı değildir ve doğrudan sınırın içinde patlayabilir; bazı takılmış değerleriniz mümkün olmayabilir ve tahmin edilen değerler eninde sonunda olmalıdır.

    Gerçek ilişki nihayetinde sınırlara yaklaştıkça ortada olduğundan daha düz hale gelmelidir, bu nedenle bazı şekillerde bükülmesi beklenir.

  2. Varyans tanımıyla ilgili bir sorun

    Ortalama sınırlara yaklaştıkça, varyans da düşme eğilimi gösterecek, diğer şeyler eşit olacaktır. Ortalama ve sınır arasında daha az yer vardır, bu nedenle genel değişkenlik azalmaya eğilimlidir (aksi takdirde ortalama, sınırın yakınında olmayan tarafta ortalama olarak daha uzak olan noktalarla sınırdan uzaklaşmaya eğilimlidir.

(Gerçekten de, bir mahalledeki tüm nüfus değerleri tam olarak sınırda olsaydı, varyans sıfır olurdu.)

Böyle bir sınırla ilgilenen bir model bu etkileri dikkate almalıdır.

Oran bir sayım değişkeni içinse, oranın dağılımı için ortak bir model bir binom GLM'dir. Ortalama oran ve öngörücüler arasındaki ilişki biçimi için birkaç seçenek vardır, ancak en yaygın olanı lojistik bir GLM olacaktır (diğer birçok seçenek ortak kullanımdadır).

Oran sürekli ise (sütteki krema yüzdesi gibi), bir dizi seçenek vardır. Beta gerilemesi oldukça yaygın bir seçenek gibi görünüyor. Yine, ortalama ve öngörücüler arasında lojistik bir ilişki kullanabilir veya başka bir işlevsel form kullanabilir.

0 ile 1 arasında bir sonuç (oran veya kesir) için Regresyona bakınız .


1
+1 ve ben belki de bu konuda "usta" iş parçacığı olarak görülebilir ne bir bağlantı eklemek için özgürlük aldı (gung'un yanıtı beta ve lojistik seçenekleri de kapsar).
amoeba

2
Kolay bir genel argüman, ortalamanın 0 olması, ancak tüm değerlerin 0 olması ve 1 =% 100 ve tüm değerlerin 1 olması gibi benzer şekilde mümkün olmasıdır. Bu nedenle, oranların, sayma veya ölçme. Diğer tüm değerlerin sabit olması mümkün olsa da, pratikte bu çok nadirdir. Bu nedenle varyans 0 ile 1 arasında bir değer için en yüksek olacaktır
Nick Cox

açıklanan 2 sorun için bazı referanslar sağlayabilir misiniz?
user1607

3

Bu, sonucun 0 ile 1 arasında olduğu durumla tamamen aynıdır ve bu durum tipik olarak lojistik regresyon gibi genelleştirilmiş doğrusal bir modelle (GLM) ele alınır. İnternette lojistik regresyon (ve diğer GLM'ler) için birçok mükemmel primer var ve ayrıca Agresti tarafından konuyla ilgili iyi bilinen bir kitap var.

Beta regresyon uygulanabilir ancak daha karmaşık bir alternatiftir. Muhtemelen lojistik regresyon uygulamanız için iyi çalışır ve çoğu istatistiksel yazılım ile uygulanması daha kolay olacaktır.

Neden en küçük kareler regresyonunu kullanmıyorsunuz? Aslında insanlar bazen "doğrusal olasılık modeli" (LPM) adı altında yaparlar. LPM'lerin "kötü" olmasının en belirgin nedeni, sonucu belirli bir aralıkta yatmak için kısıtlamanın kolay bir yolu olmaması ve 1'in (veya% 100 veya herhangi bir sonlu üst sınırın) ve 0'ın (veya başka bir alt sınır). Aynı nedenle, üst sınırın yakınındaki tahminler sistematik olarak çok yüksek olma eğilimindedir ve alt sınırın yakınındaki tahminler çok düşük olma eğilimindedir. Doğrusal regresyonun altında yatan matematik, açıkça bu gibi eğilimlerin mevcut olmadığını varsayar. Lojistik regresyona bir LPM sığdırmak için genellikle iyi bir neden yoktur.

Bir yana, LPM'ler de dahil olmak üzere tüm OLS regresyon modellerinin özel bir GLM türü olarak tanımlanabileceği ve bu bağlamda LPM'lerin lojistik regresyon ile ilişkili olduğu ortaya çıkmaktadır.


4
Her ne kadar bu cevabın çoğu değerli görünse de, okuyucuları karıştırabilecek bazı yanlış bilgiler içeriyor. İlk paragraftaki lojistik regresyon hesabı, bağımlı değişkenin log benzeri dönüşümünün ve ardından lineer regresyonun açıklaması gibidir: lojistik regresyon değildir. Katsayıların yorumlanması da doğru değildir. "LPM'ler" ile ilgili daha önemli bir problem, veriler aşırı uçlara yakın olduğunda, muhtemelen kalıntıların asimetrik dağılımları sergilemesidir ki bu, regresyon varsayımının önemli bir ihlalidir.
whuber

Oran oranlarına girmeye değeceğini düşünmemiştim. Ben sadece bu şeyleri çıkartıp OP'nin okumaya devam edeceğim. Ayrıca kalıntılar hakkında iyi bir nokta.
shadowtalker

(+1) Yapıcı yanıtlarınız için teşekkür ederiz!
whuber

2

Bu tür sorunlara çok uygun görünen beta regresyonunu (bunun için bir R paketi olduğunu anlıyorum) araştırmaya değer olabilir.

http://www.jstatsoft.org/v34/i02/paper


7
Sonuç bir yüzde olduğunda lineer regresyonun neden olduğu bazı önemli nedenleri vurursanız, cevap daha da iyi olacaktır.
Alexis
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.