Y sınırlı ve ayrık olduğunda doğrusal regresyon


14

Soru basit: Y sınırlanmış ve ayrık olduğunda doğrusal regresyon kullanmak uygun mudur (örn. Test skoru 1 ~ 100, bazı önceden tanımlanmış sıralama 1 ~ 17)? Bu durumda, doğrusal regresyon kullanmak "iyi değil" mi yoksa kullanmak tamamen yanlış mı?

Yanıtlar:


10

Bir yanıt veya sonucu sınırlı olduğunda, bir modelin montajında ​​aşağıdakiler de dahil olmak üzere çeşitli sorular ortaya çıkar: Y

  1. Bu sınırların dışındaki yanıtın değerlerini tahmin edebilecek herhangi bir model prensipte şüphelidir. Bu nedenle doğrusal bir model sorunlu olabilir çünkü yordayıcıları için ve bir veya her iki yönde kendileri sınırsız olduğunda katsayılar sınır yoktur . Bununla birlikte, ilişki bunun ısırmaması için yeterince zayıf olabilir ve / veya tahminler, öngörücülerin gözlemlenen veya makul aralığı üzerinde sınırlar içinde kalabilir. Bir uçta, tepki bir miktar ortalama gürültü ise, hangi modele uyduğu pek fark etmez.Y^=XbXbX+

  2. Yanıt sınırlarını aşamadığından, sınırlara asimptotik olarak yaklaşmak için ortaya atılan öngörülen yanıtlar ile doğrusal olmayan bir ilişki genellikle daha akla yatkındır. Sigmoid eğrileri veya logit veya probit modelleri tarafından öngörülen yüzeyler bu açıdan caziptir ve artık takılması zor değildir. Okuryazarlık (ya da herhangi bir yeni fikri benimseyen kesir) gibi bir yanıt genellikle böyle bir sigmoid eğriyi zamanla ve akla yatkın bir şekilde diğer herhangi bir öngörücüyle gösterir.

  3. Sınırlı bir yanıt, düz veya vanilya regresyonunda beklenen varyans özelliklerine sahip olamaz. Ortalama tepki alt ve üst sınırlara yaklaştıkça, varyans daima sıfıra yaklaşır.

Altta yatan üretim sürecinin işe yaradığı ve bilgisine göre bir model seçilmelidir. Müşterinin veya kitlenin belirli model aileleri hakkında bilgi sahibi olup olmadığı da pratiğe rehberlik edebilir.

İyi / iyi değil, uygun / uygun değil, doğru / yanlış gibi battaniye yargılarından kasten kaçındığımı unutmayın. Tüm modeller en iyi tahminlerdir ve hangi yaklaşımın cazip olduğunu veya bir proje için yeterince iyi olduğunu tahmin etmek o kadar kolay değildir. Tipik olarak kendim sınırlı yanıtlar için ilk tercih olarak logit modellerini tercih ederim, ancak bu tercih bile kısmen alışkanlığa dayanmaktadır (örneğin, çok iyi bir nedenden ötürü probit modellerden kaçınmak) ve kısmen sonuçları, genellikle istatistiksel olarak iyi bilgilendirilmelidir.

Ayrık ölçeklere örnekleriniz 1-100 puanları içindir (işaretlediğim ödevlerde 0 kesinlikle mümkündür!) Veya 1-17 sıralamaları içindir. Böyle ölçekler için, genellikle [0, 1] 'e göre ölçeklendirilmiş yanıtlara sürekli modeller yerleştirmeyi düşünürdüm. Bununla birlikte, bu tür modelleri oldukça fazla sayıda ayrı değerle ölçeklendirmek için mutlu bir şekilde uyacak sıralı regresyon modelleri uygulayıcıları vardır. Eğer bu kadar düşünürlerse cevap verirlerse mutluyum.


8

Sağlık hizmetleri araştırmalarında çalışıyorum. Fiziksel işlev veya depresif belirtiler gibi hasta tarafından bildirilen sonuçları toplarız ve bunlar sıklıkla belirttiğiniz formatta puanlanır: ölçeğin tüm soruları toplanarak oluşturulan 0'dan N'ye kadar bir ölçek.

İncelediğim literatürün büyük çoğunluğu doğrusal bir model (veya veriler tekrar gözlemlerden kaynaklanıyorsa hiyerarşik doğrusal bir model) kullanmıştır. Mükemmel bir mantıklı model olmasına rağmen kimsenin @ (fraksiyonel) logit modeli için @ NickCox'un önerisini kullandığını görmedim.

θ

Aşağıdaki grafik benim önümüzdeki tez çalışmamdan kaynaklanıyor. Burası, Z skorlarına dönüştürülen depresif bir belirti soru puanına doğrusal bir model (kırmızı) ve aynı sorulara mavi olarak (açıklayıcı) bir IRT modeline uyduğum yer. Temel olarak, her iki model için katsayılar aynı ölçekte (yani standart sapmalarda). Aslında katsayıların büyüklüğü konusunda oldukça fazla anlaşma var. Nick'in belirttiği gibi, tüm modeller yanlış. Ancak, doğrusal modelin kullanımı çok yanlış olmayabilir.

resim açıklamasını buraya girin

-

(Not: yukarıdaki model, R'deki Phil Chalmers'ın mirtpaketi ile uyumludur ggplot2ve Grafik kullanılarak üretilmiştir ggthemes. Renk şeması Stata varsayılan renk şemasından çizilir .)


6
Doğrusal modeller yaygın olarak kullanıldığı için, uygun oldukları anlamına gelmez. Birçok insan doğrusal modelleri kullanır, çünkü sadece bildikleri veya rahat ettikleri şey budur.
qwr

1
Tıbbi literatür özellikle "bu alanın / derginin yaptığı budur" tipindeki fikirbilim tarafından yayılan kötü uygulamalarla doludur. Genel bir kural olarak, tıbbi araştırmalarda yaygın görünse de bir şey kullanmaz veya kullanmam.
LSC

1

Tahmini değerlere bir göz atın ve orijinal Y'lerle kabaca aynı dağılıma sahip olup olmadıklarını kontrol edin. Bu durumda, doğrusal regresyon muhtemelen iyidir. ve modelinizi geliştirerek çok az kazanacaksınız.


1

Doğrusal bir regresyon bu tür verileri "yeterince" tanımlayabilir, ancak bu olası değildir. Doğrusal regresyonun birçok varsayımı, bu tip verilerde, doğrusal regresyonun tavsiye edilmediği ölçüde ihlal etme eğilimindedir. Örnek olarak sadece birkaç varsayım seçeceğim,

  1. Normallik - Bu tür verilerin gizliliğini göz ardı etse bile, bu tür veriler aşırı normallik ihlali sergileme eğilimindedir, çünkü dağılımlar sınırlar tarafından "kesilir".
  2. Homoscedasticity - Bu tür veriler homoscedasticity'yi ihlal etme eğilimindedir. Gerçek ortalama, aralığın merkezine doğru olduğunda, kenarlara kıyasla varyanslar daha büyük olma eğilimindedir.
  3. Doğrusallık - Y aralığı sınırlandığından, varsayım otomatik olarak ihlal edilir.

Veriler aralığın merkezinde, kenarlardan uzağa düşme eğilimindeyse, bu varsayımların ihlali azaltılır. Ama gerçekten, doğrusal regresyon bu tür veriler için en uygun araç değildir. Çok daha iyi alternatifler binom regresyonu veya poisson regresyonu olabilir.


2
Poisson regresyonunun iki kat sınırlı yanıtlara aday olduğunu görmek zor.
Nick Cox

0

Yanıt yalnızca birkaç kategori alıyorsa, yanıt değişkeniniz sıralıysa sınıflandırma yöntemlerini veya sıralı regresyonu kullanabilirsiniz .

Düz doğrusal regresyon ne ayrık kategoriler ne de sınırlı tepki değişkenleri vermez. İkincisi, lojistik regresyondaki gibi bir logit modeli kullanılarak sabitlenebilir. 100 kategorisi 1-100 olan bir test puanı gibi bir şey için, tahmininizi basitleştirebilir ve sınırlı bir yanıt değişkeni kullanabilirsiniz.


0

bir cdf (istatistiklerden kümülatif dağılım işlevi) kullanın. modeliniz y = xb + e ise, y = cdf (xb + e) ​​olarak değiştirin. Bağımlı değişken verilerinizi 0 ile 1 arasında olacak şekilde yeniden ölçeklendirmeniz gerekir. Pozitif sayılar varsa, bunları maksimuma bölün ve model tahminlerinizi alın ve aynı sayıyla çarpın. Ardından uygunluğu kontrol edin ve sınırlı tahminlerin bir şeyleri iyileştirip iyileştirmediğine bakın.

Muhtemelen sizin için istatistiklere bakmak için hazır bir algoritma kullanmak istersiniz.


1
Bu iki gerçeği karıştırıyor gibi görünüyor: (1) sınırlı yanıtlar, logit, probit ve benzer modellerin uygulanması için 0 ile 1 arasında ölçeklendirilmelidir (2) cdfs de 0 ile 1 arasında değişmektedir. CDf'sini modellemiyor.
Nick Cox
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.