Yanıtlar:
Bir yanıt veya sonucu sınırlı olduğunda, bir modelin montajında aşağıdakiler de dahil olmak üzere çeşitli sorular ortaya çıkar:
Bu sınırların dışındaki yanıtın değerlerini tahmin edebilecek herhangi bir model prensipte şüphelidir. Bu nedenle doğrusal bir model sorunlu olabilir çünkü yordayıcıları için ve bir veya her iki yönde kendileri sınırsız olduğunda katsayılar sınır yoktur . Bununla birlikte, ilişki bunun ısırmaması için yeterince zayıf olabilir ve / veya tahminler, öngörücülerin gözlemlenen veya makul aralığı üzerinde sınırlar içinde kalabilir. Bir uçta, tepki bir miktar ortalama gürültü ise, hangi modele uyduğu pek fark etmez.
Yanıt sınırlarını aşamadığından, sınırlara asimptotik olarak yaklaşmak için ortaya atılan öngörülen yanıtlar ile doğrusal olmayan bir ilişki genellikle daha akla yatkındır. Sigmoid eğrileri veya logit veya probit modelleri tarafından öngörülen yüzeyler bu açıdan caziptir ve artık takılması zor değildir. Okuryazarlık (ya da herhangi bir yeni fikri benimseyen kesir) gibi bir yanıt genellikle böyle bir sigmoid eğriyi zamanla ve akla yatkın bir şekilde diğer herhangi bir öngörücüyle gösterir.
Sınırlı bir yanıt, düz veya vanilya regresyonunda beklenen varyans özelliklerine sahip olamaz. Ortalama tepki alt ve üst sınırlara yaklaştıkça, varyans daima sıfıra yaklaşır.
Altta yatan üretim sürecinin işe yaradığı ve bilgisine göre bir model seçilmelidir. Müşterinin veya kitlenin belirli model aileleri hakkında bilgi sahibi olup olmadığı da pratiğe rehberlik edebilir.
İyi / iyi değil, uygun / uygun değil, doğru / yanlış gibi battaniye yargılarından kasten kaçındığımı unutmayın. Tüm modeller en iyi tahminlerdir ve hangi yaklaşımın cazip olduğunu veya bir proje için yeterince iyi olduğunu tahmin etmek o kadar kolay değildir. Tipik olarak kendim sınırlı yanıtlar için ilk tercih olarak logit modellerini tercih ederim, ancak bu tercih bile kısmen alışkanlığa dayanmaktadır (örneğin, çok iyi bir nedenden ötürü probit modellerden kaçınmak) ve kısmen sonuçları, genellikle istatistiksel olarak iyi bilgilendirilmelidir.
Ayrık ölçeklere örnekleriniz 1-100 puanları içindir (işaretlediğim ödevlerde 0 kesinlikle mümkündür!) Veya 1-17 sıralamaları içindir. Böyle ölçekler için, genellikle [0, 1] 'e göre ölçeklendirilmiş yanıtlara sürekli modeller yerleştirmeyi düşünürdüm. Bununla birlikte, bu tür modelleri oldukça fazla sayıda ayrı değerle ölçeklendirmek için mutlu bir şekilde uyacak sıralı regresyon modelleri uygulayıcıları vardır. Eğer bu kadar düşünürlerse cevap verirlerse mutluyum.
Sağlık hizmetleri araştırmalarında çalışıyorum. Fiziksel işlev veya depresif belirtiler gibi hasta tarafından bildirilen sonuçları toplarız ve bunlar sıklıkla belirttiğiniz formatta puanlanır: ölçeğin tüm soruları toplanarak oluşturulan 0'dan N'ye kadar bir ölçek.
İncelediğim literatürün büyük çoğunluğu doğrusal bir model (veya veriler tekrar gözlemlerden kaynaklanıyorsa hiyerarşik doğrusal bir model) kullanmıştır. Mükemmel bir mantıklı model olmasına rağmen kimsenin @ (fraksiyonel) logit modeli için @ NickCox'un önerisini kullandığını görmedim.
Aşağıdaki grafik benim önümüzdeki tez çalışmamdan kaynaklanıyor. Burası, Z skorlarına dönüştürülen depresif bir belirti soru puanına doğrusal bir model (kırmızı) ve aynı sorulara mavi olarak (açıklayıcı) bir IRT modeline uyduğum yer. Temel olarak, her iki model için katsayılar aynı ölçekte (yani standart sapmalarda). Aslında katsayıların büyüklüğü konusunda oldukça fazla anlaşma var. Nick'in belirttiği gibi, tüm modeller yanlış. Ancak, doğrusal modelin kullanımı çok yanlış olmayabilir.
(Not: yukarıdaki model, R'deki Phil Chalmers'ın mirt
paketi ile uyumludur ggplot2
ve Grafik kullanılarak üretilmiştir ggthemes
. Renk şeması Stata varsayılan renk şemasından çizilir .)
Doğrusal bir regresyon bu tür verileri "yeterince" tanımlayabilir, ancak bu olası değildir. Doğrusal regresyonun birçok varsayımı, bu tip verilerde, doğrusal regresyonun tavsiye edilmediği ölçüde ihlal etme eğilimindedir. Örnek olarak sadece birkaç varsayım seçeceğim,
Veriler aralığın merkezinde, kenarlardan uzağa düşme eğilimindeyse, bu varsayımların ihlali azaltılır. Ama gerçekten, doğrusal regresyon bu tür veriler için en uygun araç değildir. Çok daha iyi alternatifler binom regresyonu veya poisson regresyonu olabilir.
Yanıt yalnızca birkaç kategori alıyorsa, yanıt değişkeniniz sıralıysa sınıflandırma yöntemlerini veya sıralı regresyonu kullanabilirsiniz .
Düz doğrusal regresyon ne ayrık kategoriler ne de sınırlı tepki değişkenleri vermez. İkincisi, lojistik regresyondaki gibi bir logit modeli kullanılarak sabitlenebilir. 100 kategorisi 1-100 olan bir test puanı gibi bir şey için, tahmininizi basitleştirebilir ve sınırlı bir yanıt değişkeni kullanabilirsiniz.
bir cdf (istatistiklerden kümülatif dağılım işlevi) kullanın. modeliniz y = xb + e ise, y = cdf (xb + e) olarak değiştirin. Bağımlı değişken verilerinizi 0 ile 1 arasında olacak şekilde yeniden ölçeklendirmeniz gerekir. Pozitif sayılar varsa, bunları maksimuma bölün ve model tahminlerinizi alın ve aynı sayıyla çarpın. Ardından uygunluğu kontrol edin ve sınırlı tahminlerin bir şeyleri iyileştirip iyileştirmediğine bakın.
Muhtemelen sizin için istatistiklere bakmak için hazır bir algoritma kullanmak istersiniz.