0 ile 1 arasında bir sonuç (oran veya kesir) için regresyon


41

oranını tahmin eden bir model inşa etmeyi düşünüyorum , burada ve ve . Dolayısıyla, oran ile arasında olacaktır .a b a > 0 b > 0 0 1a/baba>0b>001

Doğrusal regresyon kullanabilirim, ancak doğal olarak 0..1 ile sınırlı değildir. İlişkinin doğrusal olduğuna inanmak için hiçbir nedenim yok, ama elbette, yine de basit bir ilk model olarak kullanılıyor.

Normalde iki durumlu bir sonucun olasılığını tahmin etmek için kullanılsa da, 0..1 aralığında sürekli bir değer tahmin etmek için kullanılmamasına rağmen, lojistik bir regresyon kullanabilirim.

Daha fazla bir şey bilmemek, doğrusal regresyon, lojistik regresyon veya gizli seçenek c kullanır mıydınız ?


4
Beta regresyon düşündün mü?
Peter Flom - Eski Monica

Cevap veren herkese çok teşekkürler. Ders çalışmak ve seçmek zorunda kalacağım. Beta gibi sesler başlamak için uygun bir yer, özellikle iyi bir uyum gözlemleyebilirsem (belki de göz ile).
dfrankow

Bunu GLM (poisson link fonksiyonu) kullanarak yaptım. Pay a , sayı verisi (sonuç), b payda ofset değişkeni olacaktır. Daha sonra her konu / gözlem için ayrı a ve b değerlerine ihtiyacınız olacaktır . Bunun en geçerli seçenek olup olmadığından emin değilim. Beta dağıtımını duymadığım, ilginç bir seçenek buluyorum. Bununla birlikte, istatistikçi olmamanın zor olduğunu biliyorum.
MegPophealth

Derin ve yararlı analiziniz için hepinize teşekkür ederim, şu anda neredeyse aynı zorluklarla karşı karşıyayım, ancak 0-1 arasında sürekli bir oran öngörmek yerine, hastaların -1 arasındaki fayda oranını tahmin etmek için bir regresyon modeli oluşturmak istiyorum. ve 1. Bu oldukça zor, -1 ile 1 arasında sürekli bağımlı bir regresyon modeli oluşturmak için uygun bir bağlantı işlevi bulamadım. Yani erkekler ne yapılabileceği hakkında bir fikir sahibi olmak istiyorlar. Teşekkürler

1
Şimdilik, önemsiz bir cevap var: tarafından verilen yanıtın yeniden ölçeklendirilmesi , aralıkta için herhangi bir bağlantı getirir ; ardından isterseniz, tahminleri bildirmek için yeniden ölçeklendirebilirsiniz. ( y + 1 ) / 2 [ 0 , 1 ]y(y+1)/2[0,1]
Nick Cox,

Yanıtlar:


34

"Gizli seçenek c" yi seçmelisiniz, burada c beta regresyondur. Bu, cevap değişkeni Beta olarak dağıtıldığında uygun olan bir regresyon modeli türüdür . Bunu genelleştirilmiş bir doğrusal modele benzer olarak düşünebilirsiniz . Tam olarak aradığın şey bu. BetaregR adında bir paket var ve bununla ilgileniyor. Kullanıp kullanmadığınızı bilmiyorum R, ama yine de 'vinyetleri' okuyamasanız bile, nasıl uygulanacağına R(ihtiyaç duymadığınız durumlarda) konu hakkında genel bilgi verecektir . O vaka).


Düzenleme (çok sonra): Hızlı bir açıklama yapmama izin verin. Soruyu iki, pozitif, gerçek değerin oranı olarak yorumluyorum. Eğer öyleyse, (ve onlar Gammas olarak dağıtılırlar) bu bir Beta dağılımıdır. Bununla birlikte, eğer 'denemelerin' bilinen toplamından 'başarı' sayısının bir sayısıysa , o zaman bu sürekli bir oran değil a sayımı olacaktır ve binom GLM kullanmalısınız (örneğin, lojistik regresyon). R'de nasıl yapıldığını görmek için bkz. Örneğin , sonuç kesirli olduğunda R'de lojistik regresyon nasıl yapılır (iki sayım oranı)?b a / baba/b

Başka bir olasılık, oranlar standart bir doğrusal modelin varsayımlarını karşılayacak şekilde dönüştürülebiliyorsa doğrusal regresyon kullanmaktır, gerçekte çalışma konusunda iyimser olmasam da.


1
Bu durumda neden beta regresyonlarının tercih edileceğini açıklar mısınız? Bu, burada oldukça sık gördüğüm bir öneri, ancak gerekçeyle ilgili ayrıntılı bir kimseyi göremiyorum - olması güzel olurdu!
Matt Parker

4
@MattParker, Beta sürekli oranların dağıtımıdır - eğer cevap değişkeni olarak sahipseniz Beta, kullanılacak uygun dağıtımdır. Gerçekten bu kadar basit. Bir lojistik regresyondan elde edilen değer bir olasılıktır (açıktır ki süreklidir), ancak eğer cevap değişkeniniz bir Bernoulli denemesi seti değilse , dağılım binomdur (Bernoulli'nin başarı olasılığı olan bazı denemeler), o zaman LR değildir. uygun. p
gung - Monica’yı eski durumuna getirin

3
Bir betanın "uygun" bir dağıtım olduğunu söylerken dikkatli olurdum. Oldukça esnek ve uygun olabilir ancak tüm durumları kapsamıyor. Bu yüzden, iyi bir öneriyse ve istedikleri kadar iyi olabilir - gerçekten 0 ile 1 arasında sürekli bir cevap olduğu gerçeğine uygun dağıtım olduğunu söyleyemezsiniz.
Dason

1
[0,1] 'deki üçgen dağılım, beta olmayan oranlarda sürekli bir dağılım gösterir. Diğer birçok olabilir. Beta, esnek ve esnek bir ailedir ancak bu konuda sihir yoktur. Lojistik regresyon konusunda iyi bir noktaya değersiniz, çünkü bu genellikle ikili veriye uygulanır.
Michael Chernick

2
Belki de daha az dogmatik görünmeye çalışmalıyım. Demek istediğim, DV'nizi incelemeniz ve takip ettiği dağılımı kullanmanız. Doğru, sürekli oranların başka dağılımları da var. Teknik olarak, Beta, bir Gama'nın toplamı + başka bir Gama'ya oranıdır. Belirli bir durumda, farklı bir dağıtım üstün olabilir ; örneğin, Beta yalnızca 0 veya 1 değerlerini alamaz (0, 1). Bununla birlikte, Beta çok iyi anlaşılmış ve sadece 2 parametreye uyacak şekilde çok esnektir. Sürekli bir oran olan DV / W ile uğraşırken genellikle başlamak için en iyi yer olduğunu savunuyorum.
gung - Monica'yı yeniden kurun

2

Bu eşleştirilmiş örnekler veya iki bağımsız popülasyon mu?

Bağımsız popülasyonlar varsa, log (M) = log (B) + * log (oran) olarakXi . M ölçüm ve X, (A ve B 'nin değerlerini içeren bir vektör), bir vektör ise = 1 , A'nın bir değer ise = 0 B'nin bir değerM i X i M iXiMiXiMi

Bu regresyona kesişmeniz kütük (B), eğiminiz kütük (oran) olacaktır.

Daha fazlasını burada görün:

Beyene J, Moineddin R. Lokasyon bölümlerine uygulama ile bir oran parametresinin güven aralığı tahmin yöntemleri. BMC tıbbi araştırma metodolojisi. 2005; 5 (1): 32.

EDIT: Sadece bunu yapmak için bir SPSS addon yazdım. İlgileniyorsan paylaşabilirim.


1
Merak dışında hangi yöntemi kullandınız (delta, Fieller veya GLM)? BMC makalesinin, farklı tahmin edicilerin kapsamına ilişkin bazı simülasyonlar yapmadığı için beni biraz şaşırtıyor (gerçekçi bir simülasyon hayal etmek can sıkıcı olurdu). Hatırlatıldım çünkü yakın zamanda , BMC makalesini alıntılamasına rağmen delta yöntemini (gerçek bir gerekçe göstermeden) yapan bir makaleyle karşılaştım.
Andy W.

1
Bu yorumu yazdığımda REGRESSION, verileri log dönüştürdükten sonra kullandım . O zamandan beri kullanan daha sofistike bir versiyon yazdım GLM. Işık emisyon ölçümleriyle uğraşıyorum ve testim log-link ile gama regresyonunun parametrelerdeki kaçak belirsizliğe en az eğilimi olduğunu gösterdi. Gerçek verilerimin çoğunda, normal, negatif-binom ve log-link ile gama kullanımının cevapları gerçekten benzerdi (en azından ihtiyacım olan hassasiyetle)
DocBuckets

0

Doğru değil. Lojistik regresyon analizi için veriler ikili 0 veya 1 olduğu ancak model p belirleyicileri verilen başarı olasılığı söz tahmin , modelinde belirleyici değişkenlerin sayısıdır. Aslında logit işlevi nedeniyle lineer model log değerini tahmin eder ( ). Bu nedenle, p'nin öngörüsünü elde etmek için sadece ters dönüşümü yapın burada tahmin edilen logit. i = 1 , 2 , . . , k k pXii=1,2,..,kk p=exp(x)p1p xp=exp(x)[1+exp(x)]x


-1. Bunun soruyu nasıl cevapladığını anlamıyorum (ve buna ek olarak , bu cevapta iki farklı şeye atıfta bulunmak için kullanılır). p
amip diyor Reinstate Monica

2
-1. @Amoeba ile aynı fikirdeyim. Bunun neden hiç yenilenmediğine şaşırıyorum. Bu, hiçbir şekilde ikili veriyi 0 veya 1 olarak kabul etmeyen ancak 0 ile 1 arasında olan ölçülen oranlara odaklanan bir soruyla ilgili değildir.
Nick Cox
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.