Beta regresyonu yanıt değişkenindeki neden 0 ve 1'lerle tam olarak ilgilenemiyor?


17

Beta regresyonunun (yani beta dağılımlı GLM ve genellikle logit bağlantı fonksiyonu), kesirler, oranlar veya olasılıklar gibi 0 ve 1 arasında değerler alarak bağımlı değişken değişken yanıtı ele alması önerilir: Bir sonuç için regresyon (oran veya kesir) 0 ile 1 arasında .

Bununla birlikte, yanıt değişkeninin en az bir kez 0 veya 1'e eşit olduğu anda beta regresyonunun kullanılamayacağı her zaman iddia edilir. Eğer öyleyse, birinin sıfır / bir şişirilmiş beta modeli kullanması veya cevabın bir miktar dönüşümünü yapması gerekir . 1 ve 0 dahil oran verilerinin beta regresyonu .

Sorum şu: beta dağıtımının hangi özelliği beta regresyonunun kesin 0 ve 1'lerle uğraşmasını engelliyor ve neden?

0 ve beta dağıtımını desteklemediğini tahmin ediyorum . Ancak tüm şekil parametreleri için ve , hem sıfır hem de bir tanesi beta dağıtımını desteklemektedir, bu yalnızca dağılımın bir veya her iki tarafta sonsuzluğa gittiği daha küçük şekil parametreleri içindir. Ve belki de örnek veriler, ve en iyi uyumu sağlayan her ikisinin de üzerinde olacağı şekildedir .1α>1β>1αβ1

Bazı durumlarda anlamına mı bir olabilir , hatta sıfır / olanlarla gerçeği kullanımı beta regresyonunda?

Tabii ki 0 ve 1 beta dağılımını destekliyor olsa bile, tam olarak 0 veya 1 gözlemleme olasılığı sıfırdır. Ancak, verilen herhangi bir sayılabilir değer kümesini gözlemleme olasılığı da öyleyse, bu bir sorun olamaz, değil mi? ( Bakınız bu yorum @ Glen_b).

beta dağıtımı

Beta regresyon bağlamında, beta dağılımı, fakat farklı parametre belirlenmiştir hala iyi tanımlanmış olmalıdır tüm .[ 0 , 1 ] μϕ=α+β>2[0,1]μ

resim açıklamasını buraya girin


2
İlginç soru! Kevin Wright'ın yapmış olduğu noktaların dışında bir cevabım yok. Sanırım kesin sıfırlar ve olasılıklardaki olanlar patolojik vakalardır (lojistik regresyonda olduğu gibi), bu yüzden olmamalılar çünkü o kadar ilginç değiller.
Tim

1
Olması gerektiği ya da olmamalı eğer @Tim Eh, bilmiyorum, ama onlar yok olur, aksi takdirde insanlar beta regresyonda 0 ve 1 ile başa çıkmak için nasıl soru sormak olmaz, 0- ilgili değil yazma kağıtları oldukça sık olur ve -1 şişirilmiş beta modelleri, vb. Yine de, Kevin'inkinden daha ayrıntılı bir cevap bekliyorum. En azından mantık ihtimalindeki bu terimlerin nasıl ortaya çıktığı açıklanmalıdır.
amip, Reinstate Monica'yı

1
Güncelleme: muhtemelen 0 ve 1 destekliyorsa, bu noktalardaki PDF sıfıra eşittir, yani bu değerleri gözlemleme olasılığı sıfırdır. Hala bunu dikkatlice açıklayan bir cevap görmek istiyorum.
amip, Reinstate Monica'yı

Peki, yanıt değişkeni, örneğin değerlerini kabul ettiğinde hangi dağılımı kullanmalıdır ? [0,)
Afallamış

Yanıtlar:


16

Log benzeri hem içerdiği için ve log ( 1 - x ) sınırsız olarak, ne zaman x = 0 veya x = 1 . Smithson & Verkuilen, " Daha İyi Bir Limon Sıkacağı ? Beta Dağıtılmış Bağımlı Değişkenlerle Maksimum Olabilirlik Regresyonu " denklemine (4) bakın ( PDF'ye doğrudan bağlantı ).log(x)log(1x)x=0x=1


3
Teşekkürler. İşte makaleye doğrudan PDF bağlantısı . Bunu görebiliyorum Denk. (4) veya y i = 1 olur olmaz, ama yine de bunun nedenlerin genel şemasında olduğunu anlamıyorum. yi=0yi=1
amoeba, Reinstate Monica

3
(1) amip, sadece pdf bak: için her beta dağılımı, yoğunluklar ve 1 ya da vardır 0 veya + . Her iki durumda da, günlük olasılığı tanımsız olacaktır. Eşdeğer, en kısa sürede tek bulunduğundan 0 veya 1 cevabı, bütün olasılığının değerleri sadece sıfır, sonsuzluk veya belirsiz olabilir ve olasılığının minimum değer fark edildiği Beta parametrelerin nontrivial dizi olacak. Bu nedenle pratik hesaplama engellenir ve model tanımlanabilir değildir (ciddi anlamda). 010+01
whuber

1
@ Whuber'ın yorumuyla birlikte (şimdiye kadar fark etmedim), bu soruya cevap veriyor. Ana nokta, hakkında sorduğum parametre değerleri için, ve 1'in sıfır olasılığa sahip olmasıdır. 01
amoeba, Reinstate Monica'nın

1
@whuber Karışık olmamın nedeni, gözlemlemek için sıfır olasılığının olması, ancak 0,5'i gözlemlemek için de sıfır olmasıdır ( somutluk için α = β = 2 ile beta alalım ). Bununla birlikte, 0.5 modeli ile tutarlıdır ancak 0 değil ve bunun nedeni en olabilirlik gözlemleme 0.5 sıfır değil ama gözlemleme olasılığı 0 ... olduğunu00.5α=β=20.500.50
amip eski durumuna Monica diyor

3
@amoeba Olasılık , olasılıkın kendisine değil olasılık yoğunluğuna bağlıdır . Bazen, her bir gözlemin küçük ama sonlu (sonsuz olmayan) bir aralığın ( örneğin , ölçümün kesinliği ile belirlenir) olasılığını içermesini göz önünde bulundurarak veya Beta dağılımlarını çok dar bir Gaussianla ( sıfır ve sonsuz yoğunlukları ortadan kaldırır).
whuber

2

nedenin pratikte ve l o g ( 1 - x ) varlığından gelmesinin yanı sıra, bunun nedeninin altında yatan nedeni çerçevelemeye çalışarak sorunun cevabını tamamlamaya çalışacağım.log(x)log(1x)

Aslında, beta dağılımı “genellikle bir olasılık değerinin dağılımını tanımlamak için kullanılır” ( wikipedia ). Rastgele bir değişkenin N bağımsız ikili çekimlerinin gözlemlenmesini bilmek, binom dağılımının olası eğilimlerinin dağılımıdır .pN

As a result, in my understanding of beta regression, 0s and 1s would intuitively correspond to (infinite) sure results.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.