Beta regresyonunda 0,1 değerlerle başa çıkmak


20

[0,1] 'de beta regresyonu ile analiz etmek istediğim verilerim var. Tabii ki 0,1 değerlerini karşılamak için bir şeyler yapılmalıdır. Bir modele uyacak şekilde veri değiştirmeyi sevmiyorum. Ayrıca sıfır ve 1 enflasyonun iyi bir fikir olduğuna inanmıyorum çünkü bu durumda 0'ın çok küçük pozitif değerler olduğunu düşünmeliyim (ama tam olarak hangi değerin uygun olduğunu söylemek istemiyorum. Makul bir seçim) Ben .001 ve .999 gibi küçük değerleri seçmek ve beta için kümülatif dağıtım kullanarak modele uyacağına inanıyorum.Bu yüzden y_i gözlemleri için log olasılığı LL_iwould

 if  y_i < .001   LL+=log(cumd_beta(.001))
 else if y_i>.999  LL+=log(1.0-cum_beta(.999))
 else LL+=log(beta_density(y_i))

Bu model hakkında sevdiğim, beta regresyon modeli geçerliyse bu modelin de geçerli olması, ancak aşırı değerlere olan duyarlılığın bir kısmını kaldırmasıdır. Ancak bu öyle doğal bir yaklaşım gibi görünüyor ki, literatürde neden belirgin referanslar bulamadığımı merak ediyorum. Benim sorum, verileri değiştirmek yerine, modeli neden değiştirmiyoruz. Verilerin değiştirilmesi sonuçları (orijinal modelin geçerli olduğu varsayımına dayanarak) saptırırken, aşırı değerleri düzenleyerek modeli değiştirmek sonuçları etkilemez.

Belki göz ardı ettiğim bir sorun var mı?


1
Belirli bir sorun hakkında daha fazla bilgi sahibi olmadan bu soruya iyi bir cevap vermek gerçekten mümkün değildir. Kilit soru, kesin sıfırların ve birlerin, (0,1) 'deki verileri üreten işlemden farklı bir işlem tarafından oluşturulup oluşturulmadığıdır. Klasik bir örnek, yağmur yağmadığı günleri yansıtan sıfırların bulunduğu yağıştır. Uygulamanızda sıfırlar ve bir şekilde "özel" dir?
Dikran Marsupial

Yanıtlar:


16

Bu makaleye göre , uygun bir dönüşüm

x=x(N1)+sN

"burada N, örneklem büyüklüğü ve s, 0 ile 1 arasında bir sabittir. Bayes açısından bakıldığında, s, daha önce hesaba katıyormuş gibi davranır. s için makul bir seçim .5 olur."

Bu, 'de bulunan verileri ( 0 , 1 )' e sıkıştırır . Yukarıdaki alıntı ve dönüşümün matematiksel bir nedeni makalenin ek notlarında mevcuttur .[0,1](0,1)


1
+1 .. Ama bağımsız olarak bulabilmemiz için ilk bağlantıyı düzeltebilir ya da en azından kağıdı alıntılayabilir misiniz?
whuber

1
Ama bu sorumu cevaplamıyor. Verilerin dönüştürülebileceğinin farkındayım. Sorularım neden modeli dönüştürmüyorsunuz?
dave fournier

1
Dave, lütfen sorunuzu bu durumu yansıtacak şekilde düzenleyin: şu anda, verileri dönüştürmenin bir yolunu arıyormuşsunuz gibi okuyor . Bu süreçte, veri dönüşümü ile model değişikliği arasındaki farkın ne olduğunu düşündüğünüzü belirtmeniz size yardımcı olacaktır, çünkü eğer varsa, incedir.
whuber

@ davefournier, Eğer Cam sitelerini kısmen okuduysanız, sorunuzu cevaplıyor. Ayrıca alternatif model önerileri (bkz. Sayfa 69) ve önerilerin bir kısmı verilerin niteliğine bağlıdır. Ayarlanmış olasılığınız "karışık kesikli-sürekli işleme" (sayfa 69'un sonuna doğru değinmektedir) benzemektedir. Scott Long'un kategorik regresyon kitabı gibi Tobit modelinin uygunluğu için diğer referansları görmek en iyisi olsa da, verileriniz göz önüne alındığında Tobit modelinin tatmin edici olması da olabilir.
Andy W

1
Ama bu yaklaşımı kabul etmiyorlar. Farklı bir model, karışık bir ayrık sürekli süreç öneriyorlar. Bu, uç değerlere binmekten çok farklıdır. Daha önce de söylediğim gibi beta modeli geçerliyse binning modeli geçerlidir. Kesikli sürekli model geçerliyse, beta modeli geçersizdir. Analizlerinde çoğunlukla yazılımlarına uyabilecekleri karma modeller tarafından yönlendirildiklerinden şüpheleniyorum. Binned beta karışık modelin takılması biraz daha zordur.
dave fournier

3

Dave

Bu soruna ortak bir yaklaşım, bir vakanın 0 ya da 1 olup olmadığını tahmin etmek için 2 lojistik regresyon modeline uymaktır. Daha sonra, (0,1) aralığında olanlar için bir beta regresyon kullanılır.


bir örnek verebilir misiniz? veya daha ayrıntılı olarak tartışan bir makale?
user1607

2

(log(x),log(1x))

x(x,x2)

Her ikisinin de üstel aileler olduğu için her ikisinin de Bayes yolunda kolayca tahmin edileceğine inanıyorum. Bu, umduğunuz gibi modelin bir modifikasyonudur.


1

Bu sorunun asıl "doğru" cevabının sıfır bir şişirilmiş beta regresyonu olduğunu düşünüyorum. Bu, [0,1] aralığında sürekli değişen verileri işlemek için tasarlanmıştır ve birçok gerçek 0 ve 1'in verilerde bulunmasına izin verir. Bu yaklaşım, @B_Miner'ın önerdiğine benzer şekilde, bayes bağlamında üç ayrı modele uyar.

Model 1: Bir değer ayrık 0/1 mi, yoksa (0,1) içindeki değer mi? Bir bernoulli dağılımı ile uyun.

Model 2: Ayrık altkümeyi bir bernoulli dağılımı ile takın.

Model 3: Beta regresyonlu (0,1) altkümeyi sığdırın.

Tahmin için, ilk model sonuçları model 2 ve 3'ün tahminlerini ağırlıklandırmak için kullanılabilir. Bu, zoibR paketi içinde uygulanabilir veya BUGS / JAGS / STAN / vb.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.