Bayesanlar dağılımları nasıl karşılaştırırlar?


25

Dolayısıyla, frekansçı olasılık ve istatistiksel analizin temellerini (ve ne kadar kötü kullanılabileceğini) iyi bir şekilde kavradığımı düşünüyorum. Sık sık dünyada, bu dağılımın bu dağılımdan farklı olduğu şeklinde bir soru sormak mantıklıdır, çünkü dağılımların gerçek, nesnel ve değişmez olduğu varsayılır (en azından belirli bir durum için) ve Bir numunenin, başka bir numuneye benzeyen bir dağılımdan çekilmesinin ne kadar muhtemel olduğunu ortaya çıkarın.

Bayes dünya görüşünün, biz yalnızca ne umurumda biz (Ben hala bu bölümünde biraz belirsiz değilim, ama Bayes güncelleme kavramını) geçmiş deneyimler göz önüne alındığında, görmeyi bekliyoruz. Öyleyse, bir Bayesian nasıl "bu veri kümesi bu veri kümesinden farklı" diyebilir?

Bu sorunun amaçları için, istatistiksel olarak önemini ya da benzerlerini, sadece farkı nasıl ölçeceklerini umursamıyorum. Parametrik ve parametrik olmayan dağılımlarla aynı derecede ilgileniyorum.


Ne demek istediğinizi "bu veri kümesinden farklı veri kümesinden farklı" olarak açıklayabilir misiniz? Gibi, erkeklerin gelirleri ile kadınların gelirleri gibi iki veya daha fazla grubun karşılaştırmasına mı bakıyorsunuz? Ya da belki bir Bayesian, cinsiyet bilgisi olmadan iki gelir örneğini nasıl karşılaştırır?
Ramhiser

2
@ JohnA.Ramey: Fark nedir? Tüm sayılar bittiğinde, "erkek" ve "dişi" sadece örneklerin etiketleri değil mi?
naught101

Yanıtlar:


13

İfadenizi bir Frequentist olarak düşünün ve önce onu daha belirgin hale getirin. Bir Frequentist daha fazla açıklama yapmadan “A veri setinin B veri setinden farklı olduğunu” söyleyemez.

Öncelikle, "farklı" ile ne demek istediğinizi belirtmeniz gerekir. Belki de "farklı ortalama değerlere sahipsin" demek istiyorsun. Sonra tekrar, "farklı değişikliklerin olması" anlamına gelebilir. Ya da belki başka bir şey?

Ardından, ne tür bir test kullanacağınızı belirtmeniz gerekir; bu, verilerle ilgili geçerli varsayımlar olduğuna inandığınıza bağlıdır. Veri setlerinin her ikisinin de normal olarak bazı yöntemler hakkında dağıtıldığını düşünüyor musunuz? Yoksa ikisinin de Beta dağıtılmış olduğuna mı inanıyorsun? Veya başka bir şey?

Şimdi ikinci kararın Bayesian istatistiklerinde öncekiler gibi olduğunu görebiliyor musunuz? Bu sadece "geçmiş deneyimim" değil, inandığım ve akranlarımın inanacağına inandığım şey verilerim hakkında makul varsayımlar. (Ve Bayesanlar, Frequentist hesaplamalara doğru işleri zorlayan üniforma önceliklerini kullanabilirler.)

EDIT: Yorumunuza cevap olarak: bir sonraki adım, bahsettiğim ilk kararda yer almaktadır. İki grubun araçlarının farklı olup olmadığına karar vermek istiyorsanız, bu dağılımın bir miktar güven düzeyinde sıfır içerip içermediğini görmek için iki grubun araçlarının arasındaki farkın dağılımına bakarsınız. Tam olarak sıfıra ne kadar yakın olduğunuzu ve kullandığınız (arka) dağılımın hangi kısmını tam olarak sizin tarafınızdan ve arzu ettiğiniz güven seviyesine göre belirler.

Bu fikirlerin bir tartışma bulunabilir Kruschke bir yazıda da çok okunabilir kitap yazdı, Bayes Veri Analizi Yapma "Farklı Gruplar Eşit musunuz?", Sayfalarında 307-309 üzerinde bir örneğini kapsar. (İkinci baskı: s. 468-472.) Ayrıca konuyla ilgili bazı soru ve cevapların bulunduğu bir blog yazısı var .

DAHA FAZLA KURULUŞ: Bayesian işleminizle ilgili açıklamanız da doğru değil. Bayesliler, verilerden bağımsız olarak bildiklerimizin ışığında, yalnızca bize ne söylediğini önemsiyorlar. (Kruschke'nin belirttiği gibi, önceliğin mutlaka veriden önce gerçekleşmesi gerekmez. İfadenin ima ettiği şey budur, ancak bazı veriler hariç, sadece bizim bilgimizdir.) Belirli bir veri kümesinden bağımsız olarak bildiklerimiz belirsiz veya belirli olabilir. ve altında yatan veri üretme sürecinin bir modeli olan fikir birliğine dayalı olabilir veya sadece başka bir (zorunlu olarak önceden değil) deneyin sonucunu içerebilir.


Evet, tamam, frekansçılar bir dağıtım üstlenirler ve bu özneldir. Ama sonra sadece her numunenin parametrelerini hatalı olarak ölçebilirler ve "tamam, bunlar her numunenin gerçek popülasyonunun parametreleridir ve şimdi farkın sadece örnekleme hatasından kaynaklanma olasılığı nedir" diyebilirler. Benim sorum cevabınızdan sonraki adımla ilgili - Bayeses'in örnekler arasındaki farkları nasıl ortaya çıkardığı (örneklerin aynı tür dağılımdan olduğunu, parametrik olsun ya da olmasın).
naught101

@ naught101: Lütfen düzenlememe bakın.
Wayne,

@ Bağladığınız kağıt mükemmel.
Paylaştığınız

@ naught101: Blog bağlantısını güncellendi. Belli ki makalenin eski sürümlerini tuttu ve her biri daha yeni bir sürümle bağlandı ve ilk bağlantı kurduğum eski sürüm.
Wayne,

Bu oldukça havalı bir yöntem ve gerçekten de bayesian çıkarımın nasıl işleyebileceğini açıkça ortaya koyuyor (dağıtım parametrelerini belirsizlik kaynağı olarak ele alarak). Yazık bu kadar hesaplama yoğun. Ayrıca,% 95 CI kullanımı, anlamlılık düzeyi belirlemeye çok benziyor, ancak raporlanabilir bir p-değerinin eşdeğerini elde etmenin gerçek bir yolu olup olmadığını göremiyorum (belki de değerlerin olasılıklarının toplamı) ortalamadan 0'dan aşırı, araçlardaki fark için?).
naught101

14

Bu makale ilgi çekici olabilir: http://arxiv.org/pdf/0906.4032v1.pdf

İki örnek problemine sık ve bazı Bayesci yaklaşımların güzel bir özetini verir ve hem parametrik hem de parametrik olmayan durumları tartışır.

xyxiyj01xiBern(p)yiBern(q)

H0:p=q

H1:p,q

Her bir durumda verinin olasılığı:

H0L0(p)=f(x,y;p)=ipi(1p)1ijpj(1p)1j

H1L1(p,q)=f(x,y;p,q)=ipi(1p)1ijqj(1q)1j

H0q=p

W=2log{L0(pmax)L1(pmax,qmax)},

pmax,qmaxpqpmaxpmaxWχ12H0

pπ0H0p,qπ1H1

BF=f(x,y|H0)f(x,y|H1)=01L0(p)π0(p)dp0101L1(p,q)π1(p,q)dpdq

H0H1H0H1 p(H0)=p(H1)=1/2

p(H0|x,y)p(H1|x,y)=BF×p(H0)p(H1)=BF×1/21/2=BF.

>1H0H1H0

H1

Yayınlanan diğer cevaplarla birlikte yardımcı olacağını umuyorum.


0

Veriler göz önüne alındığında, 2 grubun aynı popülasyondan gelmediğine inanıyoruz. (H_1: aynı popülasyondan değil, H_0: aynı popülasyondan geliyorlar). Bu bir Bayesian t-testi ile yapılabilir.

Karmaşıklık, önceliğin bir hipotezle ne kadar örtüşdüğünü bulmak için kullanılır. Fit, posteriorun bir hipotezle ne kadar üst üste geldiğini bulmak için kullanılır. Kombine olarak, hipotezleri karşılaştırabilir ve aynı popülasyondan gelip gelmediğine ilişkin arkadaki inancınızı ifade edebilirsiniz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.