Beta dağıtım yoğunluk fonksiyonunda neden -1 var?


18

Beta dağılımı iki parametre altında (veya burada ) görünür

f ( x ) x α ( 1 - x ) β

f(x)xα(1x)β(1)

ya da daha yaygın kullanılan

f ( x ) x α - 1 ( 1 - x ) β - 1

f(x)xα1(1x)β1(2)

Ama neden ikinci formülde tam olarak " " var ?- 11

İlk formülasyon sezgisel olarak binom dağılımına daha doğrudan karşılık geliyor gibi görünüyor

g ( k ) p k ( 1 - p ) n - k

g(k)pk(1p)nk(3)

ancak bakış açısından "görüldü"pp . Bu özellikle açıktır beta binomial model bir şekilde anlaşılabilir önceki başarılar sayısı ve \ P a, önceki bozukluklarının sayısını da içerir.ααββ

Peki, ikinci form neden tam olarak popülerlik kazandı ve arkasındaki mantık nedir? Parametrelerin herhangi birinin kullanılmasının sonuçları nelerdir (örneğin binom dağılımı ile bağlantı için)?

Birisi böyle bir seçimin kökenlerini ve bunun için ilk argümanları işaret edebilirse harika olurdu, ama bu benim için bir zorunluluk değil.


3
Bu cevapta derin bir neden ima edilmektedir : ff , d μ = d x / ( ( x ( 1 - x ) ) ölçüsüne göre x α ( 1 - x ) β değerine eşittir . "? Bu ölçünün d μ = d ( günlük ( xxα(1x)βdμ=dx/((x(1x))1 - x ))
dμ=d(log(x1x))
bu dağılımları anlamanın "doğru" yolunun lojistik dönüşümü uygulamak olduğunu önerir: "-11" terimleri daha sonra kaybolacaktır.
whuber

1
Bence bunun gerçek sebebi tarihseldir - çünkü dağıtımın isimlendirildiği beta fonksiyonunda öyle görünür . Neden gelince o vardır - 11 iktidarda, I (tarihsel olarak, bu önlem ve hatta olasılık ile ilgisi yoktur gerçi) o sonuçta bahseder whuber sebeple bağlı olacağını bekliyoruz.
Glen_b

2
@Glen_b Tarihsel olmaktan çok daha fazlası: derin nedenler var. Onlar üs neden soru azaltılması, beta ve gama fonksiyonları arasında sıkı bir bağlantı nedeniyle Γ ( ler ) = ∞ iken 0 t s - 1 , e - t d tΓ(s)=0ts1etdt isimli s - 1s1 ve ss . Yani çünkü ΓΓ bir Gauss toplamıdır . Eşdeğer, bu görüntülemek için "doğru" olduğunu yΓ çarpımsal homomorfizmasının bir integrali olarak t t lertts kez bir katkı karaktert e - ttet Haar ölçüsüne karşıçarpım grubu R × d t / t . dt/tR×
whuber

1
@wh Bu, gamma fonksiyonunun bu şekilde seçilmesinin iyi bir nedeni (ve zaten böyle bir nedenin yukarıda var olduğunu önermiştim ve buna benzer bir tür akıl yürütmeyi kabul ediyorum - ama mutlaka farklı formalizmle - Euler'in seçimine geldi); buna bağlı olarak zorlayıcı nedenler yoğunluk ile ortaya çıkar; ancak bu aslında seçimin sebebinin (formun neden olduğu gibi seçildiğini) belirlemez, sadece bunu yapmak için iyi bir nedendir. Gama fonksiyonunun biçimi ...
ctd

1
ctd ... tek başına yoğunluğu ve başkalarının da uyması için bu formu seçmek için yeterli sebep olabilir. [Genellikle seçimler, daha sonra belirleyebileceğimiz daha basit nedenlerle yapılır ve daha sonra başka bir şey yapmak için genellikle zorlayıcı nedenler alır. Başlangıçta seçildi neden oldu biliyor musunuz] -? Eğer biz bir sebebi var olduğunu açıkça izah etmelidir ziyade o yüzden daha böyle olmak yoğunluğunu seçmek olduğunu bu şekilde. Bu, seçimler yapan bir dizi insanı (bu şekilde kullanmak ve davayı takip etmek) ve seçtikleri zaman nedenlerini içerir.
Glen_b -Reinstate Monica

Yanıtlar:


9

Bu, serbestlik dereceleri ve istatistiksel parametreler ve bu ikisinin doğrudan basit bir bağlantıya sahip olmasının neden güzel olduğu hakkında bir hikaye.

Tarihsel olarak, " - 11 " terimleri Euler'in Beta işlevi ile ilgili çalışmalarında ortaya çıktı. Bu parametreleştirmeyi 1763 yılına kadar kullanıyordu ve Adrien-Marie Legendre de kullanıyordu: kullanımları daha sonraki matematiksel sözleşmeyi oluşturdu. Bu çalışma bilinen tüm istatistiksel uygulamaları ön plana çıkarmaktadır.

Modern matematiksel teori, analiz, sayı teorisi ve geometri uygulamalarının zenginliği yoluyla, " - 11 " terimlerinin aslında bir anlamı olduğuna dair geniş göstergeler sağlar . Soruya yapılan yorumlarda bu nedenlerden bazılarını çizdim.

Daha ilgi çekici olan, "doğru" istatistiksel parametrelendirmenin ne olması gerektiğidir. Bu o kadar net değil ve matematiksel kurallarla aynı olmak zorunda değil. Yaygın olarak kullanılan, iyi bilinen, birbiriyle ilişkili olasılık dağılım ailelerinden oluşan büyük bir ağ vardır. Dolayısıyla, bir aileyi adlandırmak (yani parametreleştirmek) için kullanılan sözleşmeler tipik olarak ilgili aileleri adlandırmak için ilgili sözleşmeleri ima eder. Bir parametreleştirmeyi değiştirin ve hepsini değiştirmek istersiniz. Dolayısıyla bu ilişkilere ipucu verebiliriz.

Çok az insan, en önemli dağıtım ailelerinin Normal aileden geldiği konusunda hemfikir değildir. Hatırlayın rastgele değişken olduğu XX olduğu söylenir "normal dağılım" zaman ( x - μ ) / σ(Xμ)/σ bir olasılık yoğunluk sahip f ( x )f(x) ile orantılı exp ( - x 2 / 2 )exp(x2/2) . Tüm σ = 1σ=1 ve μ = 0μ=0 , X,X bir olduğu söylenir standart normal dağılım.

Birçok veri kümesi x 1 , x 2 , , x nx1,x2,,xn , verilerin rasyonel kombinasyonlarını ve düşük güçleri (tipik olarak kareler) içeren nispeten basit istatistikler kullanılarak incelenir. Bu veriler bir Normal dağılımından rastgele örnekler olarak modellendiğinde - her x ixi bir Normal değişken X i'nin gerçekleşmesi olarak görülüyorsa Xi, tüm X iXi ortak bir dağılımı paylaşır ve bağımsızdır - bu istatistiklerin dağılımları bu Normal dağılım ile belirlenir. Uygulamada en sık ortaya çıkan

  1. t νtν , ν = n - 1 "serbestlik derecesi"ileÖğrenci tt dağılımı. Bu t = ˉ X istatistiğinin dağılımıdırν=n1se ( X )

    t=X¯se(X)
    burada ˉ X =(X1+X2++Xn)/nX¯=(X1+X2++Xn)/nverinin ortalamasını modeller vese(X)=(1/n )( X 2 1 + X 2 2 + + X 2 n ) / ( n - 1 ) - ˉ X 2se(X)=(1/n)(X21+X22++X2n)/(n1)X¯2 , ortalamanın standart hatasıdır. İle bölmen-1n1ŞekilNnolmalıdır22ya da daha büyük, neredenννbir tam sayı olduğu11veya daha büyüktür. Formül, görünüşe göre biraz karmaşık olsa da, ikinci derece verilerin rasyonel bir fonksiyonunun kare köküdür: nispeten basittir.
  2. χ 2 ν , χ 2 (ki-kare) dağılımıile cyclotron frekansının "serbestlik derecesine" (df). Bu, ν bağımsız standart Normal değişkenlerinkarelerinin toplamının dağılımıdır. Bu değişkenlerin karelerinin ortalamasının dağılımı bu nedenle 1 / ν ile ölçeklendirilmişbir χ 2 dağılımıolacaktır: Buna "normalleştirilmiş" χ 2 dağılımıolarak değineceğim.χ2νχ2ννχ21/νχ2

  3. K v 1 , ν 2 , F parametrelerle oranı dağılımı ( ν 1 , ν 2 ) iki bağımsız normalize oranıdır χ 2 ile dağılımları cyclotron frekansının 1 ve ν 2 serbestlik derecesi.Fν1,ν2F(ν1,ν2)χ2ν1ν2

Matematiksel hesaplamalar, bu üç dağılımın da yoğunluklarının olduğunu göstermektedir. Önemlisi, χ 2 ν dağılımının yoğunluğu, Euler'in Gamma ( Γ ) fonksiyonunun integral tanımındaki integrandle orantılıdır . Onları karşılaştıralım:χ2νΓ

f χ 2 ν ( 2 x ) x ν / 2 - 1 e - x ;f Γ ( ν ) ( x ) x ν - 1 e - x .

fχ2ν(2x)xν/21ex;fΓ(ν)(x)xν1ex.

Bu, iki χ 2 ν değişkeninin ν / 2 parametresi ile bir Gama dağılımına sahip olduğunu gösterir . Yarının faktörü yeterince rahatsız edicidir, ancak 1'in çıkarılması ilişkiyi daha da kötüleştirir. Bu zaten soruya zorlayıcı bir cevap besler: Biz bir parametre istiyorsanız χ 2 dağılımı (kat kadar bunu üretmek kare Normal değişkenlerin sayısını saymak için 1 / 2 , onun yoğunluk fonksiyonu şırası sonra üs) bu sayının yarısından az olmak. χ2νν/21χ21/2

Neden bir faktördür 1 / 2 lik bir fark daha az zahmetli 1 ? Bunun nedeni, bir şeyler eklediğimizde faktörün tutarlı kalmasıdır. Karelerinin toplamı ise n bağımsız standart Normallerin parametresi olan bir Gama dağılımı ile orantılı olduğu , n (kez bir faktör), kareler durumunda RI m bağımsız standart Normallerin parametresi ile bir Gamma dağılımı ile orantılı olduğu m (kez aynı faktör) tüm n + m değişkenlerinin karelerinin toplamı, m + n parametresine sahip bir Gama dağılımı ile orantılıdır (yine de aynı faktörün çarpı). 1/21nnmmn+mm+nParametreleri eklemenin, sayımları eklemeyi öylesine yakından taklit etmesi çok yararlıdır.

Bununla birlikte, o sinir bozucu görünümlü " - 1 " i matematiksel formüllerden çıkarsaydık, bu hoş ilişkiler daha karmaşık hale gelirdi. Biz değişti Örneğin, Gama dağılımları parametrizasyonu gerçek güç atıfta x bir böylece formül χ 2 1 dağılımı "Gama ile ilgili olacaktır ( 0 ) güç yana (" dağıtım x de onun PDF 1 - 1 = 0 ), o zaman üç χ 2 1 dağılımının toplamına "Gama ( 2 )1xχ21(0)x11=0χ21(2)"dağıtım. Kısacası, serbestlik dereceleri ile Gamma dağılımlarındaki parametre arasındaki yakın katkı ilişkisi, - 1'in formülden çıkarılması ve parametreye alınmasıyla kaybedilecektir .1

Benzer şekilde, bir F oranı dağılımının olasılık fonksiyonu Beta dağılımları ile yakından ilişkilidir. Gerçekten de, ne zaman , Y bir sahiptir F oranı dağılımı dağılımı Z = ν 1 , Y / ( ν 1 , Y + ν 2 ) bir Beta sahiptir ( ν 1 / 2 , ν 2 / 2 ) dağılımı. Yoğunluk fonksiyonu ile orantılıdırFYFZ=ν1Y/(ν1Y+ν2)(ν1/2,ν2/2)

fZ(z)zν1/21(1z)ν2/21.

fZ(z)zν1/21(1z)ν2/21.

Furthermore--taking these ideas full circle--the square of a Student tt distribution with νν d.f. has an FF ratio distribution with parameters (1,ν)(1,ν). Once more it is apparent that keeping the conventional parameterization maintains a clear relationship with the underlying counts that contribute to the degrees of freedom.

From a statistical point of view, then, it would be most natural and simplest to use a variation of the conventional mathematical parameterizations of ΓΓ and Beta distributions: we should prefer calling a Γ(α)Γ(α) distribution a "Γ(2α)Γ(2α) distribution" and the Beta(α,β)(α,β) distribution ought to be called a "Beta(2α,2β)(2α,2β) distribution." In fact, we have already done that: this is precisely why we continue to use the names "Chi-squared" and "FF Ratio" distribution instead of "Gamma" and "Beta". Regardless, in no case would we want to remove the "11" terms that appear in the mathematical formulas for their densities. If we did that, we would lose the direct connection between the parameters in the densities and the data counts with which they are associated: we would always be off by one.


1
Thanks for your answer (I +1d already). I have just a small follow-up question: maybe I'm missing something, but aren't we sacrificing the direct relation with binomial by using the -1 parametrization?
Tim

I'm not sure which "direct relation with binomial" you're referring to, Tim. For instance, when the Beta(a,b)(a,b) distribution is used as a conjugate prior for a Binomial sample, clearly the parameters are exactly the right ones to use: you add aa (not a1a1) to the number of successes and bb (not b1b1) to the number of failures.
whuber

1

The notation is misleading you. There is a "hidden 11" in your formula (1)(1), because in (1)(1), αα and ββ must be bigger than 11 (the second link you provided in your question says this explicitly). The αα's and ββ's in the two formulas are not the same parameters; they have different ranges: in (1)(1), α,β>1α,β>1, and in (2)(2), α,β>0α,β>0. These ranges for αα and ββ are necessary to guarantee that the integral of the density doesn't diverge. To see this, consider in (1)(1) the case α=1α=1 (or less) and β=0β=0, then try to integrate the (kernel of the) density between 00 and 11. Equivalently, try the same in (2)(2) for α=0α=0 (or less) and β=1β=1.


2
The issue of a range of definition for α and β seems to go away when the integral is interpreted, as Pochhammer did in 1890, as a specific contour integral. In that case it can be equated to an expression that determines an analytic function for all values of α and β--including all complex ones. This throws light on the concern in the question: why exactly has this specific parameterization been adopted, given there are many other possible parameterizations that seem like they might serve equally well?
whuber

1
To me, the OP's doubt seems to be much more basic. He's kind of confused about the "-1" in (2), but not in (1) (not true, of course). It seems that your comment is answering a different question (much more interesting, by the way).
Zen

2
Thanks for your effort and answer, but it still does not answer my main concern: why -1 was chosen? Following your logic, basically any value could be chosen changing the arbitrary lower bound to something else. I can't see why -1 or 0 could be better or worse lower bound for parameter values besides the fact that 0 is "aesthetically" nicer bound. On another hand, Beta(0, 0) would be nice "default" for uniform distribution when using the first form. Yes, those are very subjective comments, but that is my main point: are there any non-arbitrary reasons for such choice?
Tim

1
Zen, I agree there was a question of how to interpret the original post. Thank you, Tim, for your clarifications.
whuber

1
Hi, Tim! I don't see any definitive reason, although it makes more direct the connection with the fact that for α,β>0, if UGamma(α,1) and VGamma(β,1) are independent, then X=U/(U+V) is Beta(α,β), and the density of X is proportional to xα1(1x)β1. But then you can question the parameterization of the gamma distribution...
Zen

0

For me, the existence of -1 in the exponent is related with the develpment of the Gamma function. The motivation of the Gamma function is to find a smooth curve to connect the points of a factorial x!. Since it is not possible to compute x! directly if x is not integer, the idea was to find a function for any x0 that satisfies the recurrence relation defined by the factorial, namely

f(1)=1f(x+1)=xf(x).

Solution was by means of the convergence of an integral. For the function defined as

f(x+1)=0txexdt,

integration by parts provides the following:

f(x+1)=0txexdt=[txex]0+0xtx1exdt=limx(txex)0e0+x0tx1exdt=00+x0tx1exdt=xf(x).

So, the function above satisfies this property, and the -1 in the exponent derives from the procedure of integration by parts. See the Wikipedia article https://en.wikipedia.org/wiki/Gamma_function .

Edit: I apologise if my post is not fully clear; I am just trying to point that, in my idea, the existence of -1 in the beta distribution comes from the generalisation of the factorial by means of the Gamma function. There are two conditions: f(1)=1 and f(x+1)=xf(x). We have Γ(x)=(x1)!, therefore it satisfies Γ(x+1)=xΓ(x)=x(x1)!=x!. In addition, we have Γ(1)=(11)!=0!=1. As for the beta distribution with parameters α,β, generalisation of the Binomial coefficient is Γ(α+β)Γ(α)Γ(β)=(α+β1)!(α1)!(β1)!. There we have the -1 in the denominator, for both parameters.


This makes no sense because the recurrence function satisfied by the factorial is not what you state: (x+1)!xx!.
whuber

The function f(x) satisfying the recurrence relation is the Gamma: Γ(x+1)=xΓ(x). This is how it is defined.
aatr

Yes: but your stated motivation is based on the factorial function, not the Gamma.
whuber

It is important to recall the relation between Gamma and factorial: Γ(x)=(x1)!.
aatr

Unfortunately, that's circular logic: you start off with the factorial, characterize Gamma as interpolating it, and then conclude that's why there's a -1. In fact, your post exhibits the -1 as if it fell out mistakenly by confusing Gamma with the factorial. Few will find that either illuminating or convincing.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.