Ağır kuyruk, lognormal veya gama hangisidir?


41

(Bu bana sadece e-posta yoluyla gelen bir soruyu temel alır; aynı kişiyle daha önceki kısa bir görüşmeden bazı içerikler ekledim.)

Geçen sene, gama dağılımının lognormalden daha ağır kuyruklu olduğu söylenmişti ve o zamandan beri böyle olmadığı söylendi.

  • Hangisi daha ağır kuyruklu?

  • İlişkiyi keşfetmek için kullanabileceğim bazı kaynaklar nelerdir?


3
Az önce oy kullananlar için: Soruyla ilgili algılanan sorunun ne olduğunu bilmek faydalı olacaktır.
Glen_b

1
Ben değildim, çok uzun zaman önce oy kullandım. Bununla birlikte, bunun, talep ettiğiniz şey ile kesinlikle ilgisi olmayan aykırı değerlerin varlığındaki t-testi varsayımları bağlamında kurtosis ve ağır kuyruklu olmanın faydası ile ilgili olduğundan şüpheleniyorum. Aşağı oylama, IMHO, problemlidir .
Carl

Yanıtlar:


41

Bir dağılımın (sağ) kuyruğu davranışını büyük değerlerde tanımlar. Birçok pratik hallerde yok - - ziyade dağıtım fonksiyonu çalışmaya doğru nesne yoğunluğu değildir F . Daha spesifik olarak, F , x (Toplam Olasılık Yasası ile) büyük argümanları için asimptotik olarak yükselmesi gerektiğinden , bu asimptota ne kadar hızlı yaklaştığıyla ilgileniyoruz: hayatta kalma işlevinin davranışını araştırmamız gerekiyor 1 - F ( x ) olarak x .1x 1F(x)x

FXG FGx0x>x0

PrF(X>x)=1F(x)>1G(x)=PrG(X>x).

şekil

Bu şekildeki kırmızı eğri, Poisson dağılımı için hayatta kalma işlevidir . Mavi eğri, aynı varyansa sahip bir Gamma dağılımı içindir. Sonunda mavi eğri her zaman kırmızı eğriyi aşar ve bu Gamma dağılımının bu Poisson dağılımından daha ağır bir kuyruğu olduğunu gösterir. Poisson dağılımının yoğunluğu olmadığı için bu dağılımlar kolayca yoğunluk kullanılarak karşılaştırılamaz.( 3 )(3)(3)

Bu doğru olduğunu zaman yoğunlukları ve var olur ve için sonra ağır kuyruklu olan . Bununla birlikte, konuşma yanlıştır - ve bu kuyruk ağırlığının tanımını yoğunluklar yerine hayatta kalma fonksiyonlarına dayandırmak için zorlayıcı bir nedendir, çoğu zaman kuyrukların analizi yoğunluklar kullanılarak daha kolay bir şekilde gerçekleştirilebilse bile.g f ( x ) > g ( x ) x > x 0 F Gfgf(x)>g(x)x>x0FG

Karşı örnekler, yine de daha ağır kuyruklu olmayan pozitif sınırsız desteğin ayrık bir dağılımını alarak elde edilebilir ( hile yapması). Olasılığı kütlesinin değiştirilmesi ile sürekli bir dağılım halinde bu dönüş , destek noktalarının her birinde , yazılı (Say) ölçekli bir beta ile, , uygun bir aralığı üzerinde destek dağıtım ve ile ağırlıklandırılmıştır . Küçük bir pozitif sayı göz önüne alındığında seçimG G , H k h ( k ) ( 2 , 2 ) [ k - ε ( k ) , k + ε ( k ) ]HGGHkh(k)(2,2)[kε(k),k+ε(k)]δ , ε ( k ) f ( k ) / δ δ H + ( 1 - δ ) G G G δ H f G F Fh(k)δ,ε(k)Bu ölçeklendirilmiş Beta dağılımının tepe yoğunluğunun değerini aşmasını sağlamak için yeterince küçük . Yapım gereği , karışımı , kuyruğu benzeyen sürekli bir dağılım (bir miktar ile eşit olarak küçük bir miktar daha ) ancak içinde çiviler vardır. desteğindeki yoğunluk ve tüm bu çiviler yoğunluğunu aştığı noktalara sahiptir . Böylece daha açıktır ancak kuyruğunda ne kadar ileri gidersek gidelim yoğunluğunun değerini geçtiği noktalar olacaktır .f(k)/δδH+(1δ)GGGδHfGFF

şekil

Kırmızı eğri, bir Gama dağılımının ( PDF'sidir, altın eğri, lognormal dağılımın ( PDF'sidir ve mavi eğri (sivri olan), karşı-örnekte olduğu gibi oluşturulan bir karışımının PDF'sidir. (. Bildirim logaritmik yoğunluk ekseni) hayatta kalma fonksiyonu (hızla çürüyen wiggles ile) Gama dağılımının buna yakındır: sonunda daha az büyüyecek onun PDF daima yukarıda doruğa çıkacağı bile, arasında ne kadar uzaklarda kuyrukları içine baktığımız.F G G F FGFGGFF


Tartışma

Bu arada, bu analizi doğrudan lognormal ve Gamma dağılımlarının hayatta kalma fonksiyonları üzerinde yapabilir , asimptotik davranışlarını bulmak için etrafında genişletebilir ve tüm lognormallerin tüm Gammalardan daha ağır kuyruklara sahip olduğu sonucuna varabiliriz. Ancak, bu dağılımların "iyi" yoğunluklara sahip olması nedeniyle, analiz, yeterince büyük bir için lognormal yoğunluğun bir Gamma yoğunluğunu aştığını göstererek daha kolay bir şekilde gerçekleştirilir . Bununla birlikte, bu analitik rahatlığı ağır bir kuyruk anlamı ile karıştırmayın .xx=x

Benzer şekilde, daha yüksek anlar ve değişkenleri (çarpıklık ve kurtosis gibi) kuyruklar hakkında çok az şey söylese de, yeterli bilgi sağlamazlar. Basit bir örnek olarak, herhangi bir sayıdaki anın neredeyse hiç değişmeyeceği kadar büyük bir değerde herhangi bir lognormal dağılımı kesebiliriz - ancak böyle yaparak kuyruğunu tamamen kaldırdık, sınırsız olan herhangi bir dağıtımdan daha hafif kuyruklu hale getireceğiz destek (Gama gibi).

Bu matematiksel çarpıtmalara yapılan adil bir itiraz, kuyrukta şu ana kadar olan davranışın pratik bir uygulamaya sahip olmadığına işaret etmek olacaktır, çünkü hiç kimse herhangi bir dağıtım modelinin bu kadar aşırı (belki de fiziksel olarak erişilemez) değerlerde geçerli olacağına inanmayacaktır. Bununla birlikte, uygulamalarda , kuyruğun hangi kısmının önemli olduğunu tespit etmeye ve onu buna göre analiz etmeye özen göstermemiz gerektiğini göstermektedir . (Örneğin, taşkın tekrarı süreleri bu anlamda anlaşılabilir: 10 yıl sel, 100 yıl sel ve 1000 yıl sel, sel dağılımının kuyruğunun belirli bölümlerini karakterize eder.) Yine de, aynı ilkeler geçerlidir: Buradaki analizin temel amacı, yoğunluk değil dağılım fonksiyonudur.


6
+1, neden hayatta kalan işlevine dayanması gerektiğine dair mükemmel tartışma. Sorunun asıl kaynağına cevabınıza bir göz atmaları gerektiğini tavsiye ettim.
Glen_b

1
(+1) hayatta kalma fonksiyonunun nasıl yorumlanacağı hakkında iyi olasılık tartışması için.

Ağır kuyrukların bu tanımı, tek tanım olarak gayet iyi . Ancak ciddi sorunları var. Özellikle, muhtemelen, 0,9999 * U (-1,1) + .0001 * U (-1000,1000) dağılımı gibi ağır kuyruklara sahip sınırlı dağılımlar vardır. Verilen "tanım" ile N (0,1) dağılımı .9999 * U (-1,1) + .0001 * U (-1000,1000) dağılımından daha ağır kuyruklara sahiptir. Bu açıkça aptalca. Kabul edelim: Dağıtımın çekiciliğini ölçmek için sonsuz sayıda yol var.
Peter Westfall

1
@Peter "saçma" ortaya çıkar, çünkü fikirleri geri kazanmış gibisin. Örneklerinizden hiçbiri "ağır" bir kuyruğa sahip değildir, çünkü sınırlıdırlar. Her iki hayatta kalma işlevi sonunda tamamen sıfırdır ve bu nedenle her iki kuyruk da aynı derecede hafiftir.
whuber

1
@PeterWestfall Sınırlı desteğe sahip kuyrukları, sınırsız desteğe sahip olanlarla, sanki anlamlıymış gibi karşılaştırdınız. Gereksiz, hatta saçma bile olacak birçok bağlam var. Birinin bunları karşılaştıracağı bağlamlarda, niceliksel bir fark oranı uygun olabilir. Bunların ötesinde pek bir bağlam yok ve bir tanesini düşünürseniz söyleyin.
Carl

30

Gama ve lognormal hem doğru eğridir, hem de sabit katsayılı değişkenlik dağılımları ve genellikle belirli fenomen türleri için "rakip" modellerin temelidir.(0,)

Bir kuyruğun ağırlığını tanımlamanın çeşitli yolları vardır, ancak bu durumda tüm normal olanların lognormalin daha ağır olduğunu gösterdiğini düşünüyorum. (İlk kişinin hakkında konuştuğu şey uzak kuyrukta değil, modun biraz sağında olan şeydir (diyelim ki, aşağıdaki ilk arsadaki yüzde 75'inci civarında, lognormal'in 5'in altında olduğu ve sadece yukarıdaki gama 5.)

Bununla birlikte, soruyu başlamak için çok basit bir şekilde araştıralım.

Aşağıda ortalama 4 ve varyans 4 (üst arsa - gama koyu yeşil, lognormal mavidir) ve daha sonra yoğunluğun günlüğü (alt) olan gama ve lognormal yoğunluklar, ardından kuyruklardaki eğilimleri karşılaştırabilirsiniz:

görüntü tanımını buraya girin

En üstteki komploda çok fazla ayrıntı görmek zor, çünkü tüm eylem 10'un sağında. Ancak, garajın lognormalden çok daha hızlı bir şekilde aşağı indiği ikinci komploda oldukça açık.

İlişkiyi araştırmak için başka bir yol cevap olarak, günlükleri yoğunluğu bakmaktır burada ; lognormal için logların yoğunluğunun simetrik olduğunu (normal!) ve sağda hafif bir kuyruk ile gama için sola eğik olduğunu görüyoruz.

Yoğunluk oranına (veya oranın günlüğü) olarak cebirsel olarak yapabiliriz . Let gamma yoğunluğu ve olmak lognormal:g fxgf

log(g(x)/f(x))=log(g(x))log(f(x))

=log(1Γ(α)βαxα1ex/β)log(12πσxe(log(x)μ)22σ2)

=k1(α1)log(x)x/β(k2log(x)(log(x)μ)22σ2)

=[c(α2)log(x)+(log(x)μ)22σ2]x/β

[] İçindeki terim da ikinci dereceden bir terimdir, geri kalan terim ise cinsinden doğrusal olarak azalmaktadır . Ne olursa olsun, bu sonuçta , parametre değerlerinin ne olduğuna bakılmaksızın ikinci dereceden artışlardan daha hızlı düşecektir . sınırında , yoğunluk oranının günlüğü doğru azalmaktadır ; bu, gamma pdf'nin sonunda lognormal pdf'den çok daha küçük olduğu ve nispeten azalmaya devam ettiği anlamına gelir. Oranı diğer yoldan alırsanız (üstte lognormal varken), sonunda herhangi bir sınırın ötesine geçmelidir.log(x)xx/βx

Olduğunu, herhangi bir lognormal sonunda daha ağır kuyruklu edilir herhangi gamma.


Ağırlığın diğer tanımları:

Bazı insanlar sağ kuyruğun ağırlığını ölçmek için eğiklik veya kurtosis ile ilgilenmektedir. Varyasyon belirli bir katsayı olarak, lognormal hem daha fazla asimetri ve daha yüksek basıklığını sahip gamma . **

Örneğin, çarpıklıkla , gama, 2CV'lik bir çarpıklığa sahipken, lognormal 3CV + CV .3

Yazıların burada ne kadar ağır olduğuna dair çeşitli önlemlerin bazı teknik tanımları vardır . Bu iki dağıtımdan bazılarını denemek isteyebilirsiniz. Lognormal ilk tanımda ilginç bir özel durumdur - tüm anları var, ancak MGF değeri 0'ın üzerinde birleşmediğinde, Gamma için MGF sıfır civarında bir mahallede birleşiyor.

-

** Nick Cox'un da belirttiği gibi, gamma için yaklaşık normalliğe normal dönüşüm, Wilson-Hilferty dönüşümü, kütükten daha zayıftır - bir küp kök dönüşümüdür. Shape parametresinin küçük değerlerinde, dördüncü kökten bahsedildiği, bunun yerine bu cevaptaki tartışmaya bakınız , ancak her iki durumda da normale yakınlığa ulaşmak için daha zayıf bir dönüşüm söz konusudur.

Eğikliğin (veya kurtosisin) karşılaştırılması, aşırı kuyrukta gerekli herhangi bir ilişkiyi önermez - bunun yerine bize ortalama davranış hakkında bir şeyler söyler; ancak orijinal nokta aşırı kuyruktan yapılmıyorsa, bu nedenle daha iyi sonuç verebilir.


Kaynaklar : R veya Minitab veya Matlab veya Excel gibi programları veya yoğunlukları ve günlük yoğunluklarını ve yoğunluk oranlarının günlüklerini çizmek için ne istersen kullanmak çok kolaydır. Başlamanızı önerdiğim şey bu.


4
Gerçekten de, bunu göstermektedir; ancak, sivri uçlu, ağır kuyruklu ve kurtosis arasında gerekli bir ilişki yoktur; Bu beklentilere karşı örnekler var, bu yüzden dikkat etmeliyiz. İkinci komplo olsa şüpheyi doğrular.
Glen_b

5
İşte bir astar. Lognormal normal yapmak için log dönüşümünün gerekli olduğu bir tanımdır; Bir küp kökünün bir gama normal yapması iyi bir yaklaşımdır (Wilson-Hilferty bilge için iki kelimedir); Daha güçlü dönüşüme ihtiyaç duyan dağılım normal ya da Gaussian'dan "daha" dır.
Nick Cox,

2
@Glen_b Ben sadece sizin çok güzel görünümlü bir pasta için küçük bir dekorasyon ekliyorum.
Nick Cox,

2
@Nick Cox Dönüşümlerle ilgili ifadelere katılmıyorum. Matematiksel olarak meşru olmayan kısım, çizmeye çalıştığınız sonuçtur: bir logaritmanın lognormal olması normaldir ve bir küp kökü bir gamayı yaklaşık olarak normal yapar , ikisinden birinin kuyrukları hakkında bir sonuç çıkaramazsınız .
whuber

2
Teşekkürler; Amacın benim için daha açık, ama benim "kural kuralı" ifadelerime sadık kalacağım ve ben de tecrübeyi teşvik ediyorum. Açıkçası, bir teorem yok.
Nick Cox,

7

Kurtozis kuyrukların ağırlığına bağlı olmasına rağmen , aşağıdaki örnekte gösterildiği gibi yağ kuyruklu dağılımları kavramına daha fazla ve kuyruk ağırlığının kendisine nispeten daha az katkıda bulunacaktır . Burada, gerçekten mükemmel yorumlar olan yukarıdaki ve alt yazılarda öğrendiklerimi yetersiz bırakıyorum. İlk olarak, bir sağ kuyruk alanı x için alan a yoğunluk fonksiyonu, AKA hayatta kalma işlevi, . Lognormal dağılım için ve gama dağılımıf(x)1F(t)e(log(x)μ)22σ22πσx;x0βαxα1eβxΓ(α);x0, ilgili hayatta kalma işlevlerini karşılaştıralım ve grafik olarak. Bunu yapmak için kendi varyanslarını keyfi bir şekilde ayarladım. ve , hem de kendi fazla kurtosları ve seçeneğini belirleyerek eşittir ve . Bu gösterir ki12erfc(log(x)μ2σ)Q(α,βx)=Γ(α,βx)Γ(α)(eσ21)e2μ+σ2αβ23e2σ2+2e3σ2+e4σ266αμ=0,σ=0.8α0.19128,β0.335421Mavi renkte LND ve turuncu renkte GD için 1-F (x)

mavi renkte lognormal dağılım (LND) ve turuncu renkte gamma dağılımı (GD) için hayatta kalma fonksiyonu. Bu bizi ilk uyarımıza getiriyor. Diğer bir deyişle, eğer bu komplo incelememiz gereken tek şeyse, GD kuyruğunun LND'den daha ağır olduğu sonucuna varabiliriz. Bu durum böyle değil, arsanın x ekseni değerlerini uzatarak gösterilir, böylece L-L ve GD için daha uzun grafik için 1-F (x)

Bu çizim, 1) eşit kurtozlarda bile, LND ve GD'nin doğru kuyruk bölgelerinin farklı olabileceğini göstermektedir. 2) Bu grafik yorumlamanın tek başına tehlikeleri vardır, çünkü sadece sınırlı bir aralıktaki sabit parametre değerleri için sonuçları gösterebilir. Bu nedenle, sınırlayıcı hayatta kalma fonksiyon oranı için genel ifadelerin bulunmasına ihtiyaç vardır. . Bunu sonsuz seri açılımlarla yapamadım. Bununla birlikte, bunu benzersiz işlevler olmayan ve sağ el kuyrukları için terminal olmayan ya da asimptotik işlevlerin , ve için yeterlidirlimxS(LND,x)S(GD,x)limxF(x)G(x)=1F(x)G(x)karşılıklı asimptotik olmak. Bu fonksiyonları bulmak için gereken özen gösterildiğinde, bu, sağkalım fonksiyonlarının kendisinden daha basit bir fonksiyon alt grubunu belirleme potansiyeline sahiptir, örneğin birden fazla yoğunluk fonksiyonu ile paylaşılabilir veya ortak olarak tutulabilir, örneğin iki farklı yoğunluk fonksiyonu, sınırlayıcı bir üstel kuyruk. Bu yazının önceki versiyonunda, "hayatta kalma fonksiyonlarını karşılaştırmanın karmaşıklığı" olarak adlandırdığım şey buydu. Unutmayın, ve (Kasten ve mutlaka velimuerfc(u)eu2πu=1limuΓ(α,u)euuα1=1erfc(u)<eu2πuΓ(α,u)<euuα1 . Yani, bir üst sınır, sadece bir asimptotik fonksiyon seçmek gerekli değildir). Burada ve burada sağ el terimlerinin oranı aynı limite sahiptir soldaki terimler gibi. Sağ el terimlerinin sınırlayıcı oranını basitleştirmek12erfc(log(x)μ2σ)<e(log(x)μ2σ)22(π(log(x)μ))2σΓ(α,βx)Γ(α)<eβx(βx)α1Γ(α)xlimxσΓ(α)(βx)1αeβx(μlog(x))22σ22π(log(x)μ)= , x için yeterince büyük, LND kuyruk alanının GD kuyruk alanı ile karşılaştırıldığında, parametre değerlerinin ne olduğuna bakılmaksızın, bizim istediğimiz kadar büyük. Bu da başka bir sorunu ortaya çıkarır, her zaman tüm parametre değerleri için doğru olan çözümlere sahip değiliz, bu nedenle, sadece grafik çizimleri kullanmak yanıltıcı olabilir. Örneğin, gama dağılımı sağ kuyruk alanı, olduğunda, üstel dağılımın kuyruk alanından daha büyük, olduğunda üstelden daha az ve GD, olduğunda tam olarak üstel bir dağılımdır .α<1α>1α=1

Öyleyse, hayatta kalma fonksiyonlarının oranının logaritmalarını almanın kullanımı nedir, çünkü açıkça sınırlayıcı bir oran bulmak için logaritma almamıza gerek yoktur. Pek çok dağıtım işlevi, logaritma alındığında daha basit görünen üstel terimler içerir ve eğer oran x arttıkça limitte sonsuzluğa giderse, logaritma da bunu yapar. Bizim durumumuzda bu, , ki bazı insanlar bakmak için daha kolay bulurlardı. Son olarak, eğer hayatta kalma fonksiyonlarının oranı sıfıra giderse, o zaman bu oranın logaritması-limx(log(σΓ(α)(βx)1α2π(log(x)μ))+βx(μlog(x))22σ2)=ve her durumda, bir oranın logaritmasının sınırını bulduktan sonra, hayatta kalma fonksiyonunun normal oranının sınırlayıcı değeri ile olan ilişkisini anlamak için bu değerin antilogaritmasını almak zorundayız.


2
Bu durumda (ve çoğu zaman ilgilenilen durumlarda) daha yüksek kurtoz ağır kuyruğa tekabül eder, ancak genel bir önerme olarak durum böyle değildir - karşı örneklerin oluşturulması kolaydır.
Glen_b

1
1. Yazıların doğrudan karşılaştırılmasının genel yolunu bilmiyorum. 2. Daha karmaşık olan nedir? whuber'un cevabı bize sağ kalan işlevden başka bir şeye bakmada neden bir sorun olduğunu gösteriyor (sağ kuyruk için); pdf'leri neden ayrıntılı olarak karşılaştıramayacağınızı, ancak benzer noktaların kurtosise taşıdığını tartışıyor. Ayrıca, karşılaştırmak, kurtosis'i karşılaştırmaktan çok daha az karmaşıktır. (Sol kuyruğunda doğrudan karşılaştırırdınız, ancak bu soru için bir sorun değildi.)F ( x )S(x)=1F(x)F(x)
Glen_b

2
Ayrıca, "Bunun, her iki dağılımın anlarının eşit olması durumunda, o zaman dağılımların aynı olduğunu söyleyen bir an teoremi ile ilgisi var" dediğinizi not edin. - iki dağılımın tüm momentleri eşit olsa bile , dağılımların mutlaka aynı olması gerekmez. Karşı örnekler, burada CV'de çeşitli soruların cevaplarında tartışılmaktadır. Tüm eşit
miktarlardan

1
@PerestWestfall Yarı sonsuz destek genellikle kan plazmasındaki ilaç konsantrasyonları için kabul edilir. Bu durumda, kuyruk ağırlığı, ilacın vücutta ortalama kalış süresinin bir şey ölçüp ölçmeyeceğini (örneğin, üstel dağılım) veya ölçmeyeceğini (örneğin, bazı Pareto dağılımları) belirler. 0t<
Carl

1
@PeterWestfall Nma.berkeley.edu/ark:/28722/bk000471p7j'ye benzer şekilde amacınızı anlıyorum . Her dağılımın farklı şeyler için farklı önlemler gerektirdiğini hatırlatmak gerekir. Örneğin, ortalama aşırı değer, ortalama değil, medyan değil üniform bir dağılımın yeri için MVUE'dur. Bu aşırı değerler arasında kuyruklar ağırdır, ancak bunların dışında da kuyruklar fermuarlıdır. Bunun kurtosis gibi daha yüksek bir an ile ne ilgisi var, ilk an MVUE olmadığı zaman tahmin etmeye teşebbüs etmezdim. Bir şey belki, ama ne?
Carl
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.