Dağıtımı örneklemek için dağıtım anlarını kullanabilir miyim?


14

İstatistik / makine öğrenme yöntemlerinde fark ettim ki, dağılım genellikle Gaussian tarafından tahmin ediliyor ve sonra Gaussian'ın örnekleme için kullanıldığını görüyorum. Dağılımın ilk iki anını hesaplayarak başlarlar ve bunları μ ve σ2 tahmin etmek için kullanırlar . Sonra Gaussian'dan örnek alabilirler.

Bana öyle geliyor ki, hesapladığım anlar ne kadar iyi olursa, örneklemek istediğim dağılıma yaklaşabilmem o kadar iyi olur.

3 dakika hesaplarsam ... bunları dağıtımdan örneklemek için nasıl kullanabilirim? Ve bu N anına kadar uzatılabilir mi?


2
Üç an bir dağılım formu belirlemez *; eğer seçim ilk üç nüfus anları ilgili üç parametreye sahip bir dağıtım-famiy, üç parametre tahmin sonra böyle bir dağılım değerleri üretmek için moment eşleştirme ( "anlarından yöntemi") yapabilirsiniz. Böyle birçok dağıtım var.[* Gerçekten de, bazen tüm anlara sahip olmak bile bir dağılımı belirlemek için yeterli değildir.]
Glen_b

Teşekkürler @Glen_b! Mümkün olduğunda anlamak için "anların yöntemi" ni okuyacağım. Anların dağılımı belirlemek için ne zaman yeterli olmadığını açıklayan teoriye işaret edebilir misiniz?
curious_dan

"Anlar yöntemi" sadece anlardan parametreleri nasıl tahmin edeceğinizi anlatır. Yorumunuzun geri kalanı yeni bir soru (sanırım sitede zaten cevaplandı); kısaca - moment üreten fonksiyon varsa (0 mahallesinde), o zaman bir dağılımı benzersiz bir şekilde tanımlar (teknik olarak, prensip olarak ters Laplace dönüşümü yapabilirsiniz). Kesinlikle bazı anlar sonlu değilse, bu mgf'ın mevcut olmadığı anlamına gelir, ancak tüm anların sonlu olduğu ancak
mgf'nin hala

Yorumuma dayanarak bir cevap yazıyorum.
Glen_b-Monica

Yanıtlar:


22

Üç an dağıtım biçimini belirlemez; ilk üç popülasyon anıyla ilgili üç parametreli bir dağıtım ailesi seçerseniz, üç parametreyi tahmin etmek ve daha sonra böyle bir dağılımdan değerler oluşturmak için moment eşleştirmesi ("momentler yöntemi") yapabilirsiniz. Böyle birçok dağıtım var.

Bazen tüm anlara sahip olmak bile bir dağılımı belirlemek için yeterli olmaz. Moment üreten fonksiyon mevcutsa (0 mahallesinde), o zaman bir dağılımı benzersiz olarak tanımlar (prensip olarak bunu elde etmek için ters Laplace dönüşümü yapabilirsiniz).

[Bazı anlar sonlu değilse bu, mgf'nin olmadığı anlamına gelir, ancak tüm anların sonlu olduğu ancak mgf'nin 0 civarında bir mahalde bulunmadığı durumlar da vardır.]

Bir dağıtım seçeneği göz önüne alındığında, ilk üç andaki kısıtlama ile maksimum bir entropi çözümünü düşünmek cazip gelebilir, ancak gerçek çizgide onu elde eden hiçbir dağıtım yoktur (çünkü üssünde sonuçta ortaya çıkan küp sınırsız olacaktır).


Belirli bir dağıtım seçeneği için süreç nasıl çalışır?

γ1=μ3/μ23/2

Bunu yapabiliriz, çünkü ilgili çarpıklıkla bir dağılım seçtikten sonra, istenen ortalama ve varyansı ölçekleyerek ve kaydırarak geri alabiliriz.

Bir örnek ele alalım. Dün dağılımını fonksiyonel formunu hesaplamaya çalışmadığım büyük bir veri kümesi oluşturdum (ki bu hala R oturumumda oluyor) (n'de bir Cauchy'nin örnek varyansının günlüğünün büyük bir değer kümesi) = 10). Sırasıyla ilk üç ham anı sırasıyla 1.519, 3.597 ve 11.479 veya buna karşılık olarak ortalama 1.518, standart sapma * 1.136 ve çarpıklığı 1.429'dur (bu yüzden bunlar büyük bir örnekten örnek değerleridir).

Resmi olarak, momentler yöntemi ham anları eşleştirmeye çalışır, ancak çarpıklık ile başlarsak hesaplama daha basittir (üç bilinmeyende üç denklemi çözmeyi bir seferde bir parametre için çözmeye dönüştürmek, çok daha basit bir görev).

* Varyans üzerinde bir n-payda kullanma - anların resmi yöntemine karşılık gelen gibi - ve bir n-1 payda arasındaki farkı ayırt edeceğim ve sadece örnek hesaplamaları kullanacağım.

σμγ

γ1=(eσ2+2)eσ21

σ2σ~2

γ12(τ+2)2(τ1)τ=eσ2τ3+3τ24=γ12τ~1.1995σ~20.1819γ1

μ

Ancak, kaydırılmış bir gamma ya da kaydırılmış bir Weibull dağılımı (ya da kaydırılmış bir F ya da herhangi bir başka seçenek) seçebildik ve aslında aynı süreçten geçebildik. Her biri farklı olurdu.

[Karşılaştığım örnek için, kaydırılmış bir gama muhtemelen kaydırılmış bir lognormalden çok daha iyi bir seçim olurdu, çünkü değerlerin kütüklerinin dağılımı eğrilmiş ve küp köklerinin dağılımı simetriklere çok yakındı; bunlar (kaydırılmamış) gama yoğunlukları ile göreceğinizle tutarlıdır, ancak kaymış lognormal ile kütüklerin sol eğimli yoğunluğuna ulaşılamaz.]

Bir Pearson grafiğinde çarpıklık-basıklık diyagramını bile alabilir ve istenen çarpıklıkta bir çizgi çizebilir ve böylece iki noktalı bir dağılım, beta dağılımları dizisi, bir gama dağılımı, bir beta-prime dağılımları dizisi, bir ters- gama dağılımı ve bir dizi Pearson tip IV dağılımları aynı çarpıklığa sahiptir.

β1=γ12β2

İstenen çarpıklık çizgisi ile çizilen Pearson grafiği

γ12=2.042σ


Daha fazla an

Anlar dağılımları çok iyi sabitlemez, bu nedenle birçok anı belirtseniz bile, bunlarla eşleşecek birçok farklı dağıtım (özellikle aşırı kuyruk davranışlarıyla ilgili olarak) olacaktır.

Tabii ki en az dört parametreli bir dağıtım ailesi seçebilir ve üçten fazla anı eşleştirmeye çalışabilirsiniz; örneğin, yukarıdaki Pearson dağılımları ilk dört anı eşleştirmemize izin verir ve benzer esneklik derecesine izin verecek başka dağıtım seçenekleri de vardır.

Dağılım özellikleriyle eşleşebilecek dağılımları seçmek için başka stratejiler benimsenebilir - karışım dağılımları, eğri çizgilerle log yoğunluğunu modelleme vb.

Bununla birlikte, sık sık, bir kişinin bir dağıtım bulmaya çalıştığı başlangıç ​​amacına geri dönmesi durumunda, burada ana hatları çizilen stratejiden daha iyi bir şey yapılabileceği ortaya çıkar.


2

Yani, cevap genellikle HAYIR, bunu yapamazsınız, ancak bazen yapabilirsiniz.

Yapamadığın zaman

Bunu yapamamanızın nedenleri genellikle iki kıvrımdır.

İlk olarak, N gözleminiz varsa, o zaman en fazla N momentini hesaplayabilirsiniz. Peki ya diğer anlar? Bunları sıfıra ayarlayamazsınız.

γ100=ixi100n

Ne zaman yapabilirsin

Şimdi, bazen anlardan dağıtım alabilirsiniz. Bir çeşit dağılım hakkında bir varsayım yaptığınızda. Örneğin, normal olduğunu beyan edersiniz. Bu durumda, tek ihtiyacınız olan şey genellikle iyi bir hassasiyetle hesaplanabilen sadece iki dakikadır. Not, bu normal dağılım vardır mesela basıklık, gerçekten, yüksek anlar, ama biz onları gerek yoktur. Normal dağılımın tüm anlarını hesaplayacak olsaydınız (normal olduğunu varsaymadan), daha sonra dağılımdan örnekleme için karakteristik işlevi kurtarmaya çalıştıysa, işe yaramaz. Ancak, daha yüksek anları unutup ilk ikisine sadık kaldığınızda işe yarar.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.