Bir dağılım ailesinin tanımı?


14

Bir dağıtım ailesinin istatistik için diğer disiplinlerden farklı bir tanımı var mı?

Genel olarak, bir eğri ailesi , her biri bir veya daha fazla parametrenin değiştiği bir fonksiyon veya parametrelerle verilen bir eğriler kümesidir. Bu tür aileler, örneğin, elektronik bileşenleri karakterize etmek için kullanılır .

İstatistikler için, bir kaynağa göre bir aile , şekil parametresini değiştirmenin sonucudur. O zaman gama dağılımının bir şekil ve ölçek parametresine sahip olduğunu ve yalnızca genelleştirilmiş gama dağılımının ek olarak bir konum parametresi olduğunu nasıl anlayabiliriz? Bu, aileyi location parametresini değiştirmenin sonucu yapar mı? @Whuber'a göre bir ailenin anlamı dolaylı olarak bir ailenin "parametreleştirilmesi", top alt kümesinden , her zamanki topolojisi ile imajı o aile olan dağılım alanına sürekli bir haritadır .n

Basit bir dilde, istatistiksel dağılımlar için bir aile nedir?

Aynı ailenin dağılımlarının istatistiksel özellikleri arasındaki ilişkiler hakkında bir soru, farklı bir soru için kayda değer bir tartışma yarattı, bu yüzden anlamı araştırmaya değer görünüyor.

Bunun mutlaka basit bir soru olmaması , eğriler ailesiyle ilgisi olmayan üstel aile ifadesinde kullanılmasıyla ortaya çıkmaktadır , ancak sadece parametrelerin yeniden parametrelendirilmesiyle bir dağıtımın PDF biçiminin değiştirilmesi ile ilgilidir. , fakat aynı zamanda bağımsız rasgele değişkenlerin fonksiyonlarının ikamesi.


1
"Bir dağıtım ailesi" ifadesiyle, "dağıtım ailesi" anlamına mı geliyorsunuz? Üstel bir aile bir dağıtım ailesidir (belirli özelliklere sahip) ve her bir dağıtımın pdf'sini bir eğri olarak yorumlar, hatta bir eğri ailesine karşılık gelir, bu nedenle son paragraflar karışık görünür.
Juho Kokkala

@JuhoKokkala Kafa karıştırıcı görünüyor çünkü "aile" anlamı bağlama bağlıdır. Örneğin, bilinmeyen ortalama ve bilinen varyansın normal dağılımı üstel ailedir. Normal bir dağılımın sonsuz desteği vardır ve üstel dağılımın yarı sonsuz desteği vardır , bu nedenle aralığı kapsayan üstel dağılım için eğri ailesi yoktur. Normal dağılımın asla aynı şekle sahip olmadıklarını ...[ 0 , + )(,+)[0,+)
Carl

@JuhoKokkala ... ve üstel bir PDF'nin konum parametresi bile yokken, normal bir dağılım bir tane olmadan yapamaz. Gerekli ikameler ve üstel ailede normal bir pdf'nin bulunduğu bağlam için yukarıdaki bağlantıya bakın.
Carl

1
stats.stackexchange.com/questions/129990/… alakalı olabilir. "Bilinmeyen ortalama ve bilinen varyansın normal dağılımı üstel ailede", bence, terminolojinin kötüye kullanılması (biraz yaygın olsa da). Kesin olarak, üstel bir aile, belirli özelliklere sahip bir dağılım ailesidir. Bilinmeyen ortalama ve bilinen varyans normal dağılımların ailesidir bir üstel ailesi; üstel dağılımların ailesi başka bir üstel ailedir, vb.
Juho Kokkala

1
@JuhoKokkala: "Aile" nin çok yaygın olarak kullanıldığı (ab), özel bir durumda, "aileler kümesi" demek için belki de başka bir cevaba çekilmeye değer. (Ben diğer durumlarda düşünemiyorum - nedense öyle görünüyor, kimsenin eğilimli "nin konuşmaya yeri ölçekli ailesi".)
Scortchi - Eski Monica

Yanıtlar:


14

İstatistiksel ve matematiksel kavramlar tamamen aynıdır, "aile" nin farklı koşullara uyarlanmış teknik varyasyonları olan genel bir matematiksel terim olduğu anlaşılmaktadır:

Parametrik bir aile, tüm dağılımların uzayda bir eğridir (veya bunun yüzeyi veya başka bir sonlu boyutlu genellemesi).

Bu yazının geri kalanı bunun ne anlama geldiğini açıklıyor. Bir yana, bunların hiçbirinin matematiksel veya istatistiksel olarak tartışmalı olduğunu düşünmüyorum (aşağıda belirtilen küçük bir sorun dışında). Bu görüşü desteklemek için birçok referans sağladım (çoğunlukla Wikipedia makalelerine).


Bu "aileler" terminolojisi, sınıflar fonksiyonlarını bir küme veya "haritalar" olarak incelerken kullanılma eğilimindedir . Bir etki alanı verildiğinde , bazı set ("parametreler") tarafından parametrelendirilen üzerindeki haritaların bir ailesi bir işlevdir YX F X ΘCYYX FX Θ

F:X×ΘY

için olan (1) için, her , fonksiyon ile verilen olan içerisinde ve (2) kendisinin belirli "hoş" özelliklere sahiptir.F θ : X Y F θ ( x ) = F ( x , θ ) C Y FθΘFθ:XYFθ(x)=F(x,θ)CYF

Fikir biz işlevleri değişir istiyorum ki için "yumuşak" veya kontrollü bir şekilde. İşletme (1) araçlarının her belirtir böyle bir fonksiyon, bir özellik (2) ait detayları anlamda ele ise de bir "küçük" bir değişiklik de uyarmaktadır yeterince "küçük" bir değişiklik .Y θ θ F θXYθθFθ

Soruda belirtilene yakın standart bir matematiksel örnek bir homotopidir . Bu durumda, olduğu kategori sürekli haritaları topolojik alanlarda topolojik boşluğa ; olağan topolojisi ile birimi aralığı olduğunu ve gerektirir bir olmak sürekli topolojik üründen harita içine . "Haritanın - sürekli deformasyonu" olarak düşünülebilir . Ne zaman XYΘ=[0,1] R F X×ΘY F 0 F 1 X=[0,1]YCY XYΘ=[0,1]RFX×ΘYF0F1X=[0,1] kendisi bir aralık, bu tür haritalarıdır eğrileri de ve Homotopy bir eğriden başka yumuşak bir deformasyondur.Y

İstatistiksel uygulamalar için, (veya pratikte, bazı için üzerindeki tüm dağılımların kümesidir , ancak açıklamayı basit tutmak için odaklanacağım ). Tüm azalmayan grubu ile tespit edebilir càdlàg fonksiyonları onların aralığının kapatılması içerir burada ve : bunlar kümülatif dağılım fonksiyonu, ya da sadece dağılım fonksiyonları. Böylece, ve .R R n nn=1 R[0,1]01X= R Y=[0,1]CYRRnnn=1R[0,1]01X=RY=[0,1]

Bir dağıtım ailesi herhangi bir alt kümesidir . CY Bir aile için başka bir isim istatistiksel modeldir. Gözlemlerimizi yönettiğimizi düşündüğümüz tüm dağıtımlardan oluşur, ancak gerçekte hangi dağıtımın olduğunu bilmiyoruz.

  • Bir aile boş olabilir.
  • kendisi ailesidir.CY
  • Bir aile, tek bir dağılımdan veya sadece sınırlı sayıda olabilir.

Bu soyut küme-teorik özellikler nispeten az ilgi veya faydaya sahiptir. Biz ek (ilgili) matematiksel yapıyı göz önüne aldığımızda bu sadece bu kavram yararlı olur. Ama ne özellikleri C Y istatistiksel ilgi çekiyor? Sık görülen bazı kişiler:CYCY

  1. dışbükeybirkümedir:iki dağılımı göz önüne alındığındaiçinkarışım dağılımıoluşturabiliriz.hepsi. Bu gelen "homotopi" bir türiçin.CY ( 1 - t ) F + t GY t [ 0 , 1 ] F GF,GCY (1t)F+tGYt[0,1]FG

  2. büyük bölümleri , Kullback-Leibler sapması veya yakından ilişkili Fisher Information metriği gibi çeşitli sahte metrikleri destekler .CY

  3. FG F GCY ek bir yapıya sahiptir: iki ve dağılımına karşılık gelen toplamları, .FGFG

  4. CY , genellikle "özellikler" olarak adlandırılan birçok yararlı, doğal işlevi destekler. Bunlar arasında herhangi bir sabit kantil (medyan gibi) ve kümülanlar bulunur .

  5. CY , bir işlev alanının alt kümesidir . Bu nedenle, tarafından verilen sup norm ( norm) gibi birçok yararlı metriği devralır.L

    ||FG||=supxR|F(x)G(x)|.
  6. üzerindeki doğal grup eylemleri üzerindeki eylemleri . Sık işlemler olan çeviriler ve ölçekleme için . Bunların bir dağıtım üzerindeki etkisi , tarafından verilen dağılıma göndermektir . Bunlar, konum ölçeğinde ailelerin kavramlarına ve genellemelerine yol açmaktadır. (Bir referans sağlamıyorum, çünkü kapsamlı Web aramaları çeşitli tanımları ortaya çıkarır: en azından burada küçük bir tartışma olabilir.)RT μ :xx+μ S σ :xxσσ>0F F μ , σ (x)=F((x-μ) / σ)CY Tμ:xx+μ Sσ:xxσσ>0FFμ,σ(x)=F((xμ)/σ)

Önemli olan özellikler istatistiksel soruna ve verileri nasıl analiz etmek istediğinize bağlıdır. Önceki özelliklerin önerdiği tüm varyasyonları ele almak, bu ortam için çok fazla yer kaplayacaktır. Bir ortak önemli uygulamaya odaklanalım.

Örneğin, Maksimum Olabilirliği ele alalım. Çoğu uygulamada bir tahmin elde etmek için Matematik kullanmak isteyeceksiniz. Bunun işe yaraması için, ailede "türev alabilir" olmanız gerekir.

( Kenara Teknik: Bu gerçekleştirilir ki burada her zamanki gibi bir alan adı seçmektir için ve belirtmek sürekli yerel olarak ters çevrilebilir fonksiyonu gelen içine (bu araçlarının her. bir top vardır ile olan bire bir, Başka bir deyişle, değiştirirsek d 0 p Θ C Y θ Θ B ( θ , ϵ ) ϵ > 0 p B ( θ , ϵ ) : B ( θ , ϵ ) Θ C Y θΘRdd0pΘCYθΘB(θ,ϵ)ϵ>0pB(θ,ϵ):B(θ,ϵ)ΘCYθ yeterince küçük bir miktarda her zaman farklı bir dağıtım elde edeceğiz.))

Sonuç olarak, çoğu ML uygulamasında bileşeninde sürekli (ve umarım neredeyse her yerde farklılaşabilir) olmasını istiyoruz . (Süreklilik olmadan, olasılığı en üst düzeye çıkarmak genellikle zor bir sorun haline gelir.) Bu, parametrik bir ailenin aşağıdaki olasılık odaklı tanımına yol açar :ΘpΘ

(Tek değişkenli) dağılımlarının bir parametrik ailesi yerel olarak tersinir haritasıdır ile için burada (a) her olan her biri için bir dağılım fonksiyonu ve (b) , fonksiyon tarafından verilen süreklidir ve hemen hemen her yerde farklılaşabilir.Θ R n F θ x R L x : θ [ 0 , 1 ] L x ( θ ) = F ( x , θ )

F:R×Θ[0,1],
ΘRnFθxRLx:θ[0,1]Lx(θ)=F(x,θ)

Bir parametrik aile sadece topluluğundan daha fazlasıdır : parametre değerlerinin dağılımlara karşılık gelmesinin belirli bir yolunu da içerir .F θ θFFθθ

Sonunda açıklayıcı örnekler verelim.

  • Let tüm kümesi Normal dağılımlar. Verildiği gibi, bu parametrik bir aile değil : sadece bir aile. Parametrik olmak için, bir parametreleştirme seçmeliyiz. Bunun bir yolu, seçmek ve ile Normal dağılım ortalama ve varyans . Θ={(μ,σ) R 2σ>0}(μ,σ)μ σ 2CYΘ={(μ,σ)R2σ>0}(μ,σ)μσ2

  • Poisson dağılımları(λ) λ Θ = ( 0 , ) R 1 kümesi bir parametrik ailedir .λΘ=(0,)R1

  • Tekdüzen dağılımları (birçok ders kitabı alıştırmasında belirgin bir şekilde yer alan), bir parametrik ailedir . Bu durumda, olduğu türevlenebilir içinde haricinde .θ R 1 F θ ( x ) = maks. ( 0 , dk. ( 1 , x - θ ) ) θ(θ,θ+1)θR1Fθ(x)=max(0,min(1,xθ))θθ{x,x1}

  • Let ve olmak herhangi iki dağılımları. O zaman , için bir parametrik ailedir . (Test: görüntü dağılımları bir dizi ve kısmi türevi eşittir her tanımlanmaktadır.)G F ( x , θ ) = ( 1 - θ ) F ( x ) + θ G ( x ) θ [ 0 , 1 ] F θ - F ( x ) + G ( x )FGF(x,θ)=(1θ)F(x)+θG(x)θ[0,1]FθF(x)+G(x)

  • Pearson ailesi dört boyutlu bir aile olduğunu (diğerleri arasında) normal dağılımlar, beta dağılımları ve ters Gama dağılımları içerir. Bu, herhangi bir dağıtımın birçok farklı dağıtım ailesine ait olabileceğini göstermektedir . Bu, (yeterince büyük) bir alandaki herhangi bir noktanın orada kesişen birçok yola ait olabileceğini gözlemlemeye mükemmel bir şekilde benzemektedir. Bu, önceki yapı ile birlikte, hiçbir dağıtımın ait olduğu bir aileyi benzersiz bir şekilde belirlemediğini gösterir .ΘR4

  • Kesin sürekli dağılımların tümünün ailesi parametrik değildir . Dayanıklı topoloji derin teoremi gerektirir: Biz miktarda bağış ise ile herhangi bir ve (istatistiksel olarak yararlı bir ya da değil) topolojisi süreklidir ve yerel olarak sürekli bir ters sahiptir, yerel olarak aynı boyuta sahip olmalıdır . Bununla birlikte, tüm istatistiksel olarak anlamlı topolojileri, olan sonsuz boyutlu.C Y p:Θ C Y C Y Θ C YCYCYp:ΘCYCYΘCY


2
Cevabınızı sindirmek yaklaşık bir gün sürecek. Yavaş çiğnemem gerekecek. Bu arada, teşekkür ederim.
Carl

(+1) Tamam, içinden geçtim. Öyleyse Polonyalı bir alan mı yoksa değil mi? Basit bir cevap verebilir miyiz, böylece insanlar aile kelimesini yanlış kullanmaktan nasıl kaçınacaklarını bilirler , lütfen. @JuhoKokkala, örneğin, Wikipedia'nın üstel ailelerinde dili açıklığa kavuşturması gerektiğini açıkladı. F:R×Θ[0,1]
Carl

1
Bu cevabın ikinci cümlesi bu basitlik talebine hizmet etmiyor mu?
whuber

IMHO, bilgisiz olmakla birlikte, hayır, eksiklikten kaynaklanmıyor, bir ailenin ne olmadığını söylemiyor. "Tüm dağılımların mekanı" kavramı sadece istatistiklerle ilgilidir.
Carl

1
Cevabınızı kabul ettim. İçinde söz konusu soruya uygulayabileceğim kadar bilginiz var.
Carl

1

Soruda ortaya çıkan belirli bir noktayı ele almak için: "üstel aile", bir dizi dağılımı ifade etmez. (Standart, örneğin, üstel dağılım, üstel dağılımlar ailesinin bir üyesi, üstel bir aile; gamma dağılımları ailesinin, aynı zamanda üstel bir aile; Weibull dağılımlar ailesinin bir üyesi değil, herhangi bir sayıdan; Hayal edebileceğiniz gibi, "üstel" bir dağılım ailesinin sahip olduğu bir mülkü ifade eder. Bu yüzden "üstel ailede dağılımlar" dan değil, "üstel dağılım ailelerinden" bahsetmemeliyiz. Bazı nedenlerden dolayı yer ölçeğinde ailelerden bahsederken kimse bu suistimali gerçekleştirmez.


0

@Whuber sayesinde, bu yazının ortaya çıktığı soruyla ilgili daha basit bir form olduğunu umduğum kadar özetlemek için yeterli bilgi var . "Bir ailenin [ Sic , istatistiksel aile] diğer adı da istatistiksel modeldir ."

Bu Wikipedia girişinden: İstatistiksel bir model, gözlemlerimizi yönettiğimizi varsaydığımız tüm dağılımlardan oluşur, ancak hangi dağıtımın gerçek olduğunu başka türlü bilmiyoruz. Bir istatistiksel modeli diğer matematiksel modellerden ayıran şey, bir istatistiksel modelin deterministik olmamasıdır. Böylece, matematiksel denklemler ile belirtilen istatistiksel bir modelde, bazı değişkenlerin spesifik değerleri yoktur, bunun yerine olasılık dağılımları vardır; yani, bazı değişkenler stokastiktir. İstatistiksel bir model genellikle bir çift olarak düşünülür , burada olası gözlemler kümesi, yani örnek alanıdır ve , üzerindeki bir olasılık dağılımları kümesidir .S P S(S,P)SPS

Bir istatistiksel model olduğunu varsayalım ile . Model olduğu söylenir Parametrik modeli ise sonlu bir boyuta sahiptir. Gösterimde, burada pozitif bir tamsayı olduğunu yazıyoruz ( gerçek sayıları ifade eder; prensip olarak diğer kümeler kullanılabilir). Burada , modelin boyutu olarak adlandırılır .(S,P)P={Pθ:θΘ}ΘΘRddRd

Örnek olarak, verilerin tek değişkenli bir Gauss dağılımından kaynaklandığını varsayarsak, Bu örnekte, boyutu 2'ye, son tırnak işaretine eşittir .

P={Pμ,σ(x)12πσexp((xμ)22σ2):μR,σ>0}.
d

Dolayısıyla, yukarıdaki örnek için atayarak boyutsallığı azaltırsak, veya için herhangi bir seçenek çizerek bir eğri ailesini gösterebiliriz .σ = 1 , 2 , 3 , 4 , 5 σμ=0σ=1,2,3,4,5σ

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.