Anahtar fikir, medyanın örnekleme dağılımının, dağılım fonksiyonu açısından ifade etmenin basit olduğu, ancak medyan değeri açısından ifade etmek için daha karmaşık olduğu yönündedir. Dağılım fonksiyonunun değerleri nasıl tekrar ifade edip tekrar ifade edebileceğini anladığımızda , medyanın tam örnekleme dağılımını elde etmek kolaydır . Bunun asimptotik Normal olduğunu göstermek için dağılım fonksiyonunun medyanına yakın davranışının küçük bir analizine ihtiyaç vardır.
(Aynı analiz, yalnızca medyan için değil, herhangi bir miktarın örnekleme dağılımı için de geçerlidir.)
Bu fuarda titiz olmak için hiçbir girişimde bulunmayacağım, ancak bunu yapacak bir aklınız varsa, kolayca titizlikle haklı çıkarılan adımlar atıyorum.
Sezgi
Bunlar, 70 atomluk bir sıcak atom gazı içeren bir kutunun anlık görüntüleridir:
Her görüntüde kırmızı bir dikey çizgi olarak gösterilen, atomları sol (siyah noktalar olarak çizilir) ve sağ (beyaz noktalar) arasında iki eşit gruba bölen bir konum buldum. Bu , konumların medyanıdır : Atomların 35'i sola, 35'i sağa doğru uzanır. Medyanlar değişiyor çünkü atomlar kutunun etrafında rastgele hareket ediyor.
Bu orta pozisyonun dağılımı ile ilgileniyoruz. Böyle bir soru prosedürümü tersine çevirerek cevaplanır: haydi önce bir yerde dikey bir çizgi çizelim, diyelim ki . Atomların yarısının x'in solunda, yarısının da sağında olma ihtimali nedir ? Soldaki atomların bireysel olarak solda x olma şansı vardı . Sağdaki atomların bireysel olarak 1 - x sağda olma şansı vardı . Konumlarının istatistiksel olarak bağımsız olduğunu varsayarsak, şanslar artar ve x 35 ( 1 - x ) 35 olur.xxx1−xx35(1−x)35Bu özel yapılandırma şansı için. atomun farklı iki 35 parçaya bölünmesi için eşdeğer bir konfigürasyon elde edilebilir . Bu sayıları olası tüm bölmelere eklemek,7035
Pr(x is a median)=Cxn/2(1−x)n/2
burada , toplam atom sayısıdır ve , atomunun bölünme sayısıyla iki eşit alt gruba orantılıdır .C nnCn
Bu formül medyanın dağılımını bir Beta dağılımı(n/2+1,n/2+1) olarak tanımlar .
Şimdi daha karmaşık bir şekle sahip bir kutu düşünün:
Bir kez daha medyanlar değişir. Kutu merkezin yakınında düşük olduğundan, buradaki hacminin büyük kısmı yoktur: atomların sol yarısı tarafından işgal edilen hacmindeki küçük bir değişiklik (siyahlar bir kez daha) - ya da kabul edebiliriz ki, bu şekillerde gösterildiği gibi sola kalan alan - medyanın yatay pozisyonunda nispeten büyük bir değişime karşılık gelir . Aslında, kutunun küçük bir yatay bölümünün çıkardığı alan , oradaki yükseklikle orantılı olduğundan, medyanlardaki değişiklikler kutunun yüksekliğine bölünür . Bu, medyanın bu kutu için kare kutudan daha değişken olmasına neden olur, çünkü bu ortada çok daha düşüktür.
Kısacası, medyanın alan (sol ve sağ) yönündeki konumunu ölçtüğümüzde, orijinal analiz (bir kare kutu için) değişmeden durmaktadır. Kutunun şekli sadece medyanı yatay pozisyonu açısından ölçmekte ısrar edersek dağılımı zorlaştırır. Bunu yaptığımızda, alan ve konum gösterimi arasındaki ilişki kutunun yüksekliğiyle ters orantılıdır.
Bu resimlerden öğrenilecek daha çok şey var. Birkaç atomun (her iki) kutusunda olduğu zaman, bunların yarısının her iki tarafa da yanlışlıkla kümelenmiş olma ihtimalinin daha yüksek olduğu açıktır. Atom sayısı arttıkça, bu tür aşırı dengesizlik potansiyeli azalır. Bunu izlemek için "filmler" aldım - 5000 kare uzunluğunda bir dizi - , sonra , sonra ve son olarak atom içeren kavisli kutu için ve medyanları not aldım. İşte ortanca pozisyonların histogramları:15 75 37531575375
Açıkçası, yeterince büyük sayıda atom için, ortanca konumlarının dağılımı çan şeklinde görünmeye başlar ve daralır. Bu, Merkezi Sınır Teoremi sonucuna benziyor, değil mi?
Nicel Sonuçlar
Elbette "kutu", bazı dağılımların olasılık yoğunluğunu gösterir: üst kısım, yoğunluk fonksiyonunun grafiğidir (PDF). Böylece alanlar olasılıkları temsil eder. Yerleştirme bir kutu içerisinde rasgele olarak ve bağımsız noktaları ve yatay pozisyonlannın izlenmesi dağılımından bir örnek almak için bir yoldur. (Bu, ret örneklemesinin arkasındaki fikirdür. )n
Bir sonraki rakam bu fikirleri birleştiriyor.
Bu karmaşık görünüyor, ama gerçekten oldukça basit. Burada dört ilgili parsel var:
Üstteki grafik, bir dağılımın PDF'sini ve . Ortancadan daha büyük değerler beyaz noktalar olarak gösterilir; ortancadan daha küçük değerleri siyah noktalar olarak gösterir. Dikey bir skalaya ihtiyaç duymaz, çünkü toplam alanın birlik olduğunu biliyoruz.n
Ortadaki grafik aynı dağıtım için kümülatif dağılım işlevidir: olasılığı belirtmek için yükseklik kullanır . Yatay eksenini ilk arsa ile paylaşır. Onun dikey eksen gitmelisiniz kadar olasılıkları temsil ettiği.101
Sol arsa yanlardan okunacak şekilde yazılmıştır: Beta dağılımının PDF'sidir. Kutudaki ortancanın nasıl değişeceğini gösterir (ortanca solun ortasındaki ve sağındaki alanlar açısından ölçüldüğünde) (yatay pozisyonuyla ölçülmek yerine). Gösterildiği gibi bu PDF'den rastgele nokta çizdim ve bunları yatay kesik çizgilerle orijinal CDF'deki ilgili yerlere bağladım: hacimler (solda ölçülen) konumlara dönüştürülür (üstte, merkez boyunca ölçülür) ve alt grafikler). Bu noktalardan biri aslında üst arsada gösterilen ortancaya karşılık gelir; Bunu göstermek için sağlam bir dikey çizgi çizdim.16(n/2+1,n/2+1)16
Alt çizim yatay konumuyla ölçülen medyanın örnekleme yoğunluğudur . Alanın (sol arsadaki) pozisyonuna dönüştürülmesi ile elde edilir. Dönüşüm formülü, orijinal CDF'nin tersi ile verilir: bu sadece ters CDF'nin tanımıdır ! (Başka bir deyişle, CDF pozisyonu sola alana çevirir; ters CDF alandan pozisyona geri döner.) Sol arsadan rastgele noktaların alt arsa içindeki rasgele noktalara nasıl dönüştürüldüğünü gösteren dikey kesikli çizgiler çizdim. . Bu aşağı ve yukarı okuma işlemi bize bölgeden pozisyona nasıl geçeceğimizi anlatır.
Let orijinal dağılımının CDF (orta arsa) ve olmayacak Beta dağılımının CDF. Medyanın konumunun solunda kalma şansını bulmak için , önce kutusunun solundaki alanı elde etmek için kullanın : bu kendisidir. Soldaki Beta dağılımı bize atomların yarısının bu hacim içinde uzanma şansını veriyor, veriyor : bu medyan pozisyonunun CDF'si . PDF'sini bulmak için (alt kısımda gösterildiği gibi), türevi alın:G x F x F ( x ) G ( F ( x ) )FGxFxF(x)G(F(x))
ddxG(F(x))=G′(F(x))F′(x)=g(F(x))f(x)
burada PDF (en üstteki grafik) ve ise Beta PDF'dir (soldaki grafik).gfg
Bu, sürekli dağılım için ortanca dağılımı için kesin bir formüldür . (Yorumlamadaki bir miktar dikkat ile, sürekli olsun ya da olmasın, herhangi bir dağıtıma uygulanabilir.)
Asimptotik Sonuçlar
Ne zaman çok büyük ve onun ortanca bir sıçrama yok, örnek medyan gerçek medyan etrafında yakından değişir gerekir dağılımının. Ayrıca PDF varsayarak yakınındaki sürekli , , önceki formül onun değerinden fazla değişmez olarak verilen Üstelik, orada da değerinden fazla bir şey değişmeyecek: birinci dereceye,F μ f μ f ( x ) μ , f ( μ ) . FnFμfμ f(x)μ,f(μ).F
F(x)=F(μ+(x−μ))≈F(μ)+F′(μ)(x−μ)=1/2+f(μ)(x−μ).
Böylece, büyüdükçe sürekli gelişen bir yaklaşımla ,n
g( F( x ) ) f( x ) ≈ g( 1 / 2 + f(μ)(x−μ))f(μ).
Bu yalnızca Beta dağılımının yeri ve ölçeğinin bir kaymasıdır. yeniden ölçeklendirme , varyansını (ki daha iyi olmasa da!) İle böler . Bu arada, Beta varyansı çok yakındır .f ( μ ) 2 ( n / 2 + 1 , n / 2 + 1 ) n / 4f(μ)f(μ)2(n/2+1,n/2+1)n/4
Bu analiz Delta Metodunun bir uygulaması olarak görülebilir .
Son olarak, Beta büyük için yaklaşık Normaldir . Bunu görmenin birçok yolu var; belki de en basit olanı, PDF'nin logaritmasına yakınına bakmaktır :n, 1 / 2(n/2+1,n/2+1)n1/2
log(C(1/2+x)n/2(1/2−x)n/2)=n2log(1−4x2)+C′=C′−2nx2+O(x4).
( ve sabitleri yalnızca toplam alanı birliğe göre normalleştirir.) üçüncü sırasına göre , bu, varyanslı Normal PDF günlüğüyle aynıdır (Bu argüman, PDF günlüğü yerine karakteristik veya biriktirici işlevler kullanarak titizlikle yapılır.)CC′x,1/(4n).
Bunu bir araya getirmekle, sonucuna varırız.
Örnek medyan dağılımı yaklaşık olarak ,1/(4nf(μ)2)
ve büyük yaklaşık Normal ,n
Tüm PDF sağlanan medyan de sürekli ve sıfırdan farklıdırfμ.