Veri tabanlı çöp kutusu sınırlarının ki-kare uyum iyiliği testi üzerindeki etkisi?


18

Bu tür durumlarda ki-kare düşük gücünün bariz sorununu bir kenara bırakarak, verileri ikiye ayırarak, belirtilmemiş parametrelerle bazı yoğunluk için ki-kare testi iyiliği yaptığınızı hayal edin.

Somutluk için, diyelim ki ortalaması bilinmeyen üstel dağılım ve örnek büyüklüğü 100 diyelim.

Bölme başına makul sayıda beklenen gözlem elde etmek için verilerin bir kısmının dikkate alınması gerekir (örneğin, ortalamanın altına 6 bölme ve bunun üzerine 4 bölme koymayı seçersek, yine de veri tabanlı bölme sınırları kullanır) .

Ancak, verileri görmeye dayanan bu kutuların kullanımı muhtemelen test istatistiğinin sıfırın altındaki dağılımını etkileyecektir.

Parametreler, binned verilerden maksimum olasılıkla tahmin edilirse , tahmin edilen parametre başına 1 df kaybedersiniz (Fisher vs Karl Pearson'a kadar uzanan bir sorun) - ancak hatırlamıyorum hakkında birçok tartışma gördüm. verilere dayanarak çöp kutusu sınırlarını bulma hakkında her şeyi okumak. (Bunları birleştirilmemiş verilerden tahmin ederseniz, k kutuları ile test istatistiğinin dağılımı χ 2 k ile χ 2 k - p arasındadır .)kχk2χkp2

Bu veri tabanlı kutu seçimi önem düzeyini veya gücü önemli ölçüde etkiliyor mu? Diğerlerinden daha önemli bazı yaklaşımlar var mı? Çok fazla etki varsa, büyük örneklerde kaybolan bir şey var mı?

Eğer önemli bir etkisi varsa, parametreler birçok durumda neredeyse işe yaramazsa (hala birkaç metinde savunulmasına rağmen) ki-kare testi kullanıyorsunuz. parametrenin priori tahmini.

Konuların veya referanslara işaretçilerin tartışılması (tercihen sonuçlarından bahsedilerek) faydalı olacaktır.


Düzenle, ana sorunun hemen hemen bir kenara:

Bana göre, üstel * (ve üniforma düşünmeye gelir) özel durumu için potansiyel çözümler var, ancak hala etki seçme bölmesi sınırlarının daha genel konusuyla ilgileniyorum.

* Örneğin, üstel için, kutuların nereye yerleştirileceği hakkında çok kaba bir fikir edinmek için en küçük gözlem ( eşittir ) kullanılabilir (en küçük gözlem ortalama μ / n ile üstel olduğu için ) ve sonra kalan n - 1 farklarını ( x i - m ) üstellik açısından test edin . Tabii ki bu çok kötü bir tahmin μmμ/nn1ximμve dolayısıyla zayıf çöp kutusu seçimleri olsa da, makul bölmeleri seçmek için en düşük iki veya üç gözlemi almak ve daha sonra kalan gözlemlerin en küçük sipariş istatistiklerinin en büyüğünün üzerindeki farklarını test etmek için argümanı tekrar tekrar kullanabileceğini varsayalım. exponentiality)


1
İlginç soru. Cevabı bilmiyorum, ancak bazı serbestlik derecelerinin kaybolması gerektiği fikri mantıklı. Eğer daha önce görmediyseniz, @whuber'ın bu cevabı düşündürücü olmalıdır: özgürlük derecesi nasıl anlaşılır . Bana öyle geliyor ki, bazı simülasyon çalışmaları, en azından bazı özel durumlar için burada bir görev alabilmenizi sağlamalıdır.
gung - Monica'yı eski durumuna getirin

1
Bunun ne kadar yararlı olduğundan emin değilim, ancak sağlam tahmin alanında benzer bir sorun var. Özellikle, sağlam bir tahmin yöntemi (örneğin, kesilmiş ortalama) genellikle parametreli bir giriş gerektirir (örneğin, ne kadar kırpılacağını tanımlayan parametre). Bu parametre veriye dayalı bir yöntemle seçilebilir (örn. Kırpma parametresini seçmeden önce kuyrukların ne kadar yağ olduğuna bakın). Ancak, kırpma parametresinin önceden seçilmesi, kesilen ortalamanın, örneğin sabit bir parametre kuralına göre dağılımını etkiler. Bu literatürde ele alınmasının olağan yolu bir önyükleme yoluyladır.
Colin T Bowers

@ColinTBowers - potansiyel olarak biraz yararlı, teşekkürler. Önyükleme olasılığı hakkında düşünmedim.
Glen_b

1
Sorunu en basit bir duruma bölmek ilginç olabilir. En sevdiğiniz dağıtımdan sadece 5 gözlem gibi bir şey düşünün ve sadece iki bölme oluşturmak için verilere tek bir bölücü koyun.
zkurtz

Yanıtlar:


15

Ki-kare uyum iyiliği testinin temel sonuçları hiyerarşik olarak anlaşılabilir .

Seviye 0 . Sabit bir olasılık vektörü karşı çokterimli numunenin test edilmesi için klasik Pearson ki-kare test istatistiği olan X- 2 ( p ) = k Σ i = 1 ( X, ( n ) i - n p i ) 2p Burada X, ( n ) i sonuçların sayısını belirtmektedir i büyüklükte bir örnek üzerinden inci hücre n . Bu, meyveli olarak Y n = ( Y ( n ) 1 , , Y ( n ) k ) vektörünün kare normu olarak görülebilir;burada Y ( n ) i = ( X ( n ) i - n p i ) /

X2(p)=i=1k(Xi(n)npi)2npidχk12,
Xi(n)inYn=(Y1(n),,Yk(n)) , çok değişkenli merkezi limit teoremi ile dağılımda Y n d N(0,I-Yi(n)=(Xi(n)npi)/npi Bundan görülür o X'in 2 = Y n 2ki-kare 2 k - 1 beri I -
YndN(0,IppT).
X2=Yn2χk12,k-1rütbesinin idempotentidir.IppTk1

pmpi

X12=i=1k(Xi(n)np^i)2np^idχkm12,

λk

mm=1

X22=i=1k(Xi(n)np^i)2np^idχkm12,
p^i

Z1,,ZnFλλχkm12χk12

YnN(0,IpλpλTA(λ))

λA(λ)

YnB(λ^)

YnTBTBYndχk12,
k

Örnekler Rao – Robson – Nikulin istatistiği ve Dzhaparidze – Nikulin istatistiğidir .

k1/kI^j=μ^+σ^I0,jI0,j=[F1((j1)/k),F1(j/k))

Referanslar

  1. A W. van der Vaart (1998), Asimptotik İstatistikler , Cambridge Üniversitesi Yayınları. Bölüm 17 : Ki-Kare Testleri .

  2. χ2

  3. FC Drost (1989), Sınıf sayısı sonsuzluğa eğilimli olduğunda yer ölçekli modeller için genelleştirilmiş ki-kare uyum iyiliği testleri , Ann. Stat , cilt. 17, hayır. 3, 1285–1300.

  4. MS Nikulin edildi, MS (1973), kaydırma ve ölçek parametreleri sürekli dağıtım için ki-kare testi , Olasılık Teorisi ve Uygulaması , vol. 19, hayır. 3, 559-568'de açıklanmaktadır.

  5. KO Dzaparidze ve MS Nikulin (1973), Pearson standart istatistik bir değişiklik üzerinde , olasılık ve Uygulamaları Teorisi , vol. 19, hayır. 4, 851-853.

  6. KC Rao ve DS Robson (1974), Üstel ailede uyum iyiliği testlerinin ki-kare istatistiği , Comm. Devletçi. , cilt 3, no. 12, 1139-1153.

  7. N. Balakrishnan, V. Voinov ve MS Nikulin (2013), Chi-Squared Uyum Testlerinin Uygulamalarla İyiliği , Academic Press.


5

Soruma en azından kısmi cevaplar buldum, aşağıda. (Hala birisine bonus vermek istiyorum, bu yüzden daha fazla bilgi takdir edildi.)

χkp12p χ12kpχkp2χk2p

Referanslar

Moore DS (1971), Rasgele Hücre Sınırlarına Sahip Bir Ki-Kare İstatistiği , Ann. Matematik. Stat. , Cilt 42, Sayı 1, 147–156.

χ2

χ2

χ2

χ2

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.