Çok büyük numune boyutları için uygunluk

12

Her gün çok büyük kategorik veri örnekleri (> 1.000.000) topluyorum ve veri toplamadaki hataları tespit etmek için verilerin günler arasında "önemli ölçüde" farklı göründüğünü görmek istiyorum.

Uygun bir test (özellikle bir G-testi) kullanmanın bunun için iyi bir seçim olacağını düşündüm. Beklenen dağılım, bir önceki günün dağılımı ile verilir.

Ancak, örnek boyutlarım çok büyük olduğundan, test çok yüksek güce sahiptir ve birçok yanlış pozitif sonuç verir. Yani, çok küçük bir günlük dalgalanma bile sıfıra yakın bir p değeri verecektir.

Test istatistiğimi, bu oranda veri örneklemenin güzel bir yorumuna sahip olan bir sabit (0.001) ile çarptım. Bu makale bu yaklaşıma katılıyor gibi görünmektedir. Şöyle diyorlar:

Chi kare en çok yaklaşık 100 ila 2500 kişi arasında örnekleri ile güvenilir

Bu konuda daha yetkili yorumlar arıyorum. Veya büyük veri kümelerinde istatistiksel testler yaparken yanlış pozitiflere bazı alternatif çözümler.

goodness-of-fit large-data

— tskuzzy
kaynak

3

Güzel bir soru. Ancak, geçici yaklaşımınız için nesnel olarak desteklenebilir bir temel yoktur . Bu, kötü performans göstereceği anlamına gelmez - ancak daha iyi prosedürler olduğunu şiddetle önerir. Bunları bulmak için, ne kadar büyük hatalar olabileceğini, kaç tanesinin meydana gelebileceğini ve sonuçlarının ne olduğunu belirlemeye çalıştığınız bu soruyu düzenleyebilmeniz yardımcı olabilir (a) hatalardan bazılarını tanımlamak ve (b) doğru verileri hata olarak işaretlemek.

— whuber

2

Matematiksel bir bakış açısından, çok büyük ile uyum iyiliği testi gayet iyi - sadece karşılık gelen null hipotezi çok ilginç değil: Neden mümkün olduğunda "evet / hayır" sorusunu sormak istersiniz? "ne kadar" yanıtı alırsınız? Sizin durumunuzda, günlük olarak, her kategori için orantılı değişimi tahmin edebilir, her birine bir güven aralığı ekleyebilir ve 0 civarında önceden tanımlanmış bir tolerans bölgesine çarpıp çarpmadıklarını görebilirsiniz.

n

$n$

— Michael M

'Anlamlı' ve 'yanlış pozitif' gibi terimleri kullanımınız, özellikle testi doğru yapıyorsanız *, bu terimlerin istatistiksel anlamı ile çelişiyor gibi görünmektedir. Teknik anlamda kesinlikle kullanmadığınız sürece bu terimlerden kaçınmanızı öneririm. Temel probleminiz, bunun çok az mantıklı olabileceği durumlarda hipotez testlerini kullanmaktır; basit, teknik olmayan, İngilizce olarak asıl ilgilendiğiniz soru nedir? * (özellikle, önceki günü 'nüfus' olarak kullanmak doğru değildir, değişkenliğine izin vermezseniz - genellikle bugünkü kadar değişkendir)

$\quad$

— Glen_b -Ricatate Monica

4

Test doğru sonucu döndürüyor. Dağıtımlar günden güne aynı değildir. Tabii ki, bu sizin için bir fayda değil. Karşılaştığınız sorun uzun zamandır bilinmektedir. Bakınız: Karl Pearson ve İstatistiksel Testlerde RA Fisher: Doğadan 1935 Değişimi

Bunun yerine önceki verilere (sizinkine veya başka bir yerden) bakabilir ve her kategori için günlük değişikliklerin dağılımını alabilirsiniz. Ardından, o dağıtım göz önüne alındığında mevcut değişikliğin gerçekleşip gerçekleşmeyeceğini kontrol edersiniz. Verileri ve hata türlerini bilmeden daha spesifik olarak cevap vermek zordur, ancak bu yaklaşım probleminize daha uygun görünmektedir.

— Flask
kaynak

4

Devam edelim ve% 5'lik kutsal ineği öldürelim.

(Doğru) sorunun testin coşkulu gücüyle ilgili olduğuna dikkat çektiniz. Bunu, daha geleneksel bir değer olan% 80 gibi, daha alakalı bir güce doğru yeniden kalibre etmek isteyebilirsiniz:

Tespit etmek istediğiniz efekt boyutuna karar verin (örneğin,% 0,2 kayma)
Güçlendirilmemesi için sizin için yeterince iyi olan güce karar verin (örneğin, $1-\beta=80\%)$
Work geri varolan teorinin Pearson testi test pratik yapacak düzeyini belirlemek için.

Eşit olasılıklı 5 kategoriniz olduğunu varsayalım, ve alternatifiniz . Yani , . Asimptotik dağılım merkezi olmayan ki-kare olup (# kategori-1) = 4 df ve merkezi olmayan parametre Bununla büyük değeri , bu yakındır . % 80 kiremit $p_1=p_2=p_3=p_4=p_5=0.2$ $p+\delta/\sqrt{n}=(0.198,0.202,0.2,0.2,0.2)$ $n=10^6$ $\delta=(-2,+2,0,0,0)$ $k=$

λ = \sum_{j} δ_{j}^{2} / p_{j} = 4 / 0.2 + 4 / 0.2 = 40

$\lambda=\sum_j \delta_j^2/p_j = 4/0.2 + 4/0.2 = 40$

λ

$\lambda$

N (μ = λ + k = 44, σ^{2} = 2 (k + 2 λ) = 168)

$N(\mu=\lambda+k=44,\sigma^2=2(k+2\lambda)=168)$

44 + 13 \cdot Φ^{- 1} (0.8) = 44 + 13 \cdot 0.84 = 54.91

$44+13\cdot\Phi^{-1}(0.8)=44+13\cdot0.84=54.91$ . Bu nedenle, test için arzu ettiğiniz seviye, ters kuyruk cdf'sidir: Bu, yapmanız gereken seviye olacaktır % 0,2'lik farkları tespit etme gücünün% 80 olması için verilerinizi test etmeyi düşünün.

χ_{4}^{2}

$\chi^2_4$

P r o b [χ_{4}^{2} > 54.91] = 3.3 \cdot 10^{- 11}

${\rm Prob}[\chi_4^2>54.91]=3.3\cdot10^{-11}$

(Lütfen matememi kontrol edin, bu bir testin saçma seviyesidir, ancak Büyük Verilerinizle istediğiniz şey buydu, değil mi? Öte yandan, Pearson rutin olarak bir çift aralığında görürseniz yüz, bu eğlendirmek için tamamen anlamlı bir kritik değer olabilir.) $\chi^2$

Bununla birlikte, hem sıfır hem de alternatif için yaklaşımların kuyruklarda kötü çalışabileceğini unutmayın, bu tartışmaya bakın .

— StasK
kaynak

2

Bu durumlarda profesörüm, ki-kare istatistiğine dayanan bir birlik ölçüsü olan Cramér'in V'sini hesaplamayı önerdi. Bu size güç vermeli ve testin aşırı duyarlı olup olmadığına karar vermenize yardımcı olmalıdır. Ancak, V'yi G2 testlerinin geri döndürdüğü istatistiklerle kullanıp kullanamayacağınızdan emin değilim.

Bu, V'nin formülü olmalıdır:

ϕ_{c} = \sqrt{\frac{χ^{2}}{n (k - 1)}}

$\phi_c=\sqrt{\frac{\chi^2}{n(k-1)}}$

burada , gözlemlerin toplamıdır ve , hangisi daha azsa, satır sayısı veya sütun sayısıdır. Ya da uyum iyiliği testleri için görünüşe göre hayırdır. satır. $n$ $k$ $k$

— wal
kaynak

0

Bir yaklaşım, uyum iyiliği testlerini daha küçük veri bloklarında gerçekleştirerek daha anlamlı hale getirmektir.

Verilerinizi belirli bir günden, her biri 1000 örneğin 1000 bloğuna bölebilir ve her bir blok için ayrı ayrı bir uyum iyiliği testi çalıştırabilirsiniz, beklenen dağılım bir önceki günden tam veri kümesi tarafından verilir. Her bir test için önem düzeyini kullandığınız seviyede tutun (örn. ). Daha sonra, beklenen pozitif sayı sayısından beklenen pozitif test sayısının önemli ölçüde ayrılmasına bakın (dağılımlarda hiçbir fark olmadığı sıfır hipotezi altında, toplam pozitif test sayısı, ikili parametresi ile binom olarak dağıtılır ). $\alpha = 0.05$ $\alpha$

Dağılımın aynı olduğunu varsayabileceğiniz iki günlük veri kümeleri alarak ve hangi blok boyutunun kabaca alpha'a eşit bir pozitif test sıklığı verdiğini (yani, blok boyutunun durduğunu) kullanarak kullanmak için iyi bir blok boyutu bulabilirsiniz. sahte farkları bildirmekten sınayın). $\alpha$

— CJ Stoneking
kaynak

Bu yaklaşımın "daha anlamlı" olacağı konusunu biraz açıklayabilir misiniz?

— whuber

İstatistiksel önem ile gerçek dünya öneminin karşılaştırması. 10 ^ 6 numune yerine 10 ^ 3 kullanıldığında, tek bir testin gücü kasten azaltılır, bu nedenle sıfır hipotezinin reddedilmesi büyük uyumsuzluğa karşılık gelir. Bu, OP'nin "küçük günlük dalgalanma" yı umursamaması nedeniyle tek bir testin sonucunu daha anlamlı hale getirir. 10 ^ 6 numune için, test küçük farklar nedeniyle her zaman H0'ı reddedebilir, bu nedenle test sonucunun anlamlı bilgiler gösterip göstermediği açık değildir.

— CJ Stoneking

1

Teşekkür ederim: Yorumunuz, temel soru olduğunu düşündüğüm şeye dayanmaya başlayan ilginç ve önemli sorunları gündeme getiriyor; yani, hataları tespit etmek için veriler arasındaki farklar nasıl ölçülmeli ve bir farkın ne kadar büyük bir endişe kaynağı olacaktır? Cevabınız bazı durumlarda uygun olsa da, verilerde meydana gelebilecek hataların birçoğunu etkili bir şekilde tespit etmesi olası değildir ve aynı zamanda hangi boyutta veri bloklarının kullanılması gerektiğine dair (doğal) soruyu açık bırakır.

— whuber

@whuber, sorun öyle bir şekilde yeniden tanımlanabilir mi?

— Vass