Her gün çok büyük kategorik veri örnekleri (> 1.000.000) topluyorum ve veri toplamadaki hataları tespit etmek için verilerin günler arasında "önemli ölçüde" farklı göründüğünü görmek istiyorum.
Uygun bir test (özellikle bir G-testi) kullanmanın bunun için iyi bir seçim olacağını düşündüm. Beklenen dağılım, bir önceki günün dağılımı ile verilir.
Ancak, örnek boyutlarım çok büyük olduğundan, test çok yüksek güce sahiptir ve birçok yanlış pozitif sonuç verir. Yani, çok küçük bir günlük dalgalanma bile sıfıra yakın bir p değeri verecektir.
Test istatistiğimi, bu oranda veri örneklemenin güzel bir yorumuna sahip olan bir sabit (0.001) ile çarptım. Bu makale bu yaklaşıma katılıyor gibi görünmektedir. Şöyle diyorlar:
Chi kare en çok yaklaşık 100 ila 2500 kişi arasında örnekleri ile güvenilir
Bu konuda daha yetkili yorumlar arıyorum. Veya büyük veri kümelerinde istatistiksel testler yaparken yanlış pozitiflere bazı alternatif çözümler.