Aşağıdaki sorunla ilgili tavsiyelerinizi çok takdir ediyorum:
Ben sıfırlar (~% 95) çok büyük bir sürekli veri kümesi var ve bunun bazı alt kümeleri "ilginç" olup olmadığını test etmek için en iyi yolu bulmak gerekir, yani aynı dağıtımdan çizilmiş gibi görünmüyor geri kalan. Sıfır enflasyon, her veri noktasının hem doğru hem de örnekleme sıfırlarıyla bir sayım ölçümüne dayandığı gerçeğinden kaynaklanır, ancak sonuç, sayım tarafından tartılan diğer bazı parametreleri hesaba kattığı için süreklidir (ve böylece sayım sıfırsa, sonuç aynı zamanda sıfırdır).
Bunu yapmanın en iyi yolu ne olurdu? Wilcoxon ve hatta kaba kuvvet permütasyon testlerinin bu sıfırlar tarafından çarpıtılmalarından dolayı yetersiz olduğunu hissediyorum. Sıfır olmayan ölçümlere odaklanmak da son derece önemli olan gerçek sıfırları kaldırır. Sayım verileri için sıfır şişirilmiş modeller iyi gelişmiştir, ancak benim durumum için uygun değildir.
Verilere bir Tweedie dağıtım uydurma ve daha sonra yanıt = f (subset_label) bir glm uydurma düşündüm. Teorik olarak, bu mümkün görünüyor, ama merak ediyorum (a) bunun aşırıya kaçması ve (b) yine de tüm sıfırların örnek sıfırlar olduğunu varsayalım, yani bir permütasyonla aynı şekilde (en iyi şekilde) önyargılı mı olacak?
Sezgisel olarak, sıfırların oranına dayalı bir binom istatistiğini ve sıfır olmayan değerlerle (veya daha iyi bir şekilde, bir kısmı ile tamamlanmış sıfır olmayan değerlerle hesaplanan bir Wilcoxon istatistiği) birleştiren bir tür hiyerarşik tasarıma sahip gibi görünüyor. sıfırdan önceki bazılarına göre). Bayes ağına benziyor ...
Umarım bu sorunu yaşayan ilk kişi ben değilim, bu yüzden beni uygun mevcut tekniklere yönlendirebilirseniz çok minnettar olurum ...
Çok teşekkürler!