Sıfır şişirilmiş sürekli veriler üzerinde hipotez testi


10

Aşağıdaki sorunla ilgili tavsiyelerinizi çok takdir ediyorum:

Ben sıfırlar (~% 95) çok büyük bir sürekli veri kümesi var ve bunun bazı alt kümeleri "ilginç" olup olmadığını test etmek için en iyi yolu bulmak gerekir, yani aynı dağıtımdan çizilmiş gibi görünmüyor geri kalan. Sıfır enflasyon, her veri noktasının hem doğru hem de örnekleme sıfırlarıyla bir sayım ölçümüne dayandığı gerçeğinden kaynaklanır, ancak sonuç, sayım tarafından tartılan diğer bazı parametreleri hesaba kattığı için süreklidir (ve böylece sayım sıfırsa, sonuç aynı zamanda sıfırdır).

Bunu yapmanın en iyi yolu ne olurdu? Wilcoxon ve hatta kaba kuvvet permütasyon testlerinin bu sıfırlar tarafından çarpıtılmalarından dolayı yetersiz olduğunu hissediyorum. Sıfır olmayan ölçümlere odaklanmak da son derece önemli olan gerçek sıfırları kaldırır. Sayım verileri için sıfır şişirilmiş modeller iyi gelişmiştir, ancak benim durumum için uygun değildir.

Verilere bir Tweedie dağıtım uydurma ve daha sonra yanıt = f (subset_label) bir glm uydurma düşündüm. Teorik olarak, bu mümkün görünüyor, ama merak ediyorum (a) bunun aşırıya kaçması ve (b) yine de tüm sıfırların örnek sıfırlar olduğunu varsayalım, yani bir permütasyonla aynı şekilde (en iyi şekilde) önyargılı mı olacak?

Sezgisel olarak, sıfırların oranına dayalı bir binom istatistiğini ve sıfır olmayan değerlerle (veya daha iyi bir şekilde, bir kısmı ile tamamlanmış sıfır olmayan değerlerle hesaplanan bir Wilcoxon istatistiği) birleştiren bir tür hiyerarşik tasarıma sahip gibi görünüyor. sıfırdan önceki bazılarına göre). Bayes ağına benziyor ...

Umarım bu sorunu yaşayan ilk kişi ben değilim, bu yüzden beni uygun mevcut tekniklere yönlendirebilirseniz çok minnettar olurum ...

Çok teşekkürler!


Güncelleme. Şimdiye kadar, bu makalede benimkine benzer bir sorunu ele aldım
a11msp

Sıfırların mutlak çoğunluğu oluşturduğu göz önüne alındığında, bu son derece basitleştirilmiş yaklaşımın anlamlı olup olmayacağını merak ediyorum: 1) her alt kümedeki sıfırların oranını bulun. 2) en az sayıda sıfır içeren alt kümede tüm sıfırların doğru olduğunu varsayalım. 3) her alt kümeden, en "sıfırdan zengin" veri kümesindeki sıfırların oranına eşit olan sıfır oranını kaldırın. 4) değiştirilmiş bu veri kümesinde standart parametrik olmayan istatistikleri çalıştırın.
a11msp

İlk yorumunuzdaki makaleye verilen köprü ölü gibi görünüyor. Bunun yerine bir alıntı yapabilir misiniz?
coip

1
Bunu işaret ettiğiniz
a11msp

Yanıtlar:


9

@msp, bu ekte iki aşamalı bir modele baktığınızı düşünüyorum (okumak için zamanım yoktu), ancak sıfır şişirilmiş sürekli veri çok çalıştığım tiptir. Bu verilere bir parametrik model sığdırmak için (hipotez testlerine izin vermek için) iki aşamaya sığabilirsiniz, ancak iki modeliniz vardır (Y hedeftir ve X ortak değişkenlerdir): P (Y = 0 | X) ve P (Y | X, Y,> 0). Bunları bir araya getirmek için simülasyon kullanmalısınız. Gelmans kitabı (ve R'deki kol paketi) bu tam model için bu işlemi gösterir (lojistik regresyon ve log linkli sıradan lineer regresyon kullanarak).

Gördüğüm ve daha çok sevdiğim diğer seçenek, yukarıdakiyle aynı olan sıfır şişirilmiş bir gama regresyonuna uymaktır (ancak guassian yerine hata olarak gama) ve bunları P (Y | X) üzerinde hipotez testleri için bir araya getirebilirsiniz. . Bunu R'de nasıl yapacağımı bilmiyorum, ama SAS NLMIXED'de yapabilirsiniz. Bu gönderiye bakın , iyi çalışıyor.


@B_Miner, Cevabınız için çok teşekkürler, üzgünüm size oy vermek için yeterli dereceye sahip değilim ... Bağlantılara bir göz atacağım! Koşullu modeller hakkındaki tek endişem, sıfırların ikinci (sürekli) bileşene ait olamayacağını varsaymalarıdır, değil mi? Ortamım bir karışım modeli gibi hissetmiyor mu? Ne düşünüyorsun?
a11msp

Şimdi Gelman kitabında önerilen iki aşamalı yaklaşımı tekrarladım. Alt küme_faktörü (25 düzeyli) alt küme etiketi olarak işlev görürse, ilk adım fit1 = glm'dir (yanıt ~ alt küme_faktörü, aile = binom); ve ikinci adım fit2 = lm'dir (yanıt ~ alt küme_faktörü, alt küme = yanıt> 0). Daha sonra her bir faktör seviyesi için takılmış cevap değerlerinin dağılımını elde etmek için tarif ettikleri gibi simülasyonları çalıştırabilirim. Ancak, hala bunu ihtiyacım olan şeye nasıl çevireceğimden emin değilim, yani (a) katsayıların sıfır olma olasılığı ve (b) farklı faktör düzeylerindeki katsayılar arasındaki farkın önemi.
a11msp

İki aşamalı yaklaşım (iki ayrı modelin Gelman yöntemi), sıfır olan ve yukarıdaki iki popülasyonu varsayar.
B_Miner

... bu nedenle, Gelman'ın yöntemindeki iki modelden herhangi birinde bir faktör seviyesinin etkisi önemliyse (ve diğer faktör düzeyinden önemli ölçüde farklıysa) genel olarak anlamlı olduğunu söylemek uygun olur mu?
29.11.2018

1
Evet, iki aşamalı yaklaşım (iki ayrı modelin Gelman yöntemi) sıfır olan ve> 0 olan iki popülasyon olduğunu varsayar. Hipotez testlerine göre, bunları değişken girdiler için öngörülen değerler açısından çerçeveleyebilir ve ampirik oluşturabilirsiniz. her biri için simülasyonlarla ilgili güven aralıkları? = 0 katsayısı için hipotez testleri için, bunu her iki model için ayrı ayrı test etmeniz gerekir.
B_Miner

2

Fletcher belgesine benzer bir yaklaşım, pazarlama testlerinde de kullanılmaktadır; burada müdahalelerin (reklam gibi) etkilerini (a) markayı satın alan sayıda (yani sıfırların oranı) ve (b) a grubu satın alma sıklığındaki değişiklik (satışlar satışta gerçekleşir). Bu sağlam bir yaklaşım ve pazarlama bağlamında ve Fletcher'ın tartıştığı ekolojik bağlamda kavramsal olarak anlamlı. Aslında bu, (c) her satın alma işleminin boyutundaki bir değişikliğe genişletilebilir.


Teşekkürler! Bunun mevcut bir r uygulamasının farkında olup olmadığınızı merak ediyorum.
a11msp

1

Tam olarak bilinmeyen sıfır sayısını tedavi edebilirsiniz, ancak 0 ile gözlemlenen sıfır sayısı arasında kısıtlanmış olabilir. Bu kesinlikle modelin bir Bayes formülasyonu kullanılarak ele alınabilir. Belki de sıfır gözlemlerin ağırlıklarını (0 ile 1 arasında) uygun şekilde değiştirmek için çoklu impütasyon yöntemi de ayarlanabilir ...

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.