Sıfır şişirilmiş veri nasıl test edilir / kanıtlanır?


9

Basit olması gerektiğini düşündüğüm bir sorunum var ama bunu tam olarak anlayamıyorum. Tohum tozlaşmasına bakıyorum, kümelerde çiçek açan bitkilerim (n = 36) var, her bitkiden 3 çiçek kümesi ve her kümeden 6 tohum kapsülü (her bitkiden toplam 18 tohum kapsülü) var. Bir bakla, 0 ila en fazla 4 tohum tozlaşabilir. Böylece, veriler üst sınır ile sayılır. Tohumların ortalama ~% 10'unun tozlaştığını görüyorum, ancak belirli bir tesiste% 1-30 arasında herhangi bir yerde, bu yüzden dağınık veriler üzerinde ve tabii ki, 3 tesiste 4 eksik küme kopyası var, bu yüzden mükemmel simetrik değil .

Sorduğum soru, bu verilerin bu bitkinin tohum seti için tozlaştırıcılar gerektirdiği fikrini destekleyip desteklemediğidir.

Bir bakladaki tohum sayısının dağılımının, 0'dan daha fazla tozlaşmış tohum kapsülü (16'dan 6-9 bakla) ve daha fazla 3 ve 4 tozlaştırılmış tohum baklası (her biri için 2-4) gibi göründüğünü görüyorum. popülasyondaki tohumlar rasgele tozlaşırsa beklenmelidir. Temel olarak, bu sıfır şişirilmiş veri için klasik bir örnek olduğunu düşünüyorum, ilk önce bir böcek ya çiçek hiç ziyaret etmez ya da ziyaret etmez (bir sıfır jeneratör) ve eğer öyleyse, başka bir dağıtımda tohumların 0-4'ünü tozlaştırır. Alternatif hipotez, bitkinin kısmen selfing olmasıdır ve daha sonra her tohumun aynı tozlaşma olasılığına sahip olması beklenir (bu veriler kabaca 0.1 şansı gösterir, bu da aynı bölmedeki iki tohum için 0.01 şans anlamına gelir) .

Ama sadece veriyi bir ZIP veya ZINB yapmak değil, bir veya diğer dağıtım için en uygun veri göstermek istiyorum. Hangi yöntemi kullanırsam kullanın, tozlaşmış tohumların gerçek sayısını ve her bir bitkiden örneklenen bakla sayısını dikkate alması gerektiğini düşünüyorum. Geldiğim en iyi şey, belirli bir bitki için tozlaşan tohumların sayısını rastgele örneklediğim tohum baklalarının sayısına atadığım, 10.000 kez yaptığım ve ne kadar olası olduğunu görebildiğim bir çeşit çizme kayışı işi yapmak. verilen bitki için deneysel veriler bu rastgele dağılımdan çıktı.

Sadece bu konuda kaba kuvvet önyüklemesinden çok daha kolay olması gereken bir şey olduğunu hissediyorum, ama günlerce düşündükten ve aradıktan sonra pes ediyorum. Sadece bir Poisson dağılımı ile kıyaslayamıyorum çünkü üst sınır, binom değil çünkü beklenen dağılımı bir şekilde üretmem gerekiyor. Düşüncesi olan var mı? Ve ben orada R tavsiye kullanıyorum (özellikle en zarif şekilde her biri en fazla 4 top içerebilen 16 kutuya 10.000 rasgele n dağıtımını nasıl oluşturabileceğiniz) en hoş olurdu.

ADDED 9/07/2012 İlk olarak, tüm ilginiz ve yardımlarınız için hepinize teşekkürler. Cevapları okumak, sorumu biraz yeniden gözden geçirmemi sağladı. Söylediğim şey, tohumların baklalar arasında rastgele tozlaştığına dair bir hipotezim (şu an null olarak düşünüyorum) ve alternatif hipotezim, en az 1 tozlaşmış tohumu olan bir tohum kapsülünün rastgele bir işlemle beklenenden daha fazla tozlaşmış tohumlara sahip olmak. Neden bahsettiğimi göstermek için üç tesisten gerçek veriler verdim. İlk sütun, bir bakladaki tozlaşan tohumların sayısıdır, ikinci sütun, o tohum sayısına sahip baklaların sıklığıdır.

bitki 1 (toplam 3 tohum:% 4 tozlaşma)

num.seeds :: pod.freq

0 :: 16

1 :: 1

2 :: 1

3 :: 0

4 :: 0

bitki 2 (toplam 19 tohum:% 26 tozlaşma)

num.seeds :: pod.freq

0 :: 12

1 :: 1

2 :: 1

3 :: 0

4 :: 4

bitki 3 (toplam 16 tohum:% 22 tozlaşma)

num.seeds :: pod.freq

0 :: 9

1 :: 4

2 :: 3

3 :: 2

4 :: 0

1 numaralı tesiste, 18 kapsülde sadece 3 tohum tozlaştı, bir kapsülün bir tohumu vardı ve bir kapsülün iki tohumu vardı. Podlara rastgele bir tohum ekleme işlemini düşünerek, ilk iki tohumun her biri kendi kapsülüne girer, ancak 3. tohum için, zaten bir tohum bulunan ancak 16 kapsülde 64 nokta olan baklalarda 6 nokta vardır. tohumsuz, bu nedenle burada 2 tohumlu bir kapsülün en yüksek olasılığı 6/64 = 0.094'tür. Bu biraz düşük, ama gerçekten aşırı değil, bu yüzden bu bitkinin ~% 4'lük bir tozlaşma şansı ile tüm tohumlarda rastgele tozlaşma hipotezine uyduğunu söyleyebilirim. Ama bitki 2 bana çok daha aşırı görünüyor, 4 bakla tamamen tozlaştı, ancak hiçbir şey olmadan 12 bakla. Bu dağılımın olasılıklarını doğrudan nasıl hesaplayacağımı tam olarak bilmiyorum (bu nedenle bootstrap fikrim), ancak her tohumun ~% 25'lik bir tozlaşma şansı oldukça düşükse, bu dağılımın rastgele meydana gelme olasılığını tahmin ediyorum. Bitki # 3 Gerçekten hiçbir fikrim yok, bence rastgele bir dağılım için beklenenden daha fazla 0 ve 3'ler var, ancak bağırsak hissim, bu sayıdaki tohum için bu dağılımın bitki # 2'nin dağılımından çok daha fazla olması, ve bu pek olası olmayabilir. Ama belli ki ve tüm bitkiler arasında bilmek istiyorum. Ben rastgele bir dağıtım için beklenenden daha fazla 0 ve 3 olduğunu düşünüyorum ama bağırsak hissi bu tohum sayısı için bu dağılım bitki # 2 dağıtımından çok daha muhtemel olduğunu ve bu olası olmayabilir. Ama belli ki ve tüm bitkiler arasında bilmek istiyorum. Ben rastgele bir dağıtım için beklenenden daha fazla 0 ve 3 olduğunu düşünüyorum ama bağırsak hissi bu tohum sayısı için bu dağılım bitki # 2 dağıtımından çok daha muhtemel olduğunu ve bu olası olmayabilir. Ama belli ki ve tüm bitkiler arasında bilmek istiyorum.

Sonunda “Tozlaşmış tohumların tohum kabuklarındaki dağılımı, bitkilerin kısmen kendi kendine uyumlu olmadığı, ancak tohum setini etkilemek için bir tozlaştırıcının ziyaret edilmesini gerektiren hipoteze uyuyor (veya uymuyor). (istatistiksel test sonuçları). ” Bu gerçekten ileriye dönük bölümümün bir parçası, burada hangi deneylerin yapılacağı hakkında konuşuyorum, bu yüzden bunun bir şey ya da diğeri olması için umutsuz değilim, ancak mümkünse kendim için bilmek istiyorum. Bu verilerle yapmaya çalıştığım şeyi yapamazsam, bunu da bilmek istiyorum!

İlk başta oldukça geniş bir soru sordum, çünkü verilerin ilk başta sıfır şişirilmiş bir modele girip girmeyeceğini göstermek için iyi testler olup olmadığını merak ediyorum. Gördüğüm tüm örnekler şöyle görünüyor: “Bakın, burada çok sayıda sıfır var ve bunun için makul bir açıklama var, bu yüzden sıfır şişirilmiş bir model kullanalım”. Şu anda bu forumda yaptığım şey bu, ancak sayım verileri için Poisson glm kullandığım son bölümümde bir deneyim yaşadım ve danışmanlarımdan biri “Hayır, glm'ler çok karmaşık ve gereksiz, bu veriler bir acil durum tablosuna gidin ”ve ardından bana tüm önemli faktörlerim + etkileşimlerim için üç anlamlı basamağa aynı p değerlerini veren pahalı istatistik paketlerinin oluşturduğu büyük acil durum tablosunun bir veri dökümünü gönderdi !! Bu yüzden istatistikleri açık ve basit tutmaya çalışıyorum, ve şu anda sıfır şişirilmiş bir model için yapabileceğimi hissetmediğim seçimlerimi sağlam bir şekilde savunacak kadar iyi anladığımdan emin olun. Hem quasibinomial (pesudoreplicaiton'dan kurtulmak için tüm bitkiler için) hem de tedavileri karşılaştırmak ve ana deneysel sorularımı cevaplamak için yukarıdaki veriler için karışık bir model kullandım, ya da aynı işi yapacağım, ama ben de yapacağım Bunun ne kadar iyi performans gösterdiğini görmek için bu gece ZINB ile oyna. Bu verilerin ilk başta güçlü bir şekilde kümelendiğini (veya sıfır şişirildiğini) açıkça gösterebilirsem, daha sonra bu durum için iyi bir biyolojik neden sağlarsam, daha sonra bir ZINB çıkarmak için daha iyi ayarlanacağım. sadece birini kuasibinomiyal / karışık bir modelle karşılaştırın ve daha iyi sonuçlar verdiği için tartışın, bunu kullanmalıyım. şu anda sıfır şişirilmiş bir model için yapabileceğimi hissetmiyorum. Hem quasibinomial (pesudoreplicaiton'dan kurtulmak için tüm bitkiler için) hem de tedavileri karşılaştırmak ve ana deneysel sorularımı cevaplamak için yukarıdaki veriler için karışık bir model kullandım, ya da aynı işi yapacağım, ama ben de yapacağım Bunun ne kadar iyi performans gösterdiğini görmek için bu gece ZINB ile oyna. Bu verilerin ilk başta güçlü bir şekilde kümelendiğini (veya sıfır şişirildiğini) açıkça gösterebilirsem, daha sonra bu durum için iyi bir biyolojik neden sağlarsam, daha sonra bir ZINB çıkarmak için daha iyi ayarlanacağım. sadece birini kuasibinomiyal / karışık bir modelle karşılaştırın ve daha iyi sonuçlar verdiği için tartışın, bunu kullanmalıyım. şu anda sıfır şişirilmiş bir model için yapabileceğimi hissetmiyorum. Hem quasibinomial (pesudoreplicaiton'dan kurtulmak için tüm bitkiler için) hem de tedavileri karşılaştırmak ve ana deneysel sorularımı cevaplamak için yukarıdaki veriler için karışık bir model kullandım, ya da aynı işi yapacağım, ama ben de yapacağım Bunun ne kadar iyi performans gösterdiğini görmek için bu gece ZINB ile oyna. Bu verilerin ilk başta güçlü bir şekilde kümelendiğini (veya sıfır şişirildiğini) açıkça gösterebilirsem, daha sonra bu durum için iyi bir biyolojik neden sağlarsam, daha sonra bir ZINB çıkarmak için daha iyi ayarlanacağım. sadece birini kuasibinomiyal / karışık bir modelle karşılaştırın ve daha iyi sonuçlar verdiği için tartışın, bunu kullanmalıyım. Hem quasibinomial (pesudoreplicaiton'dan kurtulmak için tüm bitkiler için) hem de tedavileri karşılaştırmak ve ana deneysel sorularımı cevaplamak için yukarıdaki veriler için karışık bir model kullandım, ya da aynı işi yapacağım, ama ben de yapacağım Bunun ne kadar iyi performans gösterdiğini görmek için bu gece ZINB ile oyna. Bu verilerin ilk başta güçlü bir şekilde kümelendiğini (veya sıfır şişirildiğini) açıkça gösterebilirsem, daha sonra bu durum için iyi bir biyolojik neden sağlarsam, daha sonra bir ZINB çıkarmak için daha iyi ayarlanacağım. sadece birini kuasibinomiyal / karışık bir modelle karşılaştırın ve daha iyi sonuçlar verdiği için tartışın, bunu kullanmalıyım. Hem quasibinomial (pesudoreplicaiton'dan kurtulmak için tüm bitkiler için) hem de tedavileri karşılaştırmak ve ana deneysel sorularımı cevaplamak için yukarıdaki veriler için karışık bir model kullandım, ya da aynı işi yapacağım, ama ben de yapacağım Bunun ne kadar iyi performans gösterdiğini görmek için bu gece ZINB ile oyna. Bu verilerin ilk başta güçlü bir şekilde kümelendiğini (veya sıfır şişirildiğini) açıkça gösterebilirsem, daha sonra bu durum için iyi bir biyolojik neden sağlarsam, daha sonra bir ZINB çıkarmak için daha iyi ayarlanacağım. sadece birini kuasibinomiyal / karışık bir modelle karşılaştırın ve daha iyi sonuçlar verdiği için tartışın, bunu kullanmalıyım.

Ancak birincil sorumdan çok fazla dikkat çekmek istemiyorum, verilerimin rastgele bir dağılımdan beklenenden daha fazla şişirilmiş olup olmadığını nasıl belirleyebilirim? Benim durumumda bunun cevabı benim için gerçekten önemli olan şeydir ve model gerekçelendirmenin bir avantajı olabilir.

Tüm zaman ve yardımlarınız için tekrar teşekkürler!

Şerefe, BWGIA


neden sıfır şişirilmiş binom modeline uymak istemiyorsunuz?
atiretoo - reinstate monica

"kısmi selfing" hipotezi "tozlayıcı" hipotezi için midir? Eğer öyleyse, 2. modeliniz basitçe p ve size = 4 olasılığı olan bir binom modeli olacaktır.
atiretoo - reinstate monica

Yanıtlar:


5

Bu benim için nispeten basit (doğrusal olmayan) karışık bir model gibi görünüyor. Bitkiler içine yerleştirilmiş kümelere yerleştirilmiş tohum kabuklarınız var ve her aşamada rastgele efektlere sahip bir binom modeli takabilirsiniz:

    library(lme4)
    binre <- lmer( pollinated ~ 1 + (1|plant) + (1|cluster), data = my.data, family = binomial)

ya da eğer onlara sahipseniz Çiçekler kendiliğinden tozlaşırsa, bitkilerin kendi başına ne kadar yaşayabilir olduğu konusunda doğal değişkenlik nedeniyle bazı hafif etkiler görebilirsiniz. Bununla birlikte, yanıttaki değişkenliğin çoğu, söz konusu küme değişkenliği tarafından yönlendirilirse, bir bitki üzerinde yalnızca seçilen kümeleri ziyaret edebilecek böcekler tarafından tozlaşma konusunda daha güçlü bir kanıtınız olacaktır. İdeal olarak, Gauss yerine rastgele etkilerin parametrik olmayan bir dağılımını istersiniz: böcek ziyareti için sıfırda bir nokta kütlesi ve pozitif bir değerde bir nokta kütlesi - bu esasen Michael Chernick'in düşündüğü karışım modelidir. Bunu GLLAMM Stata paketi ile sığdırabilirsiniz , R'de mümkün olmasaydı şaşırırdım .

Muhtemelen temiz bir deney için bitkileri içeride veya en azından böcek erişimi olmayan bir yerde tutmak ve kaç tohumun tozlaşacağını görmek istersiniz. Bu muhtemelen tüm sorularınızı daha metodolojik olarak titiz bir şekilde cevaplayacaktır.


Bunu deneyeceğim, kendi sorularımı kendim cevaplamaya yardımcı olacağını düşünüyorum, ancak başkalarını nasıl ikna edeceğinden emin değilim. İkinci bölümle ilgileniyorsunuz, bu verinin gelecekteki daha yönlendirilmiş bir deneyi nasıl bilgilendirdiğini düşünmeye çalışıyorum.
BWGIA

1

Bana bunun her bir böcek için bir karışım dağılımı olduğu anlaşılıyor. Olasılıkla p, 1-p olasılıklı arazi yapar, 0 ila 4 tohum alır ve dağıtır. Ancak, böceklerin bitkinin üzerine çıkıp çıkmadığı hakkında hiçbir bilginiz yoksa, 0'ı elde etmenin iki yolunu ayırt edemezsiniz. Böylece p'nin 0 için olasılık olmasına izin verebilirsiniz ve daha sonra multinom dağılımına sahipsiniz (p1, p2, p3, p4) burada pi, p1 + p2 + p3 + p4 = 1 kısıtlamasına tabi olan böcek polinatları verilen i tohumlarının olasılığıdır. Model, her i için 0 = 0 kısıtlaması ile beş bilinmeyen p, p1, p2, p3, p4'e sahiptir. Yeterli veriyle, belki de sınırlı bir maksimum olabilirlik yaklaşımı kullanarak bu parametreleri tahmin edebilmelisiniz.


Katılıyorum, ancak soru bu modele uymak değil, iki farklı biyolojik hipotez altında öngörülen dağılımlar oluşturmaktır. Belki de cevap, bir ZIB ve selfing hipoteziyle eşleşen "başka bir modele" uymak ve bunları karşılaştırmaktır.
atiretoo - reinstate monica

@atiretoo, model size, varsayılan dağıtımınızla karşılaştırabileceğiniz tozlaşan tohum sayısı için tahmini bir dağıtım sağlamıyor mu?
Michael R. Chernick

Kabul edildi - 2 hipotez için doğru modellere sahipseniz.
atiretoo - reinstate monica

1

Bu, sorunuzun son kısmına, tozlayıcı hipotezi için istediğiniz verileri nasıl hızlı bir şekilde oluşturacağınıza bir cevaptır:

n = 16
max = 4
p1 = 0.1
p2 = 0.9
Y1 = rbinom(10000*n,1,p1)
Y2 = matrix(Y1*rbinom(10000*n,4,p2),ncol=16)

rzibinom()VGAM paketinde de kullanabilirsiniz . Bununla ne yapmak istediğinden emin olmasam da. Tahmin edilmesi gereken 2 ücretsiz parametreniz var, p1 ve p2. Verilerden tahmin etmek için neden sıfır şişirilmiş bir binom modeli kullanmıyorsunuz?

Diğerlerinin yanı sıra ZIB modellerine uyan VGAM paketine bakmalısınız. Aslında, dzibinom()ziyaret ve tozlaşma parametrelerini biliyorsanız, gözlemlediğiniz dağılımı karşılaştırmak için kullanabileceğiniz VGAM işlevinden bir ZIB için beklenen dağılımı alabilirsiniz . Yine, gerçekten ZIB modeline uymalısınız.

Kısmi selfing hipoteziniz böcek tozlaşmasına özelse, beklenen dağılım sadece binomdur ve rastgele bir etki olarak binom ailesi bir glm veya belki bitki kimliğine sahip bir glmm ile parametreleri tahmin edebilirsiniz. Bununla birlikte, kısmi kendilik VE böcek tozlaşması alabilirlerse, iki binom dağılımının bir karışımına ihtiyacınız vardır. Bu durumda MCMC kullanarak modele uyması için OpenBUGS veya JAGS kullanarak araştırma yapardım.

İki modeli verilerinize taktıktan sonra, AIC veya BIC veya seçtiğiniz başka bir metriği kullanarak hangisinin daha iyi uyduğunu görmek için modelleri karşılaştırırsınız.


Bu atiretoo için teşekkürler, ancak bu kodu çalıştırmak rastgele sayıda tohum yanı sıra rastgele bir dağıtım oluşturuyor gibi görünüyor. Tohum yumrularının sabitlenmesini istediğimi düşünüyordum (19 tohum söyleyin, aşağıya bakın) ve daha sonra belirli bir yumru için belirli bir dağılımın ne kadar olası olduğunu görün
BWGIA

Opps, yazıyı çok yakında vurdum ve soruma biraz bilgi eklediğim için "yukarıya bakın" demek istedim. Modelleri karşılaştırmak için AIC'yi kullanma hakkındaki yorumunuzla ilgileniyorum, bunu farklı dağılımlarla modeller arasında (aynı yanıt değişkeniyle) yapabilir miyim? AIC karşılaştırmasının yalnızca bir modele terim eklediğinizde / bıraktığınızda, ancak aynı dağıtım ailesi belirtildiğinde geçerli olduğunu düşündüm.
BWGIA

Hayır, AIC'nin geriye doğru seçime göre en önemli avantajı budur. Veriler aynı olduğu sürece, iç içe geçmiş olmasalar bile farklı modeller arasındaki AIC'yi karşılaştırabilirsiniz. Yazılımın sabitleri dışarıda bırakmadan olasılıkları hesapladığına dikkat etmelisiniz, ancak tek bir işlev içinde iç içe olmayan modelleri kolaylıkla karşılaştırabilirsiniz.
atiretoo - reinstate monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.