Yüzde verilerinin dağılımı


11

Verilerimle bir model oluşturmak için kullanılacak doğru dağıtım hakkında bir sorum var. 50 arsa ile bir orman envanteri yaptım, her arsa 20m × 50m ölçülerinde. Her arsa için, zemini gölgeleyen ağaç gölgelik yüzdesini tahmin ettim. Her çizimin gölgelik örtüsü için yüzde olarak bir değeri vardır. Yüzdeler 0 ila 0.95 arasındadır. Uydu görüntülerine ve çevresel verilere dayanan bağımsız X değişkenlerinden oluşan bir matris ile yüzde ağaç gölgelik örtüsü modeli ( Y değişkeni) yapıyorum .

Binom dağılımını kullanmam gerekip gerekmediğinden emin değilim, çünkü binom rasgele değişken n bağımsız denemenin (yani Bernoulli rasgele değişkenler) toplamıdır . Yüzde değerleri denemelerin toplamı değildir; gerçek yüzdelerdir. Üst sınırı olmasa da gama kullanmalı mıyım? Yüzdeleri tam sayıya dönüştürmeli ve Poisson'u sayı olarak kullanmalı mıyım? Sadece Gaussian'a sadık kalmalı mıyım? Literatürde veya yüzdeleri bu şekilde modellemeye çalışan ders kitaplarında pek fazla örnek bulamadım. Herhangi bir ipucu veya öngörü takdir edilmektedir.


Cevaplarınız için teşekkür ederim. Aslında, beta dağıtımı tam olarak ihtiyacım olan şey ve bu makalede ayrıntılı olarak tartışılıyor:

Aşağıdaki makalede, beta-dağıtılmış yanıt değişkenini, yüzdeler aralığında gerçek 0 ve / veya 1 içerdiğinde dönüştürmenin iyi bir yolu açıklanmaktadır:



2
Cevaplarınız için teşekkür ederim. Aslında, beta dağılımı tam olarak ihtiyacım olan şey ve bu makalede ayrıntılı olarak tartışılıyor: Eskelson, BN, Madsen, L., Hagar, JC ve Temesgen, H. (2011). Beta regresyon ve kopula modelleri ile Riparian bitki örtüsü örtüsünün tahmin edilmesi. Orman Bilimi, 57 (3), 212-221. Bu yazarlar, Cribari-Neto ve Zeileis tarafından R'deki betareg paketini kullanıyorlar. Aşağıdaki makale, yüzdelik aralıkta gerçek 0 ve / veya 1 içerdiğinde beta dağıtılmış bir yanıt değişkenini dönüştürmenin iyi bir yolunu tartışmaktadır: Smithson, M. ve J. Verkuilen, 2006. Daha iyi bir limon sq

Yanıtlar:


7

Binom dağılımının , sınırlı sayıda Bernoulli denemesinden 'başarı' sayısından kaynaklanan ayrı oranlar için olduğu ve dağıtımın verileriniz için uygun olmadığı konusunda haklısınız . Gamma dağılımını, o Gamma artı bir başka Gamma toplamına bölünerek kullanmalısınız. Yani, sürekli oranları modellemek için beta dağıtımını kullanmalısınız .

Burada cevabımda beta regresyon örneği var: R'de regresyon kullanarak faktörün sürekli orantı verileri üzerindeki etkisini kaldırın .

Güncelleme:
@ DimitriyV.Masterov, verilerinizde bahsettiğiniz iyi noktayı yükseltiyor0, ancak beta dağıtımı yalnızca (0, 1). Bu, bu tür değerlerle ne yapılması gerektiği sorusunu harekete geçirir. Bu mükemmel CV iş parçacığından bazı fikirler çıkarılabilir: 0 günlüğünü almamak için x'e ne kadar küçük bir miktar eklenmelidir?


3
Beta dağılımı sıfırları kaldırabilir mi?
Dimitriy V. Masterov

1

Yüzde değerleri, örnek sayısından bağımsız oranları temsil eder. Bu yüzdeleri bağımlı değişken, uydu görüntüleri ise açıklayıcı değişken olarak kullanmak istersiniz. Ancak envanterdeki 50 parselin hepsinin benzer sayıda örneğe sahip olmadığını tahmin ediyorum. Bu yüzdeleri diğer değişkenlerle ilişkilendiren uygun bir model, ölçümdeki bu belirsizliği hesaba katarak yüksek numuneli arazilerde daha fazla ağırlık vermelidir.

Ayrıca, verilerinizdeki hata dağılımı açıkça binomiyaldir. Hata varyansı sınırlarda en küçüktür, bu bir binom dağılımı ile yakalanır.

Tüm bunlar bana binom hata modelli bir GLM kullanmanın arketipik bir örneği gibi görünüyor.

Crawley tarafından hazırlanan "İstatistik: R Kullanarak Giriş", Bölüm 14 tam olarak bu konuyu ve R ile nasıl analiz edileceğini tartışıyor.


4
Binom dağılımı Bernoulli denemelerinin bilinen bir dizi başarıların sayısını dağılımıdır. "Bernoulli çalışmalarının bir Binom dağılımı ile de tanımlanması", Binom dağılımı ile tanımlanan her şeyin Bernoulli yapısına uygun olması gerektiği anlamına gelmez "yorumunuz. Binom dağılımı sürekli oranlar için uygun değildir. Ayrıca, Gamma dağılımını değil, beta dağıtımını öneriyorum.
gung - Monica'yı eski

1
evet, haklısın.
bonobo
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.