Bir dağıtımın histogramı ile tanımlanması için yardıma ihtiyacınız var


13

Belli bir sinyalin kayıtlı genlik maksimumunun örnek popülasyonuna sahibim. Nüfus yaklaşık 15 milyon örnektir. Nüfusun bir histogramını oluşturdum, ancak böyle bir histogramla dağılımı tahmin edemiyorum.

EDIT1: Ham örnek değerleri olan dosya burada: ham veri

Herkes aşağıdaki histogramla dağılımı tahmin etmeye yardımcı olabilir: resim açıklamasını buraya girin


1
önemli ölçüde önemli değildir, ancak histogramları kullanırken genellikle y ekseninde mutlak frekans yerine bağıl frekansa sahip olmaya yardımcı olur.
posdef

yani, dikey eksende 120000/15000000 = 0.008 yerine 120000 sağlamak?
mbaitoff

@mbaitoff: schenectady'nin cevabına verdiğiniz yorumlar, dağıtımın adını almakla daha az ilgilendiğinizi, ancak değerlerin neden bu şekilde dağıtıldığını bulmakla ilgilendiğinizi gösterir. Bu doğru mu ?
steffen

1
m

2
Bu verilere gerçek ilgi bir düzine veya daha fazla artışa aittir: veri miktarı , gerçek yerel modların kanıtı oldukları için gerçek olacak kadar büyüktür . Burada, dağılımlarını özetlemek için kullanılan basit bir parametrik formül olan, gözden kaçırılacak zengin bir bilgi zenginliğine sahip zengin bir veri kümesi var gibi görünüyor.
whuber

Yanıtlar:


23

Fitdistrplus kullanın:

İşte fitdistrplus'a CRAN bağlantısı .

İşte fitdistrplus için eski vinyet bağlantısı .

Vinyet bağlantısı işe yaramazsa, "Verilerden bir dağıtım belirlemek için fitdistrplus kitaplığının kullanımı" için bir arama yapın.

Skeç, paketin nasıl kullanılacağını açıklamak için iyi bir iş çıkarır. Çeşitli dağıtımların kısa sürede nasıl oturduğuna bakabilirsiniz. Ayrıca Cullen / Frey Diyagramı üretir.

#Example from the vignette
library(fitdistrplus)
x1 <- c(6.4, 13.3, 4.1, 1.3, 14.1, 10.6, 9.9, 9.6, 15.3, 22.1, 13.4, 13.2, 8.4, 6.3, 8.9, 5.2, 10.9, 14.4)
plotdist(x1)
descdist(x1)

f1g <- fitdist(x1, "gamma")
plot(f1g)
summary(f1g)      

resim açıklamasını buraya girin

resim açıklamasını buraya girin


(+1): Bu paketi daha önce bilmiyordum.
steffen

1
(+1 (bunun Cullen / Frey diyagramı olarak adlandırıldığını bilmiyordum. Bir noktada kendimi bulmak zorunda kaldım.)
Glen_b -Ricatate Monica

ikinci görüntü plotdistcomamnd ile? Cullen / Frey Diyagramını nasıl alabilirim?
juanpablo

1
@juanpablo - Deneyin descdist(). Yukarıdaki kodu bazı kodları ve eski skeç bağlantısını içerecek şekilde güncelledim. Yukarıdaki skeç bağlantısını çalıştıramadım. Bu nedenle, Google şu şekilde: "Verilerden bir dağıtım belirlemek için fitdistrplus kitaplığının kullanımı". Bir .pdf dosyasıdır.
bill_080

3
@juanpablo - deyim f1g <- fitdist(x1, "gamma")orijinal verilerin bir gama dağılımını uyar x1içeri ve mağazalar f1g. Sol üstteki grafik çubuklar olarak plot(f1g)orijinal veriler için bir histogram ve sürekli çizgi olarak x1takılan gama yoğunluğu grafiğini göstermektedir f1g. Yoğunluk grafiği (sürekli çizgi), "sığdırmanın" verileri ne kadar iyi temsil ettiğinin bir göstergesi olarak histogramın üzerine çizilir.
bill_080

6

Nüfus yaklaşık 15 milyon örnektir.

O zaman büyük olasılıkla basit, kapalı bir formun herhangi bir dağıtımını reddedebilirsiniz.

Grafiğin solundaki o küçük yumru bile 'açıkça öyle değil' dememize neden olacak gibi görünüyor.

Öte yandan, muhtemelen bir dizi yaygın dağılım ile oldukça iyi bir şekilde yakınlaşmıştır; bariz adaylar, lognormal ve gama gibi şeylerdir, ancak başkaları da vardır. X değişkeninin günlüğüne bakarsanız, muhtemelen lognormalin görüşte iyi olup olmadığına karar verebilirsiniz (günlükleri aldıktan sonra histogram simetrik görünmelidir).

Eğer günlük eğri kalırsa, Gamma'nın iyi olup olmadığını düşünün, eğer doğru eğim varsa, ters Gamma veya (hatta daha fazla eğim) ters Gaussian'ın iyi olup olmadığını düşünün. Ancak bu alıştırma, yaşamak için yeterince yakın bir dağıtım bulmaktan daha fazlasıdır; bu önerilerin hiçbiri aslında orada mevcut gibi görünen tüm özelliklere sahip değildir.

Seçimi desteklemek için herhangi bir teoriniz varsa, tüm bu tartışmayı atın ve kullanın.


Vay be, konu hakkında ne tür bir sezgi; Güzel! :)
onurcanbektas

1

Bir örneği neden bu kadar büyük bir örnek büyüklüğüne sahip belirli bir dağılıma sınıflandırmak istediğinizden emin değilim; parsimony, başka bir örnekle karşılaştırarak, parametrelerin fiziksel yorumunu mı arıyorsunuz?

İstatistiksel paketlerin çoğu (R, SAS, Minitab), veriler belirli bir dağıtımdan geliyorsa, bir grafiğe veri çizmeye izin verir. Veriler normalse (log dönüşümden sonra log normal), Weibull ve ch-squeded hemen benimsemeden düz bir çizgi veren grafikler gördüm. Bu teknik, aykırı değerleri görmenize ve veri noktalarının neden aykırı olduğu için nedenleri atama olanağına sahip olmanızı sağlayacaktır. R'de normal olasılık grafiğine qqnorm denir.


Qqplot öneren iyi fikir. Ancak, teknikle ilgili açıklamanızın biraz belirsiz / anlaşılması zor olduğunu düşünüyorum. Örnek bir R kodu verebilir misiniz? Bu, cevabın değerini büyük ölçüde artıracaktır.
steffen

Birinin benim gibi resimle karşılaşmasını ve temel dağılımı araştırmasını bekliyorum, çünkü değerlerin fiziksel temeli var.
mbaitoff

Örnek dağılımının fiziksel arka planını - nasıl dağıtıldığını ve nedenini araştırıyorum.
mbaitoff
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.