Histogram ve pdf arasındaki fark nedir?


18

Sürekli bir veri dağılımını gözle görülür bir şekilde görmek istiyorsak, histogram ve pdf arasında hangisi kullanılmalıdır?

Histogram ve pdf arasındaki formül değil, farklar nelerdir?


Bu sorunun veri (dağılımı histogramla temsil edilebilir) veya teorik yapılarla (olasılık dağılımını tanımlayan pdf gibi) ilgili olup olmadığını açıklığa kavuşturabilir misiniz?
whuber

4
Pdf pdf nereden geliyor? Tanım olarak, bir pdf teorik olasılık dağılımını açıklar. Belki de edf (ampirik dağıtım fonksiyonu) mu demek istediniz?
whuber

Yanıtlar:


22

Dirks noktasını açıklığa kavuşturmak için:

Verilerinizin normal dağılımın bir örneği olduğunu varsayalım. Aşağıdaki grafiği oluşturabilirsiniz:

alternatif metin

Kırmızı çizgi ampirik yoğunluk tahminidir, mavi çizgi temeldeki normal dağılımın teorik pdf'sidir. Histogramın burada frekanslarda değil yoğunluklarda ifade edildiğine dikkat edin. Bu, çizim amaçları için yapılır, genel olarak histogramlarda frekanslar kullanılır.

Sorunuzu cevaplamak için: örneğinizi tanımlamak istiyorsanız ampirik dağılımı (yani histogram) ve varsayımsal temeldeki dağıtımı tanımlamak istiyorsanız pdf'yi kullanırsınız.

Çizim R'de aşağıdaki kodla oluşturulur:

x <- rnorm(100)
y <- seq(-4,4,length.out=200)

hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)

frekans ve yoğunluk arasındaki fark nedir?
Lakshay

2
@Lakshay frekansı sayılır. Toplanan tüm frekanslar gözlem sayısına eşittir. Yoğunluk, belirli bir değere sahip olma olasılığı için bir proxy olan PDF (olasılık yoğunluk fonksiyonu) için kısadır. PDF altındaki alan 1'e
eşittir

13

Histogram, yoğunluğun bilgisayar öncesi yaş tahminidir. Yoğunluk tahmini bir alternatiftir.

Bugünlerde ikisini de kullanıyoruz ve hangi temerrütlerin kullanılması gerektiği konusunda zengin bir literatür var.

Diğer yandan, bir pdf, belirli bir dağılım için kapalı biçimli bir ifadedir . Bu, veri kümenizi tahmini yoğunluk veya histogramla tanımlamaktan farklıdır .


1
μσ2 bir gaussian için ). Verilere "uyması" gerekmez. Şimdi, sadece eldeki verileri kullandığınız çeşitli parametrik olmayan yoğunluk tahminleri vardır (artı bazı çekirdek özellikleri veya pencere aralığı, vb.); bkz density. R fonksiyonu için çevrimiçi yardım .
chl

*ab***ab**$\sqrt{2}$2
chl

6

Burada zor ve hızlı bir kural yok. Nüfusunuzun yoğunluğunu biliyorsanız, PDF daha iyidir. Öte yandan, genellikle numunelerle ilgileniriz ve bir histogram tahmini bir yoğunluğun kapsadığı bazı bilgileri iletebilir. Örneğin, Andrew Gelman şu noktayı ortaya koymaktadır:

Histogramdaki varyasyonlar

Bir histogramın önemli bir yararı, ham verilerin bir grafiği olarak, kendi hata değerlendirmesinin tohumlarını içermesidir. Ya da başka bir deyişle, biraz yetersiz bir histogramın pürüzlülüğü, örnekleme değişkenliğini görsel olarak göstererek yararlı bir hizmet gerçekleştirir. Bu yüzden, kitaplarımdaki ve yayınlanmış makalelerimdeki histogramlara bakarsanız, hemen hemen her zaman çok sayıda kutu kullanırım. İnsanların bazen tek boyutlu dağılımlar göstermek için kullandıkları çekirdek yoğunluğu tahminlerini neredeyse hiç sevmem. Histogramı görmeyi ve verilerin nerede olduğunu bilmeyi tercih ederim.


3
İtiraf etmeliyim ki Gelman neden küçük kutu genişliği ile histogram kullanımını savunuyor; neden gözlemlenen verilerin ampirik dağılımını daha iyi ileten, üst üste bindirilmiş çekirdek yoğunluğu tahminlerine sahip stripchart grafiği veya ham veri kullanmıyorsunuz?
chl

2
@chl: Örnekleme değişkenliği hakkında fikir sahibi olmak için elbette başka iyi görselleştirme yöntemleri de var. Ancak burada tartışılan histogram v. Pdf'nin daha dar karşılaştırmasında, amacının iyi olduğunu düşünüyorum.
ars

1
burada tartışılan makaleler gibi güzel bir bağlantıdır. Ancak, bu yaklaşım simülasyonlar için geçerli mi, bu durumda aslında bir yoğunluğu tahmin etmeye çalışıyoruz?
David LeBauer

1

Bağıl frekans histogramı ( ayrık )

  • 'y' ekseni Normalleştirilmiş sayıdır
  • 'y' ekseni, ilgili bölme / aralık için ayrı bir olasılıktır
  • Normalleştirilmiş sayılar en fazla 1

Yoğunluk Histogramı ( ayrık )

  • 'y' ekseni yoğunluk değeridir ('Normalleştirilmiş sayının' 'bölme genişliğine' bölünmesi)
  • Bar alanları 1

Olasılık Yoğunluk Fonksiyonu PDF ( sürekli )

  • Histogram kutuları ayrı olduğu için PDF, sürekli bir histogram sürümüdür
  • Eğri altındaki toplam alan 1 ile bütünleşir

Bu referanslar yardımcı oldu :) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function

Continuous_probability_distribution Yukarıdaki siteden

http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.