Sürekli bir veri dağılımını gözle görülür bir şekilde görmek istiyorsak, histogram ve pdf arasında hangisi kullanılmalıdır?
Histogram ve pdf arasındaki formül değil, farklar nelerdir?
Sürekli bir veri dağılımını gözle görülür bir şekilde görmek istiyorsak, histogram ve pdf arasında hangisi kullanılmalıdır?
Histogram ve pdf arasındaki formül değil, farklar nelerdir?
Yanıtlar:
Dirks noktasını açıklığa kavuşturmak için:
Verilerinizin normal dağılımın bir örneği olduğunu varsayalım. Aşağıdaki grafiği oluşturabilirsiniz:
Kırmızı çizgi ampirik yoğunluk tahminidir, mavi çizgi temeldeki normal dağılımın teorik pdf'sidir. Histogramın burada frekanslarda değil yoğunluklarda ifade edildiğine dikkat edin. Bu, çizim amaçları için yapılır, genel olarak histogramlarda frekanslar kullanılır.
Sorunuzu cevaplamak için: örneğinizi tanımlamak istiyorsanız ampirik dağılımı (yani histogram) ve varsayımsal temeldeki dağıtımı tanımlamak istiyorsanız pdf'yi kullanırsınız.
Çizim R'de aşağıdaki kodla oluşturulur:
x <- rnorm(100)
y <- seq(-4,4,length.out=200)
hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)
Histogram, yoğunluğun bilgisayar öncesi yaş tahminidir. Yoğunluk tahmini bir alternatiftir.
Bugünlerde ikisini de kullanıyoruz ve hangi temerrütlerin kullanılması gerektiği konusunda zengin bir literatür var.
Diğer yandan, bir pdf, belirli bir dağılım için kapalı biçimli bir ifadedir . Bu, veri kümenizi tahmini yoğunluk veya histogramla tanımlamaktan farklıdır .
density
. R fonksiyonu için çevrimiçi yardım .
*ab*
**ab**
$\sqrt{2}$
Burada zor ve hızlı bir kural yok. Nüfusunuzun yoğunluğunu biliyorsanız, PDF daha iyidir. Öte yandan, genellikle numunelerle ilgileniriz ve bir histogram tahmini bir yoğunluğun kapsadığı bazı bilgileri iletebilir. Örneğin, Andrew Gelman şu noktayı ortaya koymaktadır:
Bir histogramın önemli bir yararı, ham verilerin bir grafiği olarak, kendi hata değerlendirmesinin tohumlarını içermesidir. Ya da başka bir deyişle, biraz yetersiz bir histogramın pürüzlülüğü, örnekleme değişkenliğini görsel olarak göstererek yararlı bir hizmet gerçekleştirir. Bu yüzden, kitaplarımdaki ve yayınlanmış makalelerimdeki histogramlara bakarsanız, hemen hemen her zaman çok sayıda kutu kullanırım. İnsanların bazen tek boyutlu dağılımlar göstermek için kullandıkları çekirdek yoğunluğu tahminlerini neredeyse hiç sevmem. Histogramı görmeyi ve verilerin nerede olduğunu bilmeyi tercih ederim.
Bağıl frekans histogramı ( ayrık )
Yoğunluk Histogramı ( ayrık )
Olasılık Yoğunluk Fonksiyonu PDF ( sürekli )
Bu referanslar yardımcı oldu :) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function
Continuous_probability_distribution Yukarıdaki siteden
http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html