“Bir olasılık yoğunluk fonksiyonunun altındaki toplam alan 1” dir - neye göre?


20

Kavramsal olarak "PDF'nin altındaki toplam alan 1'dir" ifadesinin anlamını kavrarım. Sonuçların toplam olasılık aralığında olma şansının% 100 olduğu anlamına gelmelidir.

Ama bunu "geometrik" bir bakış açısından gerçekten anlayamıyorum. Örneğin, bir PDF'de x ekseni uzunluğu temsil ediyorsa, x km yerine mm cinsinden ölçülürse eğrinin altındaki toplam alan daha büyük olmaz mı?

Her zaman, fonksiyon düz bir çizgiye yaslanmışsa, eğrinin altındaki alanın nasıl görüneceğini resmetmeye çalışırım. Bu çizginin yüksekliği (y ekseni üzerindeki konum) herhangi bir PDF için aynı mı yoksa işlevin tanımlandığı x ekseni üzerindeki aralığa bağlı bir değere sahip mi?


ekseni ölçeğini km'den mm'ye değiştirebilirsiniz, ancak bu ne olur? Hala aynı resme ve eksenindeki birimler için altı sıfır daha elde edersiniz . İsterseniz yakınlaştırabilir veya uzaklaştırabilirsiniz, ancak bu resmi değiştirmez. PDF eğrisi (düzgün dağılımını ifade eder) bir düz yatay bir çizgi ise, Diğer taraftan, üzerindeki pozisyonu ekseni birimleri bağlı değildir ekseni değil, sadece aralığın uzunluğuna ekseni. Sizin için ne kadar yararlı olduğundan emin değilim, ancak benim için yakınlaştırma ve uzaklaştırma fikri anlaşılmasını kolaylaştırıyor. xxyxx
Richard Hardy

2
Bu doğru gibi görünüyor. Ancak bu, yatay yönde 1000 oranında büyütülen ve aynı zamanda dikey yönde orantılı olarak küçülen (kuşkusuz garip) bir büyüteç kullanıyor. Ancak sadece ölçeği değiştirirseniz resmin özü değişmez.
Richard Hardy

2
Bu soru bana, (farklı bir şekilde) sorulanla aynı ve istatistiklerle ilgili olarak göründü . Stat.stackexchange.com/questions/4220/… .
whuber

1
@amoeba, Evet, birçoğu, içine koyduğum çabanın tanınması (btw) için daha uzun cevaba oy vermek zorunda kalabilirken, Aksakal sorumu çok daha açık ve öz bir şekilde yanıtladı. Adil olmak gerekirse, Silverfish'in cevabının da yardımcı olduğunu ve bir saniyede geleceğini söyleyebilirim.
TheChymera

2
@amoeba Tamamen farklı bir yanıt yönü, PDF'lerin CDF'lerin türevleri olmasına odaklanmak olabilirdi, bu nedenle PDF'nin altındaki alan, kullanılan birimlerden bağımsız olarak açıkça bir olan CDF'nin sınırlayıcı değeridir. Bu konuda kısa bir bölüm eklemeye cazip geldim, ancak cevabımın zaten yeterince uzun olduğunu hissettim (ve ayrıca OP'nin sorununun anahtarı, CDF yaklaşımının oldukça eteğin olduğu birimler sorunu gibi görünüyordu).
Silverfish

Yanıtlar:


14

Olasılık yoğunluk fonksiyonu, x ekseninizin ölçü birimi başına yüzde olarak ölçülür. En belirli bir noktada diyelim PDF'nize Bu araçlar 1000 eşit olduğunu olasılığı olan metre uzaklıktadır. Birimleri santimetreye değiştirirseniz, olasılık aynı aralık için değişmemelidir, ancak aynı aralık metreden 100 cm daha fazladır, bu nedenle ve çözme alırız . Metre başına metre başına 100 kat daha düşük olasılık birimi (yüzdeler) vardır.x0x0<x<x0+dx1000dxdx1000dx=PDF(x0)100dxPDF(x0)=PDF(x0)100


46

Dikey eksenin bir olasılık yoğunluğu olarak ölçüldüğünü fark etmenize yardımcı olabilir . Dolayısıyla, yatay eksen km olarak ölçülürse, dikey eksen "km başına" olasılık yoğunluğu olarak ölçülür. 5 "km" genişliğinde ve km "0.1" yüksekliğinde ("km " olarak yazmayı tercih edebilirsiniz) böyle bir ızgaraya dikdörtgen bir öğe çizdiğimizi varsayalım . Bu dikdörtgenin alanı 5 km x 0,1 km = 0,5'tir. Birimler iptal edilir ve biz sadece bir buçuk olasılıkla kalırız.- 111

Yatay birimleri "metre" olarak değiştirdiyseniz, dikey birimleri "metre başına" olarak değiştirmeniz gerekir. Dikdörtgen şimdi 5000 metre genişliğinde olacak ve yoğunluk (yükseklik) metre başına 0.0001 olacaktır. Hala yarıya düşme ihtimaliniz var. Bu iki grafiğin sayfada ne kadar garip görüneceğinden rahatsız olabilirsiniz (birinin diğerinden daha geniş ve daha kısa olması gerekmez mi?), Ancak arazileri fiziksel olarak çizdiğinizde her şeyi kullanabilirsiniz istediğiniz ölçek. Ne kadar tuhaflık gerektirdiğini görmek için aşağıya bakın.

Olasılık yoğunluk eğrilerine geçmeden önce histogramları göz önünde bulundurmak yararlı olabilir . Birçok yönden benzerdirler. Bir histogramın dikey ekseni [ birimi başına ] frekans yoğunluğudurx ve alanlar frekansları temsil eder, çünkü yatay ve dikey birimler çarpma üzerine iptal edilir. PDF eğrisi, toplam frekansı bire eşit olan bir tür histogramın sürekli bir sürümüdür.

Daha da yakın bir benzetme göreceli bir frekans histogramıdır - böyle bir histogramın "normalleştirildiğini" söylüyoruz, böylece alan elemanları artık ham veri frekanslarından ziyade orijinal veri kümenizin oranlarını temsil ediyor ve tüm çubukların toplam alanı bir. Yükseklikler artık [ birimi başına ] nispi frekans yoğunluklarıdırx . Göreceli bir frekans histogramında boyunca uzanan bir çubuk varsax20 km'den 25 km'ye kadar olan değerler (böylece çubuğun genişliği 5 km'dir) ve km başına 0,1'lik bir nispi frekans yoğunluğuna sahiptir, o zaman bu çubuk verilerin 0,5'lik bir oranını içerir. Bu, veri kümenizden rastgele seçilen bir öğenin, o çubukta% 50 yalan söyleme olasılığına tam olarak karşılık gelir. Birimlerdeki değişikliklerin etkisi hakkındaki önceki argüman hala geçerlidir: 20 km ile 25 km bar arasındaki veri oranlarını, bu iki parsel için 20.000 metre ile 25.000 metre bar arasındaki oranlarla karşılaştırın. Ayrıca, her iki durumda da tüm çubuk alanlarının bire eşit olduğunu aritmetik olarak doğrulayabilirsiniz.

Farklı birimlere sahip bağıl frekans histogramları

PDF'nin "bir çeşit histogramın sürekli versiyonu" olduğu iddiamla ne kastedebilirdim? Olasılık yoğunluk eğrisi altında, aralığında değerleri boyunca küçük bir şerit alalım , böylece şerit genişliğinde ve eğrinin yüksekliği yaklaşık olarak sabit bir . alanı o şeridin içinde yatma olasılığını temsil eden o yükseklikte bir çubuk çizebiliriz .[ x , x + δ x ] δ x f ( x ) f ( x )x[x,x+δx]δxf(x)f(x)δx

ve arasındaki eğrinin altındaki alanı nasıl bulabiliriz ? Bu aralığı küçük şeritler halinde alt gruplara ayırabilir ve aralığında yaklaşık yalan söyleme olasılığına karşılık gelen çubukların alanlarının toplamını alabiliriz . Eğrinin ve çubukların tam olarak hizalanmadığını görüyoruz, bu yüzden yaklaşımımızda bir hata var. değerini her çubuk için daha küçük ve daha küçük yaparak , aralığı alanın daha iyi bir tahminini sağlayan daha fazla ve daha dar çubuklarla doldururuz .x = b f ( x )x=ax=b[ a , b ] δ x f ( x )f(x)δx[a,b]δxf(x)δx

Alanı kesin olarak hesaplamak için, in her bir şerit boyunca sabit olduğunu varsaymak yerine , integralini değerlendiririz ve bu aralığında gerçek yalan olasılığına karşılık gelir . Tüm eğri üzerinde entegrasyon toplam alan (yani toplam olasılık) olanını verir, aynı nedenden ötürü nispi frekans histogramının tüm çubuklarının alanlarının toplanması toplam alan (yani toplam oran) bir alan verir. Entegrasyonun kendisi, bir miktar toplamın sürekli bir versiyonudur.b a f ( x ) d x [ a , b ]f(x)abf(x)dx[a,b]

resim açıklamasını buraya girin

Grafikler için R kodu

require(ggplot2)
require(scales)
require(gridExtra)
# Code for the PDF plots with bars underneath could be easily readapted

# Relative frequency histograms
x.df <- data.frame(km=c(rep(12.5, 1), rep(17.5, 2), rep(22.5, 5), rep(27.5, 2)))
x.df$metres <- x.df$km * 1000

km.plot <- ggplot(x.df, aes(x=km, y=..density..)) +
  stat_bin(origin=10, binwidth=5, fill="steelblue", colour="black") +
  xlab("Distance in km") + ylab("Relative frequency density per km") +
  scale_y_continuous(minor_breaks = seq(0, 0.1, by=0.005))

metres.plot <- ggplot(x.df, aes(x=metres, y=..density..)) +
  stat_bin(origin=10000, binwidth=5000, fill="steelblue", colour="black") +
  xlab("Distance in metres") + ylab("Relative frequency density per metre") +
  scale_x_continuous(labels = comma) +
  scale_y_continuous(minor_breaks = seq(0, 0.0001, by=0.000005), labels=comma)

grid.arrange(km.plot, metres.plot, ncol=2)
x11()

# Probability density functions
x.df <- data.frame(x=seq(0, 1, by=0.001))
cutoffs <- seq(0.2, 0.5, by=0.1) # for bars
barHeights <- c(0, dbeta(cutoffs[1:(length(cutoffs)-1)], 2, 2), 0) # uses left of bar

x.df$pdf <- dbeta(x.df$x, 2, 2)
x.df$bar <-  findInterval(x.df$x, cutoffs) + 1 # start at 1, first plotted bar is 2
x.df$barHeight <- barHeights[x.df$bar]

x.df$lastBar <- ifelse(x.df$bar == max(x.df$bar)-1, 1, 0) # last plotted bar only
x.df$lastBarHeight <- ifelse(x.df$lastBar == 1, x.df$barHeight, 0)
x.df$integral <- ifelse(x.df$bar %in% 2:(max(x.df$bar)-1), 1, 0) # all plotted bars
x.df$integralHeight <- ifelse(x.df$integral == 1, x.df$pdf, 0)

cutoffsNarrow <- seq(0.2, 0.5, by=0.025) # for the narrow bars
barHeightsNarrow <- c(0, dbeta(cutoffsNarrow[1:(length(cutoffsNarrow)-1)], 2, 2), 0) # uses left of bar
x.df$barNarrow <-  findInterval(x.df$x, cutoffsNarrow) + 1 # start at 1, first plotted bar is 2
x.df$barHeightNarrow <- barHeightsNarrow[x.df$barNarrow]

pdf.plot <- ggplot(x.df, aes(x=x, y=pdf)) +
  geom_area(fill="lightsteelblue", colour="black", size=.8) +
  ylab("probability density") +
  theme(panel.grid = element_blank(),
  axis.text.x = element_text(colour="black", size=16))

pdf.lastBar.plot <- pdf.plot +
  scale_x_continuous(breaks=tail(cutoffs, 2), labels=expression(x, x+delta*x)) +
  geom_area(aes(x=x, y=lastBarHeight, group=lastBar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(x<=X)<=x+delta*x)%~~%f(x)*delta*x"), parse=TRUE)

pdf.bars.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeight, group=bar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.barsNarrow.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffsNarrow[c(1, length(cutoffsNarrow))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeightNarrow, group=barNarrow), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.integral.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=integralHeight, group=integral), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)==integral(f(x)*dx,a,b)"), parse=TRUE)

grid.arrange(pdf.lastBar.plot, pdf.bars.plot, pdf.barsNarrow.plot, pdf.integral.plot, ncol=2)

ilk iki çizgiyle çiviledin, ama geri kalanı da iyi.
PatrickT

2
@PatrickT Teşekkürler - öğretim deneyimi bazen kuruş düşmeden önce birkaç şey denemeniz gerektiğini gösterir, çünkü farklı öğrenciler (veya okuyucular) farklı bilgi seviyelerine sahiptir. İlk iki satır, boyutsal analizi bilen herhangi bir okuyucuyu ikna etmelidir (örneğin, incelenen fizik bilimleri veya mühendislik), ancak arsaların geri kalanını çözmesini umuyorum! Deneyimlerime göre, histogram yaklaşımı daha önce karşılaşan öğrenciler için iyi sonuç verir; "bağıl frekans yoğunluğu" ile "olasılık yoğunluğu" arasındaki boşluğun köprülemesi den daha kolaydır . f(x)=F(x)
Gümüş Balık

1
@Silverfish: Bu, ilk kez İngilizce'de "kuruş damla" terimini kullandığını gördüm!
Mehrdad

1
İlk grafik kuş çeviren birine benziyor :)
Aksakal

1
@Aksakal Ooof. Fark etmedim. Bu örneği sınıfta birkaç değişiklik yapmadan kullanmamayı hatırlamalıyım. (Aynı satırlarda, tahtada çözmek için bir sorun oluştururken, görünmekten kaçınmaya çalıştığım 69 gibi belirli sayılar var. Deneyim kazanıldı.)
Silverfish

7

Silverfish tarafından mükemmel bir cevapla zaten iki cevabınız var , ancak geometriyi sorduğunuz ve bu işlevleri kendiniz "hayal ettiğiniz" için bir illüstrasyonun burada yararlı olabileceğini hissediyorum.

Bernoulli dağıtımının basit bir örneğiyle başlayalım :

f(x)={pif x=1,1pif x=0.

resim açıklamasını buraya girin

Değerler birbirinden farklı olduğu için "eğri" yoktur, sadece iki nokta vardır, ancak fikir benzerdir: toplam olasılığı (eğrinin altındaki alan) bilmek istiyorsanız , her iki olası sonucun olasılıklarını toplamanız gerekir:

p+(1p)=1

Bu denklemde sadece ve , çünkü belirli bir olasılıkla sadece iki olası nokta sonucumuz vardır.p1p

Aynısı , ayrı bir olasılık dağılımı olan Poisson dağılımı için de geçerlidir. İkiden fazla değer vardır, bu nedenle noktaları birbirine bağlayan bir çizgi olduğunu hayal edebilirsiniz , ancak toplam olasılığı hesaplamak için tüm olasılıklarını toplamanız gerekir. Poisson dağılımı genellikle sayım verilerini tanımlamak için kullanılır, bu nedenle her bir belirli olayların bir sayısı olduğu ve bu sonucun bir olasılığı olduğu düşünebilirsiniz . Aşağıdaki grafikteki her noktanın aslında bazı sonuçlardan oluşan bir yığının yüksekliği olduğunu düşünebilirsiniz: , tüm "xxf(x)x1x1Eğrisi 'hepsi burada özetlenebilir yığınları (veya olacağını altında alan "çıktıları vb toplam gözlemlenen' meta bütün sonuçların -stack) ama biz olaylardan numaralarını ziyade olasılıkları Özetle vermediği için, onlar toplamı kadar . Eğer gereken Yani değil sayımlar toplamı olarak düşünmek ziyade olasılık toplamı olarak: nerede olduğu tüm olası sonuçların toplam sayısı.1#{xi}=N#{xi}/N=1N

resim açıklamasını buraya girin

Şimdi , aslında sürekli bir dağılım olan normal bir dağılımı düşünelim - bu yüzden değerleri sürekli ölçekte olduğu için "noktalarımız" yoktur , yani sonsuz sayıda değeri vardırxx. Eğer puanlar olsaydı, ne kadar "yakınlaştırırsanız isteseniz de onları göremezdiniz, çünkü her zaman belirli noktalar arasında sonsuz sayıda küçük nokta olabilir. Bu yüzden burada aslında bir eğrimiz var - bunun sonsuz sayıda "noktadan" oluştuğunu hayal edebilirsiniz. Kendinize şu soruyu sorabilirsiniz: sonsuz sayıda olasılık nasıl hesaplanır ..? Aşağıdaki çizimde kırmızı eğri normal bir PDF'dir ve kara kutular dağıtımdan alınan bazı değerlerin histogramıdır. Bu nedenle histogram grafiği, belirli bir genişliğe sahip sınırlı sayıda "kutuya" dağıtımımızı kolaylaştırdıve kutuların yüksekliklerini genişlikleri ile çarparak toplarsanız, eğrinin altındaki bir alanla veya tüm kutuların alanıyla sonuçlanırsınız. Her kutuyu kutuda paketlenmiş sonsuz sayıda "nokta" nın özeti olduğundan, burada alanları daha çok puan kullanıyoruz.

resim açıklamasını buraya girin

f(x)2.53=0.5

0.010 0.028 0.094 0.198 0.260 0.400 0.404 0.292 0.166 0.092 0.044 0.010 0.002

her birini (genişlik) ile çarparak toplarsanız , kadar toplarlar . Burada size edemez eğrisi oluşturacak sonsuz birçok olası puan olmadığından herhangi bir şey saymak. Diğer yandan, olasılıklar hakkında konuştuğumuz için, tüm olası sonuçların olasılığı .0.511

Bu durumda "birim başına olasılık" kullanırız ve birim istediğiniz genişliğe sahip olabilir. Sürekli ölçekte “olası tüm sonuçları” parçalara bölünebilecek bir çizgi olarak düşünün ve her parça sonsuz küçük parçalara kadar daha küçük parçalara ayrılabilir. Bu çizginin toplam olasılığı . Eğer toplam uzunluğunun olduğunu tahmin edebileceğinizden daha düz olacaksa ve bölerek parçaların olasılıklarını elde edersiniz. Çizgi düz değilse, parça başına olasılık fonksiyonu ile tanımlanır . Bu nedenle, birimler aslında önemli değildir çünkü sonsuz sayıda olası "nokta" vardır, birim başına olasılıktır, burada birim her zaman aynıdır: "toplam" uzunluğun bir kısmı .11f(x)

Bu yaklaşım, basitleştirilmiş bir şekilde biraz daha karmaşık bir konu olan integralleri göstermektedir . Sürekli durumda, eğrinin altındaki alanı hesaplamak için integraller kullanırsınız. Noktaları arasındaki eğrinin alanının integral ve ( ve arsa dışarı) aşağıdaki gibidir:ab33

abf(x)dx

burada yükseklik ve genişliktir ve sürekli değişkenler için olarak olarak düşünebilirsiniz . İntegraller ve analiz hakkında daha fazla bilgi edinmek için Khan Academy derslerini kontrol edebilirsiniz .d x f(x)dx

"Düz" (üniform) dağılımını da sordunuz :

resim açıklamasını buraya girin

İlk önce bunun geçerli bir tekdüze dağılım olmadığına dikkat edin, çünkü gibi parametrelere sahip olmalıdır , böylece ile bütünleşin . Bunu düşündüğünde, bu süreklidir ve düz olduğundan, bu bir genişliğe sahip kutunun çeşit için . Böyle bir kutunun alanını hesaplamak istiyorsanız, yüksekliği genişlikle çarpıyorsunuzdur. Ne yazık ki, genişlik sonsuz genişlikte olsa da, entegre olması için , yüksekliğin çok küçük bir olması gerekir ... Yani bu karmaşık bir durumdur ve soyut terimlerle hayal edebileceksiniz. Ilmari Karonen olarak dikkat edin1 - 1 ε<a<b<11εYorumda fark edilen, bu aslında uygulamada gerçekten mümkün olmayan soyut bir fikirdir (aşağıdaki yoruma bakınız). Böyle bir dağıtımı daha önce kullanacak olursanız, daha önce uygunsuz olur .

Sürekli durumda olasılık yoğunluk fonksiyonunun olasılıklardan ziyade yoğunluk tahminleri verdiğine dikkat edin, böylece yükseklikler (veya toplamları) aşabilir ( daha fazla bilgi için buraya bakın ).1


1
Sonsuz bir çizgi üzerinde düz (yani tekdüze ) dağılım için, "karmaşık" gerçekten "imkansız" anlamına gelir: sonsuz ölçü setindeki tekdüze dağılım geçerli bir olasılık dağılımı değildir, çünkü tam olarak entegre etmek için ölçeklenemez . Bu var bazen yararlı o biri olduğunu iddia etmek, ancak paradoks hızla çok uzak yol bu alarak. (Örn, ve bağımsız ve üzerinde eşit şekilde dağılmasına izin verin ; ?)X Y ( - , ) | X | < | Y |1XY(,)|X|<|Y|
Ilmari Karonen

Haklısın, "karmaşık" çok gayri resmi. Daha sonra düzeltmeler yapacağım.
Tim

0

Aşağıdaki kilit fikir bir yorumda belirtildi, ancak mevcut bir cevapta belirtilmedi ...

Bir PDF'nin özellikleri hakkında sezgisel bir yol, PDF ve CDF'nin entegrasyon (matematik) ile ilişkili olduğunu ve CDF'nin 0 ile 1 arasında bir olasılık değerini temsil eden monotonik bir çıktıya sahip olduğunu düşünmektir .

Birimsiz PDF eğrisi altındaki entegre toplam alan X ekseni birimleri tarafından etkilenmez.

Basitçe söylemek gerekirse ...

Area = Width x Height

X ekseni, birimlerdeki değişiklik nedeniyle sayısal olarak büyürse, Y ekseni karşılık gelen doğrusal bir faktörle küçülmelidir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.