1'i geçen bir olasılık dağılım değeri iyi olabilir mi?


149

Açık naif Bayes sınıflandırıcı ilgili Wikipedia sayfasında , bu çizgi vardır:

p(height|male)=1.5789 (1'den büyük olasılık dağılımı tamam. Zil eğrisinin altındaki alan 1'e eşittir).

Bir değer nasıl tamam olabilir? Tüm olasılık değerlerinin aralığında ifade edildiğini düşündüm . Ayrıca, böyle bir değere sahip olmanın mümkün olduğu düşünüldüğünde, sayfada gösterilen örnekte bu değer nasıl elde edilir?0 p 1>10p1


2
Herhangi bir aralıkta bütünleştiği sürece herhangi bir pozitif sayı olabilecek olasılık yoğunluğu işlevinin yüksekliği olabileceğini düşündüğümde, integral 1'den küçük veya ona eşit. Vikipedi bu girişi düzeltmelidir.
Michael Chernick

16
Bu gelecek okuyucular yardımcı olabilir, çünkü bu sorunun genel kısmının geometrik çevirisini sunuyoruz: "Nasıl kimin alan bir şekil aşmadığı olabilir olasılıkla fazla uzatmak herhangi bir yönde?" Spesifik olarak, şekil, PDF grafiği tarafından sınırlanan üst yarı düzlemin bir kısmıdır ve söz konusu yön dikeydir. Geometrik ortamda (olasılık yorumunun kısalması), 2'den büyük olmayan bir taban dikdörtgen ve yükseklik gibi örnekleri düşünmek kolaydır . 1 1 / 2 2111/22
whuber

Wikipedia makalesi şimdi polasılık yoğunluğu için küçük harf ve olasılık Piçin büyük harf kullanıyor
Aprillion

Bunu bir sonraki adam için burada bırakacağım: en.wikipedia.org/wiki/Dirac_delta_function
Joshua

Bir Kümülatif Dağıtım İşlevi'nin (PDF'nin ayrılmaz) 1'in üstüne çıkamayacağına dikkat çekmek gerekir. CDF birçok durumda kullanımı daha sezgiseldir.
naught101

Yanıtlar:


167

Wiki sayfasının bu sayıya bir olasılık olarak başvurarak dili kötüye kullandığı. Olmadığı doğru. Aslında ayak başına bir olasılıktır . Spesifik olarak, 1.5789 (6 feet yükseklik için) değeri, örneğin 5.99 ve 6.01 feet arasındaki yükseklik olasılığının, aşağıdaki birimsiz değere yakın olduğu anlamına gelir:

1.5789[1/foot]×(6.015.99)[feet]=0.0316

Bu değer olmalıdır bildiğiniz gibi 1 geçmemelidir. (Küçük yükseklik aralığı (bu örnekte 0,02), olasılık aygıtının çok önemli bir parçasıdır. Bu, kısaltma yapacağım "yükseklik farkı" .) Bir şeyin birimi başına olasılıklar. birim hacim başına kütle gibi, diğer yoğunluklara benzetilerek yoğunluk olarak adlandırılır .d(height)

İyi niyetli olasılık yoğunlukları , sınırsız bile olsa, keyfi olarak büyük değerlere sahip olabilir.

Gama dağılımı

Bu örnek bir Gamma dağılımı için olasılık yoğunluğu işlevini gösterir ( şekil parametresi ve ölçeği ile ). Yoğunluğunun en az olduğu için , eğri üzerinde artmaya sahip bir toplam alana sahip amacıyla tüm olasılık dağılımları için gerekli olan.1 / 5 1 1 13/21/5111

Beta dağılımı

Bu yoğunluk ( parametreli bir beta dağılımı için ) ve sonsuz olur . Toplam alanı hala sonlu (ve eşit )!0 1 11/2,1/10011


Bu örnekte, 1.5789 / foot değeri, erkeklerin yüksekliğinin ortalama 5.855 feet ve varyans 3.50e-2 feet kare ile normal dağılıma sahip olduğunu tahmin ederek elde edilir. (Bu önceki tabloda bulunabilir.) Bu varyansın karekökü 0.18717 feet olan standart sapmadır. Ortalama 6 metreyi SD sayısı olarak tekrar ifade ediyoruz:

z=(65.855)/0.18717=0.7747

Standart sapmanın bölünmesi bir ilişki yaratır

dz=d(height)/0.18717

Normal olasılık yoğunluğu, tanımı gereği eşittir

12πexp(z2/2)dz=0.29544 d(height)/0.18717=1.5789 d(height).

(Aslında, Hile:.. Ben sadece NORMDAĞ (6, 5,855, 0.18717, YANLIŞ) hesaplamak için Excel istedi Ama sonra gerçekten sadece emin olmak için, formül karşılaştırılmak hiç) şerit zaman gerekli diferansiyel formülde sadece Cheshire Cat'in gülümsemesi gibi sadece sayısı kalıyor. Biz okurların, bir olasılık üretmek için sayının yüksekliklerdeki küçük bir farkla çarpılması gerektiğini anlamamız gerekir.1.5789d(height)1.5789


Bu wiki sayfasında verilen örneğin, posteriorların hesaplanması için gerçek olasılıklar yerine gerçek olasılıklar yerine olasılık yoğunlukları kullandığını, çünkü muhtemelen birim başına karşılaştırılan birimlerin aynı olması durumunda karşılaştırmalı amaçlar için gerekli olmadığına dikkat edin. Bunu genişletmek, eğer normallik varsaymak istemiyorsa, fakat bunun yerine bir yoğunluk tahmin edilebilecek ampirik verilere sahipse, örneğin bir çekirdek yoğunluğu tahmini, bundan bir x ekseni üzerinde belirli bir değerde bir okuma kullanmak geçerli olur mu? Birim başına eşit olduğu varsayılarak, bir naif bayes sınıflandırıcıdaki posterleri hesaplamaya girdi olarak kde?
babelproofreader

1
@babelproofreader Posteriorların öncekilerin verilerini içeren Bayesian güncellemeleri olduğuna inanıyorum. Bir kde'nin benzer şekilde nasıl yorumlanabileceği belirsizdir, ancak bu alanda uzman değilim. Sorunuz, ayrı olarak göndermeyi düşünebileceğiniz kadar ilginç.
whuber

İyi bir diferansiyelin ne olduğunu nasıl belirlersiniz? Ya bunun yerine 1 diferansiyel seçtiyseniz? olasılık daha sonra 1'den büyük olur mu? Buradaki karışıklığım için özür dilerim. Açıklayabilir misin?
fiacobelli

3
3 Üçgenin alanı tabanın uzunluğunun ve yüksekliğinin bir yarısı kadardır.
whuber

1
@ user929304 Size hitap eden herhangi bir teorik ders kitabına başvurabilirsiniz: bu, olasılık ve istatistik temellerinin bir parçasıdır. Bu özel olasılık yoğunluğu kavramı, Freedman, Pisani ve Purves gibi daha iyi tanıtım kitaplarında güzel bir şekilde tartışılmaktadır .
whuber

43

Bu, değişkenin ayrık olduğu olasılık kütle fonksiyonları ile değişken sürekli olduğu olasılık yoğunluk fonksiyonları arasındaki farkı anlamadan yaygın bir hatadır. Bkz. Olasılık dağılımı nedir :

sürekli olasılık fonksiyonları, sürekli bir aralıkta sonsuz sayıda nokta için tanımlanmıştır, tek bir noktadaki olasılık daima sıfırdır. Olasılıklar tek noktalarla değil aralıklarla ölçülür. Yani, iki ayrı nokta arasındaki eğri altındaki alan bu aralığın olasılığını tanımlar. Bu, olasılık fonksiyonunun yüksekliğinin aslında birden fazla olabileceği anlamına gelir. İntegralin eşit olması gereken özellik, tüm olasılıkların toplamının eşit olması gereken ayrık dağılımlar için olan özelliğe eşittir.


14
NIST genellikle yetkilidir, ancak burada teknik olarak yanlıştır (ve önyüklemenin programsız olması): "sonsuz sayıda nokta" olarak tanımlanmış bir olasılık olması "tek bir noktadaki olasılık her zaman sıfırdır" anlamına gelmez. Elbette sonsuz kardinalitelerle ilgili bir dikkat dağıtıcı durumdan kaçıyorlar, ancak buradaki mantık yanıltıcı. Sadece alıntıdaki ilk cümleyi atlamaması daha iyi olur.
whuber

23

[a,b]1/(ba)ba11/(ba)

[0,0.5]1/(0.50)=2[0,0.1]10


4

Vikipedi makalesinin bu konudaki ilk gönderilerin ardından düzenlenip düzenlenmediğini bilmiyorum, ancak şimdi "1'den büyük bir değerin iyi olduğunu unutmayın - bu bir olasılık yerine olasılık yoğunluğudur, çünkü yükseklik sürekli bir değişken. "ve en azından bu acil bağlamda, olasılık için P, olasılık yoğunluğu için p kullanılır. Evet, çok özensiz, çünkü makale bazı yerlerde olasılık ve diğer yerlerde olasılık yoğunluğu olarak kullanılıyor.

Asıl soruya dönelim: "1'i geçen bir olasılık dağılım değeri iyi olabilir mi?" Hayır, ama ben bunu gördüm (aşağıdaki son paragrafa bakın).

İşte bir olasılık nasıl yorumlanır?> 1. Her şeyden önce, sporda sık sık duyduğumuz ve bazen https://www.youtube.com/watch?v=br_vSdAOHQQ çalıştığımız için insanların% 150 çaba gösterebileceğini ve yaptıklarını unutmayın . Bir şeyin olacağından eminseniz, bu 1 olabilir. Olasılık olacağından% 150 emin olduğunuz için 1,5 olasılığı yorumlanabilir -% 150 çaba vermek gibi.

Ve eğer> 1 olan bir olasılık varsa, o zaman <0 olan bir olasılığına sahip olabileceğini düşünüyorum. Olumsuz olasılıklar şu şekilde yorumlanabilir. 0.001 olasılığı, olayın gerçekleşmesi için neredeyse hiç şansın olmadığı anlamına gelir. Olasılık = 0, "mümkün değil" anlamına gelir. -1.2 gibi negatif bir olasılık "Dalga geçiyorsunuz" anlamına gelir.

PyPyPyPyPyPyPyPy1.8 kadar gitmek için. Ve işte birlik bariyeri de bu şekilde kırıldı. Ancak adam, belirttiğim kadar aklı başında bir kredi kartı boyutunda Casio bilimsel hesap makinesinde karanlık hesaplamalar yapan bir hesap makinesinde hızlıca hesaplamalar yaptığını söyleyene kadar bu öncü başarıyı gerçekleştirdiğini bilmiyordu. güneş enerjili bir hesap makinesi). Bu, Chuck Yeager'ın uçağında bir Pazar günü turuna çıkması ve sadece aylar sonra ses bariyerini kırdığı konusunda bilgilendirilmesi gibi bir şey olurdu.


Havalı hikaye. Bir alıntı gibi bu konuda daha fazla bilginiz var mı?
Jay Schyler Raadt

1
@ Jay Schyler Raadt Bu, istatistik.stackexchange.com/questions/4220/… , ha ha adresinde belgelenmiştir .
Mark L. Stone

0

Xf(x)f(x)dxf(x)f(height|male)f(height|male)dheight

XP(X[x,x+dx))=f(x)dxP(X[a,b])=abf(x)dxP(X=x)=P(X[x,x])=0


-1

Bir olasılık yoğunluğu grafiğinin belirli bir parametre değerindeki nokta değeri, olasılık olabilir mi? Eğer öyleyse, ifade sadece P (height | male) 'i L (height | male) olarak değiştirerek düzeltilebilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.