Layman için yeterli istatistik


Yanıtlar:


33

Yeterli bir istatistik bir örnekte yer alan tüm bilgileri özetler, böylece size aynı örneği tahmin edip size örnek verelim mi yoksa sadece istatistiğin kendisini mi verelim. Bilgi kaybı olmadan verilerin azaltılması.

İşte bir örnek. sıfır civarında simetrik bir dağılımı olduğunu varsayalım . Size bir örnek vermek yerine, size mutlak değerlerin bir örneğini verdim (bu istatistiktir). İşareti göremiyorsun. Ancak dağılımın simetrik olduğunu biliyorsunuz, bu nedenle belirli bir x , - x ve x değeri için eşit derecede olasıdır (koşullu olasılık 0,5'tir ). Böylece adil bir jeton çevirebilirsiniz. Eğer kafa gelirse, bunu x negatif yapın. Kuyruklar varsa, pozitif yapın. Bu size bir örnek verir X ' orijinal veri ile aynı dağılıma sahiptir, XXxxx0.5xXX. Temel olarak verileri istatistikten yeniden yapılandırabiliyordunuz. Bunu yeterli kılan da bu.


Açıklığa kavuşturmak / onaylamak için: bir parametre için istatistikler yeterlidir . Bu örnekte belirtilen herhangi bir parametre yok, ancak istatistik herhangi bir seçilen parametrik dağılım X herhangi bir parametre için yeterli olacağını varsayalım ? Yani bu alışılmadık bir örnek - ama yine de sezgi için yararlı bir örnek.
Denziloe

2
@ Denziloe Bu dağılımın herhangi bir parametresi için, 0 civarında güçlü simetri varsayımları altında yeterlidir. Bu, sezgi oluşturmak için tasarlanmış bir oyuncak örneğidir.
Dimitriy V. Masterov

13

Bayes terimleriyle, gözlemlenebilir bazı X ve Θ parametresine sahipsiniz . Ortak dağıtım X,Θ belirtildi, ancak koşullu dağılımı gibi çarpanlarına olduğunu XΘ ve önceden dağılımı Θ . Bir istatistik T ve posterior dağılımı sadece eğer bu model için yeterlidir ΘX olduğu gibi aynı ΘT(X) , her önceden dağıtımı için Θ . Θ değerini öğrendikten sonra Θ hakkındaki güncel belirsizliğinizX hakkında güncellenmiş belirsizlik aynıdırΘ değerini bilerek sonraT(X) ,hakkında sahip öncesinde her türlü bilgi Θ . Yeterliliğin modele bağlı bir kavram olduğunu unutmayın.


1

Bir madalyonun olduğunu ve bunun adil olup olmadığını bilmediğini söyle. Başka bir deyişle, kafa ( H ) yukarı çıkma olasılığı p ve 1 - p kuyruk yukarı çıkma olasılığı ( T ) vardır ve p'nin değerini bilmiyorsunuzdur .H1pTp

Sikke birkaç kez atarak p değeri hakkında bir fikir elde etmeye çalışın , n kere.

Diyelim ki n=5 ve elde ettiğiniz sonuç dizidir (H,H,T,H,T) .

Şimdi istatistikçi arkadaşınızın p değerini sizin için tahmin etmesini ve belki de madalyonun adil olup olmayacağını söylemek istersiniz. Hesaplamalarını yapabilmeleri ve sonuçlarına varabilmeleri için onlara hangi bilgileri söylemeniz gerekir?

Onlara tüm verileri söyleyebilirsiniz, yani (H,H,T,H,T) . Bu gerekli mi? İlgili verileri kaybetmeden bu verileri özetleyebilir misiniz?

Madalyonun fırlatılmasının sırasının alakasız olduğu açıktır, çünkü her madalyon fırlatması için aynı şeyi yapıyordunuz ve madalyon fırlatmaları birbirini etkilemedi. Sonuç (H,H,T,T,H) olsaydı, sonuçlarımız farklı olmaz. Sonuç olarak, istatistikçi arkadaşınıza söylemeniz gereken tek şey, kaç kafa olduğunu saymaktır.

Bunu , kafa sayısının p için yeterli bir istatistik olduğunu söyleyerek ifade ediyoruz .

Bu örnek kavramın tadını verir. Resmi tanımla nasıl bağlandığını görmek istiyorsanız okumaya devam edin.

Resmi olarak, bir istatistik, istatistik değeri göz önüne alındığında, sonuçların olasılık dağılımı parametreyi içermiyorsa, bir parametre için yeterlidir.

Bu örnekte, kafa sayısını bilmeden önce, herhangi bir sonucun olasılığı pnumber of heads(1p)n - number of heads . Açıkçası bu p .

Ancak kafa sayısı 3 (ya da başka bir değer) olduğunu biliyoruz kez, 3 kafaları (Tüm sonuçlar (H,H,T,H,T) , (H,H,T,T,H) , ... ) olan eşit olasılıkla (hepsi olasılık var bu yüzden on imkan var aslında 1/10 ). Yani dağıtımın artık p ile ilgisi yok . Sezgisel olarak bu, gözlemlediğimiz hangi özel sonucun bize p hakkında daha fazla bilgi vermeyeceği anlamına gelir.pp

pnumber of headsnumber of headsp

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.