Neden% 95'lik bir CI ortalamayı içeren% 95'lik bir şans anlamına gelmiyor?
Bu soruda ve verilen cevapların çoğunda açıklığa kavuşturulması gereken birçok konu var. Kendimi sadece ikisiyle sınırlayacağım.
a. Bir nüfusun anlamı nedir? Gerçek bir nüfus var mıdır?
Nüfus ortalaması kavramı modele bağlıdır. Tüm modeller yanlış olduğu, ancak bazıları yararlı olduğu için, bu popülasyon ortalaması, yalnızca faydalı yorumlar sağlamak için tanımlanan bir kurgudur. Kurgu bir olasılık modeli ile başlar.
Olasılık modeli üçlüsü
burada örnek alanıdır (boş olmayan bir küme), bir ailedir alt kümelerinin ve , üzerinde tanımlanmış iyi tanımlanmış bir olasılık ölçüsüdür (veri davranışını yönetir). Genellik kaybı olmadan, sadece ayrık durumu göz önünde bulundurun. Popülasyon ortalaması
yani altındaki merkezi eğilimi temsil eder ve ayrıca kütle merkezi olarak da yorumlanabilir. içindeki tüm noktalar , her birinin ağırlığı
(X,F,P),
XFXPFμ=∑x∈XxP(X=x),
PXx∈X , tarafından verilir .
P(X=x)
Olasılık teorisinde, ölçüsü bilinen kabul edilir, bu nedenle popülasyon ortalamasına yukarıdaki basit işlemle erişilebilir. Bununla birlikte, pratikte, olasılığı pek bilinmemektedir. Bir olasılık olmadan , verilerin olasılıksal davranışını tarif edemez. Veri davranışını açıklamak için kesin bir olasılık belirleyemediğimiz için, veri davranışını yöneten (veya açıklayan) olasılık önlemleri içeren bir aile belirledik. Sonra klasik istatistiksel model ortaya çıkıyor
Yukarıdaki modelde ile varsa parametrik bir model olduğu söylenir.PPPPM
(X,F,M).
Θ⊆Rpp<∞ bu kadar . Bu yazıdaki sadece parametrik modeli düşünelim.
M≡{Pθ: θ∈Θ}
Her olasılık ölçüsü için, her bir olasılık ölçüsü için ,
Diğer bir deyişle, tanımına sıkıca bağlı olan nüfus ailesi vardır . ' ailesi sınırlı insanlar tarafından tanımlanır ve bu nedenle veri davranışını düzenleyen gerçek olasılık ölçüsünü içermeyebilir. Aslına bakılırsa, seçilen aile gerçek ölçüyü pek içermez, ayrıca bu gerçek ölçü bile olmayabilir. Bir popülasyon ortalaması kavramı, deki olasılık ölçülerine bağlı olduğundan, popülasyon ortalaması modele bağlıdır.Pθ∈M
μθ=∑x∈XxPθ(X=x).
{μθ: θ∈Θ}MMM
Bayesian yaklaşımı, (veya eşdeğerde ) alt kümeleri üzerinde önceden bir olasılık olarak düşünür , ancak bu yazıda sadece klasik versiyon üzerinde yoğunlaşacağım.MΘ
b. Güven aralığının tanımı ve amacı nedir?
Yukarıda belirtildiği gibi, popülasyon ortalaması modele bağlıdır ve faydalı yorumlar sağlar. Bununla birlikte, istatistiksel model bir olasılık ölçütleri ailesi tarafından tanımlandığı için (her olasılık ölçüsü bir popülasyon ortalaması oluşturur) bir popülasyon aracı ailesine sahibiz. Bu nedenle, bir deneye dayanarak, nüfus araçlarının iyi adaylarını içeren küçük bir seti (aralığı) tahmin etmek için çıkarımsal prosedürler kullanılmalıdır. İyi bilinen bir prosedür, kümesiyle tanımlanan ( ) güven bölgesidir; öyle ki, tüm ,
nerede1−αCαθ∈Θ
Pθ(Cα(X)∋μθ)≥1−α and infθ∈ΘPθ(Cα(X)∋μθ)=1−α,
Pθ(Cα(X)=∅)=0 (bkz. Schervish, 1995). Bu çok genel bir tanımdır ve neredeyse her türlü güven aralığı içerir. Burada, olasılığıdır içeren ölçüsü altında . Bu olasılık her zaman büyük veya eşit olmalıdır , eşitlik en kötü durumda meydana gelir.
Pθ(Cα(X)∋μθ)Cα(X)μθPθ1−α
Not: Okuyucular, gerçeklik durumuna ilişkin varsayımlarda bulunmanın gerekmediğini fark etmelidir, güven bölgesi, herhangi bir "doğru" ortama atıfta bulunmadan iyi tanımlanmış bir istatistiksel model için tanımlanmıştır. "Doğru" olasılık ölçüsü mevcut olmasa veya de olmasa bile , varsayımlar gerçeklik durumlarından ziyade istatistiksel modelleme ile ilgili olduğu için güven bölgesi tanımı işe yarayacaktır.M
Bir yandan, verileri gözlemlemeden önce , rasgele bir (veya rastgele aralık) ve " ın ' ortalama en azından, tümü için . Bu, frekansçı paradigma için çok istenen bir özelliktir.Cα(X)Cα(X)μθ(1−α)θ∈Θ
Öte yandan, verilerini gözlemledikten sonra , sadece sabit bir ve " in "' nın ortalamasını içermesi olasılığının tüm .xCα(x)Cα(x)μθθ∈Θ
Yani, verisini inceledikten sonra , olasılıksal akıl yürütmeyi artık kullanamayız. Bildiğim kadarıyla, gözlemlenen bir örnek için güven kümelerini tedavi edecek bir teori yok (üzerinde çalışıyorum ve güzel sonuçlar elde ediyorum). Bir süre için, , gözlenen kümenin (veya aralık) in tüm içeren kümelerinden biri olduğuna .C α ( x ) ( 1 - α ) % 100 μ θ θ ∈ ΘxCα(x)(1−α)100%μθθ∈Θ
Not: Görevime yorum, eleştiri, eleştiri ve hatta itiraz davet ediyorum. Bunu derinlemesine tartışalım. Anadili İngilizce olmadığım için gönderimim kesinlikle yazım hataları ve gramer hataları içeriyor.
Referans:
Schervish, M. (1995), İstatistik Teorisi, İkinci baskı, Springer.