Sorunun kaba cevabı,% 95'lik bir güven aralığının,% 95'inin gerçek parametre değerinin aralık içinde kaldığından emin olmanıza izin vermesidir. Ancak, bu kaba cevap hem eksik hem de yanlış.
Eksiklik, "% 95 kendinden emin" bir şeyin somut bir şey ifade ettiği ya da eğer öyleyse, somut anlamın küçük bir istatistikçi örneği tarafından bile evrensel olarak kabul görmeyeceği açık olmasından kaynaklanmaktadır. Güvenin anlamı, aralığın elde edilmesinde hangi yöntemin kullanıldığına ve hangi çıkarım modelinin kullanıldığına (bunun daha açık olacağını umarım) bağlıdır.
Yanlışlık, birçok güven aralığının, güven aralığını veren belirli deneysel durum için gerçek parametre değerinin yeri hakkında bir şey söylemek üzere tasarlanmaması gerçeğinden kaynaklanır! Bu birçok kişiye şaşırtıcı gelecektir, ancak doğrudan bu alıntıda 1933 tarihli “İstatistiksel Hipotezlerin En Verimli Testleri Sorunu Üzerine” başlıklı makalesinde açıkça belirtilen Neyman-Pearson felsefesinden kaynaklanmaktadır:
Belirli bir hipotez söz konusu olduğunda, olasılık teorisine dayanan hiçbir testin kendi başına bu hipotezin gerçeği veya yanlışlığı ile ilgili değerli bir kanıt sağlayamayacağını düşünmeye meyilliyiz.
Ancak, testlerin amacına başka bir bakış açısıyla bakabiliriz. Her ayrı hipotezin doğru ya da yanlış olup olmadığını bilmek umuduyla, uzun deneyimler sırasında çok sık yanlış olmayacağımızdan emin olduktan sonra, davranışlarımızı yönetme kurallarını arayabiliriz.
NP hipotez testlerinin 'inversiyonuna' dayanan aralıklar, bu testten, uzun süreli hata özelliklerine sahip olmanın doğasını, bunları veren deneyin özellikleriyle ilgili çıkarım yapılmasına izin vermeyecek şekilde miras alacak! Anladığım kadarıyla, bunun Neyman’ın görünüşte bir uyuşukluk olduğunu düşündüğü endüktif çıkarımlara karşı koruduğu.
Neyman açıkça “güven aralığı” terimine ve 1941 Biyometrika belgesindeki “Güvene dair tartışma ve güven aralığı teorisi” adlı güven aralığı teorisinin kökenine dair iddiada bulunur. Bir anlamda, o zaman, uygun bir güven aralığı olan her şey kendi kurallarına göre oynar ve bu nedenle bireysel bir aralığın anlamı, yalnızca bu yöntemle hesaplanan aralıkların ilgili gerçeği içerdiği (kapsadığı) uzun çalışma hızı ile ifade edilebilir. parametre değeri.
Şimdi tartışmayı düzenlemeliyiz. Bir tel, 'kapsama alanı' nosyonunu takip ederken, diğeri güven aralıkları gibi olan Neymanian olmayan aralıkları izler. Eski olanı erteleyeceğim, böylece çok geçmeden bu görevi tamamlayabileyim.
Neymanyalı olmayan güven aralıkları olarak adlandırılabilecek aralıklar veren birçok farklı yaklaşım vardır. Bunlardan ilki, Fisher'ın güven aralıklarıdır. ('Fiducial' kelimesi birçok kişiyi korkutabilir ve diğerlerinden aldatıcı lekeler çıkartabilir, ancak bunu bir kenara bırakacağım ...) Bazı veri türleri için (örneğin bilinmeyen popülasyon varyansı ile normal) Fisher yöntemiyle hesaplanan aralıklar sayısal olarak aynıdır. Neyman metodu ile hesaplanacak aralıklar. Ancak, bunlar tamamen karşı çıkan yorumları davet ediyorlar. Neymanya aralıkları, yöntemin sadece uzun süreli kapsama özelliklerini yansıtırken, Fisher'ın aralıkları, gerçekleştirilen belirli bir deney için gerçek parametre değerleriyle ilgili endüktif çıkarımı desteklemeyi amaçlamaktadır.
Bir aralık sınırı setinin, iki felsefi açıdan farklı paradigmadan birine dayanan yöntemlerden gelmesi, kafa karıştırıcı bir duruma yol açar - sonuçlar iki çelişkili şekilde yorumlanabilir. Fiducial argümandan,% 95 belirli bir% 95 fiducial aralığın gerçek parametre değerini içerme olasılığı vardır. Neyman'ın yönteminden yalnızca bu şekilde hesaplanan aralıkların% 95'inin gerçek parametre değerini içereceğini biliyoruz ve gerçek parametre değerini içeren aralığın bilinmeyen fakat 1 veya 0 olması olasılığı ile ilgili kafa karıştırıcı şeyler söylemek zorundayız.
Neyman'ın yaklaşımı, büyük ölçüde Fisher'ın üzerine sundu. Bu en talihsiz bir durum, bence, çünkü aralıkları doğal olarak yorumlamaya yol açmaz. (Yukarıdaki teklifi Neyman ve Pearson'dan tekrar okuyun ve deneysel sonuçların doğal yorumunuza uyup uymadığına bakın. Büyük olasılıkla uymuyor.)
Bir aralık global hata oranları açısından doğru bir şekilde yorumlanabiliyorsa, ancak aynı zamanda yerel çıkarımsal terimlerle de doğru bir şekilde yorumlanabilirse, aralık kullanıcıları için, ikincisi tarafından sağlanan daha doğal yorumlamadan engel olmak için iyi bir neden göremiyorum. Bu yüzden benim önerim, bir güven aralığı için doğru yorumlamanın aşağıdakilerin HAYIR olduğu yönündedir:
Neymanian: Bu% 95 aralığı, uzun vadede (istatistik deneyimimizden ...) gerçek parametrelerin% 95'ini kapsayan gerçek parametre değerini kapsayan aralıkları veren bir yöntemle yapılmıştır.
Balıkçı: Bu% 95 aralığının, gerçek parametre değerini karşılama olasılığı% 95'tir.
(Bayes ve olabilirlik yöntemleri, aynı zamanda arzu edilen sıklık özelliklerine sahip aralıklar da üretecektir. Bu aralıklar, muhtemelen her ikisi de Neymaniyen'den daha doğal hissedecek biraz farklı yorumlara neden olacaktır.)