Gerçekten eski bir soruya cevap vermek gibisi yoktur, ama işte ...
p değerleri neredeyse geçerli hipotez testleridir. Bu, Jaynes'in 2003 olasılık teorisi kitabından (Tekrarlanan deneyler: olasılık ve frekans) alınan, biraz uyarlanmış bir çabadır. Test etmek istediğimiz bir boş hipotez olduğunu varsayalım . Veri sahip ve önceki bilgiler . test belirtilmemiş hipotezi olduğunu varsayalım . İçin arka olasılık oranı karşı sonra verilir: D I H Bir İH 0 İH bir H 0H0DIHAH0HAH0
P(HA|DI)P(H0|DI)=P(HA|I)P(H0|I)×P(D|HAI)P(D|H0I)
Şimdi sağ taraftaki ilk terim verilerden bağımsızdır, bu nedenle veriler yalnızca ikinci terim ile sonucu etkileyebilir. Şimdi, her zaman alternatif bir hipotez icat edebilirsiniz şekilde bir "mükemmel uyum" hipotezi -. Bu nedenle, , verilerin null üzerindeki alternatif hipotezleri ne kadar iyi destekleyebileceğinin bir ölçüsü olarak kullanabiliriz. Verilerin üzerinden den daha fazla destekleyebileceği alternatif hipotezi yoktur . Alternatiflerin sınıfını da sınırlayabiliriz ve değişiklik şu ki , o sınıf içindeki en üst düzeye çıkarılmış (normalleştirici sabitler dahil) olabilir. Eğer P ( D | H A I ) = 1 1HAP(D|HAI)=1 H011P(D|H0I)H0 1P(D|H0I)H0HAt(D)>t0t(D)Dt(D)1P(D|H0I)1P(D|H0I)Çok küçük olmaya başlar, sonra şüphe etmeye başlarız, çünkü ve arasındaki alternatiflerin sayısı artar (bazıları önemsenmeyen önceki olasılıklar da dahil). Ancak bu, p-değerleri ile yapılan işlemlerin neredeyse hemen hemen aynısıdır, ancak bir istisna dışında: bazı istatistiklerin ve istatistiklerin bazı “kötü” bölgeleri için olasılığını hesaplamıyoruz . olasılığını hesaplıyoruz - bazı altkümeler yerine gerçekte sahip olduğumuz bilgiler .H0HAt(D)>t0t(D)Dt(D)
İnsanların p-değerlerini kullanmasının bir başka nedeni de, genellikle "uygun" bir hipotez testine işaret etmeleridir ancak hesaplamaları daha kolay olabilir. Bunu, normal ortalamayı bilinen varyansla test etmenin çok basit bir örneğiyle gösterebiliriz. Veri sahip sahte modelle (önceki bilgilerinin bir parçası ). test etmek istiyoruz . Sonra küçük bir hesaplamadan sonra, biz var:x i ~ N o r m bir l ( μ , σ 2 ) I H 0 : μ = μ 0D≡{x1,…,xN}xi∼Normal(μ,σ2)IH0:μ=μ0
P(D|H0I)=(2πσ2)−N2exp(−N[s2+(x¯¯¯−μ0)2]2σ2)
Burada ve . Bu, maksimum değerinin olduğunda elde edileceğini gösterir . Maksimum değer:s2=1x¯¯¯=1N∑Ni=1xiP(D|H0I)μ0= ¯ xs2=1N∑Ni=1(xi−x¯¯¯)2P(D|H0I)μ0=x¯¯¯
P(D|HAI)=(2πσ2)−N2exp(−Ns22σ2)
Böylece bu ikisinin oranını alıyoruz ve alıyoruz:
P(D|HAI)P(D|H0I)=(2πσ2)−N2exp(−Ns22σ2)(2πσ2)−N2exp(−Ns2+N(x¯¯¯−μ0)22σ2)=exp(z22)
Burada "Z-istatistiği" dir. in büyük değerleri Veriler tarafından en güçlü şekilde desteklenen normal ortalama hakkındaki hipoteze göre sıfır hipotezde şüphe yaratır. Ayrıca, in gereken verilerin sadece bir parçası olduğunu ve dolayısıyla test için yeterli bir istatistik olduğunu görebiliriz.z=N−−√x¯¯¯−μ0σ|z|x¯¯¯
Bu soruna p değeri yaklaşımı neredeyse aynı, ancak tersi. Yeterli istatistiğiyle başlıyoruz ve örneklem dağılımını hesaplıyoruz; bunun kolaylıkla olduğu görülüyor - rastgele değişkeni rastgele değişkeni gözlenen değerden ayırmak için büyük harf kullandım . Şimdi boş hipotezden kuşku duyan bir bölge bulmamız gerekiyor: bu,büyük. Böylece olasılığını hesaplayabilirizx¯¯¯X¯¯¯¯∼Normal(μ,σ2N)X¯¯¯¯x¯¯¯|X¯¯¯¯−μ0||X¯¯¯¯−μ0|≥|x¯¯¯−μ0|Gözlemlenen verilerin ne kadar uzakta olduğu hipotezinden bir ölçü olarak. Daha önce olduğu gibi, bu basit bir hesaplamadır ve şunu elde ederiz:
p-value=P(|X¯¯¯¯−μ0|≥|x¯¯¯−μ0||H0)
=1−P[−N−−√|x¯¯¯−μ0|σ≤N−−√X¯¯¯¯−μ0σ≤N−−√|x¯¯¯−μ0|σ|H0]
=1−P(−|z|≤Z≤|z||H0)=2[1−Φ(|z|)]
Şimdi, p-değerininBu, aslında “uygun” hipotez testiyle aynı cevabı elde ettiğimiz anlamına gelir. P değeri belirli bir eşiğin altındayken reddetmek, arka oranlar belirli bir eşiğin üstünde olduğunda reddetmekle aynı şeydir. Ancak, uygun testi yaparken, alternatiflerin sınıfını tanımlamamız gerektiğine ve bu sınıfa yönelik bir olasılığı en üst düzeye çıkarmak zorunda olduğumuza dikkat edin. P değeri için bir istatistik bulmalı ve örnekleme dağılımını hesaplamalı ve bunu gözlemlenen değerde değerlendirmeliyiz. Bir anlamda istatistik seçmek, düşündüğünüz alternatif hipotezi tanımlamaya eşdeğerdir.|z|
Her ikisi de bu örnekte yapılması kolay şeyler olsa da, daha karmaşık durumlarda her zaman bu kadar kolay değildir. Bazı durumlarda, örnekleme dağılımını kullanmak ve hesaplamak için doğru istatistiği seçmek daha kolay olabilir. Diğerlerinde, alternatiflerin sınıfını tanımlamak ve bu sınıfa göre en üst düzeye çıkarmak daha kolay olabilir.
Bu basit örnek, birçok hipotez testinin "yaklaşık normal" çeşitlilikte olması nedeniyle büyük miktarda p-değere dayalı teste neden olmaktadır. Ayrıca madeni para sorununuza da yaklaşık bir cevap vermektedir (binom için normal yaklaşımı kullanarak). Ayrıca, bu durumda p-değerlerinin, en azından tek bir hipotezi test etme konusunda sizi yoldan saptırmayacağını da göstermektedir. Bu durumda, bir p değerinin boş hipoteze karşı bir kanıt ölçüsü olduğunu söyleyebiliriz.
Bununla birlikte, p değerleri bayes faktöründen daha az yorumlanabilir bir ölçeğe sahiptir - p değeri ile boş değere karşı kanıtların "miktarı" arasındaki bağlantı karmaşıktır. p-değerleri çok hızlı bir şekilde çok küçülür - bu da onları doğru şekilde kullanmalarını zorlaştırır. Verilerin sağladığı boşluğa karşı desteği abartıyorlar. - biz boş karşı olasılık, p-değerleri yorumlamak ise oran şeklinde olduğu gerçek kanıt olduğunda, ve oran biçimindedir gerçek kanıt olduğunda . Veya başka bir deyişle, null değerinin yanlışı olma olasılığı olarak bir p-değeri kullanmak, önceki oranları belirlemeye eşdeğerdir. Yani p değeri için0.193.870.05196.830.1boş değere karşı verilen önceki bahis oranları ve p- değeri için boş değere karşı belirtilen önceki bahis oranları .2.330.052.78