P-değerlerini birbirleriyle karşılaştırmanın anlamı nedir?


20

Her biri örnek içeren iki popülasyonum var (erkekler ve kadınlar) . Her örnek için iki A ve B özelliğim var (birinci sınıf not ortalaması ve SAT puanı). A & B için ayrı bir t testi kullandım: her ikisi de iki grup arasında anlamlı farklılıklar buldu; A, ve B, .p = 0.008 p = 0.0021000p=0.008p=0.002

B mülkünün A mülkünden daha iyi (daha anlamlı) olduğunu iddia etmek uygun mudur? Yoksa bir t-testinin sadece bir evet veya hayır (anlamlı veya anlamlı olmayan) ölçüsü mü?

Güncelleme : Buradaki yorumlara ve wikipedia'da okuduğum şeye göre, cevabın şöyle olması gerektiğini düşünüyorum: anlamsız p değerini düşürün ve etki büyüklüğünüzü bildirin . Düşüncesi olan var mı?


+ lütfen ben anadili İngilizce olmadığımı affet :)
Dov

Sorun değil: Yaptığım (küçük) düzenlemelerin sorunuzu anlamlı bir şekilde değiştirdiğini düşünüyorsanız, lütfen bunları düzeltmekten çekinmeyin.
whuber

Ölçtüğünüz sonuç nedir? (yani A / değil A veya B / B değil olarak tanımlanan gruplar arasında farklılık gösteren nedir?) 1000 örneğin hepsinde ölçülmüş mü, yoksa eksik mi?
konuk

3
İki farklı efekt boyutunun veya iki farklı efekt boyutu için güven aralığının raporlanması iyi bir fikir olacaktır. İki veri kümenizin her birinin sonucu aynıysa bunu yorumlamak daha kolay olurdu (değil mi?).
Peter Ellis

2
Bir orman arazisi kullanarak istatistiksel olarak anlamlı ve etkili bir boyut gösterebilirsiniz ! % 95 CI sunmak, 2 yerine 4 sayı kullandığınız anlamına gelir, ancak herkesin bahsettiği gibi, deneyleri karşılaştırmak için gereken bilgilerin boyutunu yeterince temsil eder.
AdamO

Yanıtlar:


20

Birçok kişi bir değerinin ya anlamlı ( ) olabileceğini ya da olmayabileceğini savunur ve bu nedenle iki - değerini birbirleriyle karşılaştırmak hiç mantıklı değildir . Bu yanlış; bazı durumlarda yapar.p < α ppp<αp

Özel durumunuzda, -değerlerini doğrudan karşılaştırabileceğinizden kesinlikle şüphe yoktur . Örnek boyutu sabitse ( ), o zaman -değerleri monotonik olarak -değerleriyle ilişkilidir , bu da Cohen'in tarafından ölçüldüğü gibi etki boyutu ile monoton olarak ilişkilidir . Özellikle, . Bu, değerlerinizin efekt boyutuyla bire bir yazışmada olduğu anlamına gelir ve bu nedenle A özelliği için değeri, B özelliğinden daha büyükse, A için etki boyutunun daha küçük olduğundan emin olabilirsiniz. mülk B için olandann = 1000 p t d d = 2 t / pn=1000ptd ppd=2t/npp

Bunun sorunuza cevap verdiğine inanıyorum.

Birkaç ek nokta:

  1. Bu sadece numune büyüklüğü sabit olduğu için geçerlidir . Bir örnek büyüklüğüne sahip bir deneyde A özelliği için ve başka bir örnek büyüklüğüne sahip başka bir deneyde A özelliği için alırsanız , bunları karşılaştırmak daha zordur.p = 0.008 p = 0.002np=0.008p=0.002

    • Soru, özellikle A veya B'nin popülasyonda daha iyi "ayrımcılığa uğramış olup olmadığı" ise (yani: A veya B değerlerine bakarak cinsiyeti ne kadar iyi tahmin edebilirsiniz?), O zaman etki büyüklüğüne bakmalısınız. Basit durumlarda, ve bilmek etki boyutunu hesaplamak için yeterlidir.npn

    • Soru daha belirsiz ise: hangi deney null'a karşı daha fazla “kanıt” sağlar? Daha sonra konu çekişmeli karmaşık ve olur, ama ben söyleyebilirim - (örn A = B ise bu anlamlı olabilir) tanım gereği-değeri olduğunu düşürmek, böylece boş karşı kanıt sayıl özeti -değeri , örnek boyutları farklı olsa bile kanıtlar ne kadar güçlü olursa.ppp

  2. B için etki büyüklüğünün A'dan daha büyük olduğunu söylemek, önemli ölçüde daha büyük olduğu anlamına gelmez . Böyle bir iddiada bulunmak için A ve B arasında doğrudan bir karşılaştırmaya ihtiyacınız vardır.

  3. -değerlerine ek olarak etki büyüklüklerini ve güven aralıklarını bildirmek (ve yorumlamak) her zaman iyi bir fikirdir .p


3
Tekdüzelik hakkında iyi puanlar ve iyi 3 puan. Şimdi, re: "emin olabilirsiniz" ifadesi: örnek için yeterince doğru, ama "önemli ölçüde"? (Yani, nüfus için güvenilir sonuçları olan?) Buna # 2'de kısaca değindiniz. Bunun daha kapsamlı bir tedavisi memnuniyetle karşılanacaktır. Şerefe ~
rolando2

4
Bu doğru, ama aynı zamanda bu durumda sadece mutlaka doğru olduğunu açıklamaya çalıştım (bunu da not edersiniz). Michelle'in genel olarak p-değerlerini bu şekilde kullanmamanız gerektiğine değdiğini düşünüyorum.
gung - Monica'yı eski

1
(-1) Bu yazının gövdesi doğrudur, ancak açılış cümlesi ("Birçok kişi ... birbirleri arasındaki iki değerini karşılaştırmanın mantıklı olmadığını iddia eder . Bu yanlış.") Çok kolay aslında sadece buradaki gibi özel durumlarda tutulduğunda genel tavsiye olarak yanlış yorumlanır. p
Andrew M

1
@AndrewM Belki. Cevabımın başlangıcını düzenledim. Şimdi daha iyi olup olmadığına bakın.
amip diyor Reinstate Monica

0

Şimdi bu soruya tamamen farklı bir cevabım olduğu için beni az önce kestirenlere teşekkürler.O nedenle bu cevabı yanlış olduğu için orijinal cevabımı sildim.

Sadece "çalışmamda A veya B daha iyi bir ayrımcı mıydı?" Sorusunu ele alan bu soru bağlamında, bir örneklemle değil, bir sayımla ilgileniyoruz. Bu nedenle, p-değerleri üretmek için kullanılanlar gibi çıkarımsal istatistiklerin kullanımı önemsizdir. Çıkarımsal istatistikler, örneğimizden elde ettiğimiz sonuçlardan nüfus tahminlerini çıkarmak için kullanılır. Bir topluma genellemek istemiyorsak, bu yöntemler gereksizdir. (Sayımda eksik değerlerle ilgili bazı özel sorunlar vardır, ancak bunlar bu durumda ilgisizdir.)

Bir popülasyonda sonuç elde etme olasılığı yoktur. Elde ettiğimiz sonucu elde ettik. Bu nedenle, sonuçlarımızın olasılığı% 100'dür. Bir güven aralığı oluşturmaya gerek yoktur - numune için nokta tahmini kesindir. Hiçbir şeyi tahmin etmek zorunda değiliz.

"Sahip olduğum verilerle hangi değişkenin daha iyi çalıştığı" özel durumunda, tek yapmanız gereken sonuçlara basit özet formunda bakmaktır. Bir tablo yeterli olabilir, belki kutu çizimi gibi bir grafik olabilir.


-1

P'de bir fark elde edersiniz, ancak bu farkın ne anlama geldiği belirsizdir (büyük, küçük, önemli mi?)

Belki önyükleme kullanın:

Verilerinizden (değiştirme ile) seçin, testlerinizi yeniden yapın, p'lerin (p_a - p_b) farkını hesaplayın, 100-200 kez tekrarlayın

delta p'lerinizin hangi kısmının <0 olduğunu kontrol edin (A'nın anlamı p, B'nin p'nin altındadır)

Not: Bunun yapıldığını gördüm, ancak uzman değilim.


1
Bu cevap, p değerlerini karşılaştırmanın bir yolunu açıklamaktadır , ancak asıl soru cevapsız kalmaktadır: prosedür herhangi bir anlam ifade ediyor mu ve sonuçlar nasıl yorumlanıyor?
whuber

-1

Yorum eklemek için çok uzun olduğu için bir cevap eklendi!

Michelle'in iyi bir yanıtı var, ancak birçok yorum p değerleri hakkında ortaya çıkan bazı ortak tartışmaları gösteriyor. Temel fikirler şunlardır:

1) Daha düşük bir p değeri, bir sonucun az çok önemli olduğu anlamına gelmez. Bu, en azından aşırı derecede sonuç alma şansının daha az olası olduğu anlamına gelir. Önem, seçtiğiniz önem düzeyine (testi çalıştırmadan önce seçtiğiniz) dayanan ikili bir sonuçtur.

2) Efekt boyutu (genellikle standart sapmaların #'lerine standartlaştırılmıştır) iki sayının "ne kadar farklı" olduğunu ölçmenin iyi bir yoludur. Dolayısıyla, Miktar A'nın etki büyüklüğü .8 standart sapma varsa ve Miktar B'nin etki büyüklüğü .5 standart sapma varsa, Miktar A'daki iki grup arasında Miktar B'den daha büyük bir fark olduğunu söyleyebilirsiniz. :

.2 standart sapma = "küçük" etki

.5 standart sapma = "orta" etki

.8 standart sapma = "büyük" etki


1
Ancak sabit örnek büyüklüğü verildiğinde, p değeri doğrudan monoton olarak etki büyüklüğü ile ilişkilidir!
amip: Reinstate Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.