Küçük


62

Bazı testler için R, 2.22 10 - 16 hesaplamalarında daha düşük bir sınır vardır . Neden bu sayı olduğundan emin değilim, eğer bunun için iyi bir neden varsa veya sadece isteğe bağlıysa. Pek çok başka istatistik paketi de geçerli , bu yüzden bu çok daha yüksek bir hassasiyet seviyesi. Ancak p < 2.22 10 - 16 veya p = 2.22 10 - 16 bildiren çok fazla makale görmedim .2.2210-160.0001p<2.2210-16p=2.2210-16

Bu hesaplanan değeri bildirmek genel / en iyi uygulama mıdır yoksa başka bir şeyi bildirmek daha mı tipiktir p < 0.000000000000001?


Eğer böyle küçük bir p değeri alırsanız ve gerçek p değerini hesaplamak istiyorsanız, bu işlevi excel = TDIST (t, df, 2) 'de kullanabilirsiniz.' T 've df değerlerinizi ekleyin p-değeri ta

7
@Tahzeeb, Excel'in R .. den daha kesin bir tahminde bulunabilmesi için herhangi bir neden var mı? Bildiğim kadarıyla, daha az kesin.
Tim

...But I haven't seen too many papers reporting p<2.22⋅10−16....Bazı GWAS belgelerine bakın , yüzlerce değerin sonuçlarını gösteren birçok makale var, örneğin: Prostat kanseri KLK bölgesi, p = 9x10 ^ -186.
zx8754

Yanıtlar:


87

Bunun için iyi bir sebep var.

Değer üzerinden bulunabilir noquote(unlist(format(.Machine)))

           double.eps        double.neg.eps           double.xmin 
         2.220446e-16          1.110223e-16         2.225074e-308 
          double.xmax           double.base         double.digits 
        1.797693e+308                     2                    53 
      double.rounding          double.guard     double.ulp.digits 
                    5                     0                   -52 
double.neg.ulp.digits       double.exponent        double.min.exp 
                  -53                    11                 -1022 
       double.max.exp           integer.max           sizeof.long 
                 1024            2147483647                     4 
      sizeof.longlong     sizeof.longdouble        sizeof.pointer 
                    8                    12                     4 

Yardıma bakarsanız, ( ?".Machine"):

double.eps  

the smallest positive floating-point number x such that 1 + x != 1. It equals 
double.base ^ ulp.digits if either double.base is 2 or double.rounding is 0; 
otherwise, it is (double.base ^ double.ulp.digits) / 2. Normally 2.220446e-16.

Temel olarak, değerin oldukça sayısal olarak anlamsız olacağından emin olabileceğiniz bir değerdir - bu nedenle daha küçük bir değerin, hesaplamaya çalıştığımız değerin doğru bir şekilde hesaplanması muhtemel değildir. (Belirli bir prosedürle hangi hesaplamaların yapıldığına bağlı olarak, küçük bir sayısal analiz çalışmış olmanız, sayısal anlamsızlığın bunun üzerinde adil bir şekilde ortaya çıkma ihtimali yüksektir.)

Ancak istatistiksel anlam çok daha önce kaybolmuş olacak. P-değerlerinin varsayımlara bağlı olduğunu ve aşırı kuyruğa girdiğiniz zaman, gerçek p-değerinin (hesapladığımız nominal değerden ziyade) daha ağır gittiğinin, bazı durumlarda hatalı varsayımlardan etkileneceğini unutmayın. Sadece biraz yanlış. Varsayımların basitçe tam olarak karşılanmayacağına göre, p-değerlerinin birleştirilmesi makul olarak doğru olabilir (göreceli doğruluk açısından, belki de sadece mütevazı bir kesir ile), ancak son derece küçük p-değerleri birçok emir tarafından verilebilir büyüklüğü.

Bu, olağan uygulamanın (paketlerde sıkça söylediğiniz "<0.0001" gibi bir şey veya Jaap'ın cevabında bahsettiği APA kuralı gibi) muhtemelen mantıklı bir pratikten çok uzak olmadığını, ' Çok çok küçük ' derken anlamını yitirmek elbette şartlara bağlı olarak oldukça değişecektir.

Bu, genel bir kural öneremememin bir nedeni - her koşulda herkes için uzaktan bile uygun olan tek bir kural olamaz - koşulları biraz değiştirin ve değişimi biraz anlamlı ve göreceli olarak anlamlı hale getiren geniş gri çizgiyi işaretleyin anlamsız, bazen uzun süre değişecek.

Birlikte (bir gerileme var mesela, tam koşullar hakkında yeterli bilgi belirtmek için olsaydı bu kadar doğrusal olmama, yani bu bağımsız değişkene varyasyon miktarı, bu hata vadede nazik ve bağımlılık miktarı o tür ve varyans miktarı, Bu hata dağılım şekli), nominal p değerleri ile karşılaştırmanız için 'gerçek' p-değerlerini simüle edebilirim, böylece nominal değerin herhangi bir anlamı taşımayacak kadar farklı olduklarını görebilirsiniz.

Fakat bu bizi ikinci nedene götürüyor - gerçek p-değerleri simüle etmek için yeterli bilgiyi belirtmiş olsanız bile - bu durumlar için bile kesin olarak kesinti yapamadım.

Bildirdiğiniz şey insanların tercihlerine - sizin ve izleyicilerinize bağlıdır. Bana nominal çizgiyi çizmek istediğini karar vermek için size koşullar hakkında yeterli bana hayal ait 10 - 6 .p10-6

Her şey yolunda ve iyi, biz düşünebiliriz - kendi tercih fonksiyonunuz hariç (size doğru görünen şey, istatistik paketleri tarafından verilen nominal p değerleri ile belirli bir küme varsayarak simülasyondan kaynaklananlar arasındaki farka bakmaktır. varsayımların başarısızlığı nedeniyle) koyabilir ve göndermek istediğiniz derginin editörleri 10 - 4'te kesmek için battaniye kurallarını koyabilir ve bir sonraki dergi 10 - 3'e koyabilir . Bundan sonra genel bir kurala sahip olmayabilir ve sahip olduğunuz editör verdiğimden daha düşük değerleri kabul edebilir ... fakat hakemlerden birinin belirli bir kesinti olabilir!10-510-410-3

Tercih işlevlerinin ve kurallarının bilgisinin yokluğunda ve kendi yardımcı programlarınızın bilgisinin yokluğunda, hangi eylemlerin gerçekleştirileceğine dair genel bir seçimi sorumlu bir şekilde nasıl önerebilirim?

En azından size yaptığım birçok şeyi söyleyebilirim (ve bunun sizin için iyi bir seçim olduğunu düşünmüyorum):

10-610-510-4

Bu, bir seçimi bildirmede kesinlikle faydalıdır - ancak simülasyonun sonuçlarını, bir kesim değeri seçmek için kullanmaları ve başkalarına kendi seçimlerini yapma şansı vermeleri konusunda tartışmam muhtemel.

Simülasyona bir alternatif, varsayımın çeşitli olası başarısızlıklarına karşı daha sağlam * bazı prosedürlere bakmak ve p-değerinde ne kadar fark yaratabileceğini görmektir. Onların p değerleri de özellikle anlamlı olmayacak, ancak en azından ne kadar etki olacağı konusunda bir fikir veriyorlar. Bazıları nominal olandan çok farklıysa, bu , etkisinin araştırılması için hangi varsayımların ihlal edildiğine dair daha fazla fikir verir . Bu alternatiflerden hiçbirini bildirmeseniz bile, küçük p değerinizin ne kadar anlamlı olduğu konusunda daha iyi bir resim verir.

* Burada, bazı varsayımların ağır ihlaline karşı dayanıklı prosedürlere ihtiyacımız olmadığını unutmayın; İlgili varsayımın nispeten hafif sapmalarından daha az etkilenenler bu alıştırma için iyi olmalıdır.

Bu tür simülasyonlar yapmaya geldiğinizde / oldukça hafif ihlallerde bile, bazı durumlarda küçük değerlerin ne kadar yanlış olmadığı bile şaşırtıcı olabilir. Bu, bir p-değerini kişisel olarak yorumlama biçimimi değiştirmek için kullanabileceğim belirli kesintileri değiştirdiğinden daha fazlasını yaptı.

Gerçek bir hipotez testinin sonuçlarını bir dergiye gönderirken, kuralları olup olmadığını öğrenmeye çalışıyorum. Olmazlarsa, kendimi memnun etme eğilimindeyim ve sonra hakemlerin şikayet etmesini beklerim.


11
Özellikle çok daha önce kaybedilen istatistiksel anlamın yorumunu beğendim .
usεr11852 diyor ki

Mükemmel cevap! Bununla ilgili tüm detayları takdir ediyorum, R'nin bu numarayı neden verdiğini açıklıyor. Ancak, neyin rapor edileceği sorusuna gerçekten cevap vermiyor.
Paul

1
Belirli bir öneride bulunmaktan neden sorumlu olmadığımı açıklamak amacıyla konuyu ele aldığımı hissettim. Bazı paketlerde yaygın olarak kullanılan "<0.0001" gibi bir şeyi rapor etmenin neden anlamlı olduğunu tartıştığımı unutmayın. İlk olarak verdiğim belirli bir numarayı önermememin birkaç nedeni var. Bu sebeple ikincisini bir düzenlemede genişleteceğim.
Glen_b

paul, biraz daha önemli tartışma ekledim.
Glen_b

2
Evet, bir şeyler yapman gerekiyor; daha kapsamlı yorumumun amacı, ne yapmayı seçmeniz gerektiğini size söyleyemeyeceğimi, sadece tercihinize giren sorunları tartışabileceğimi iletmektir. Umarım öyle yapmışımdır, ancak yapabilirsem sorunları daha iyi açıklamaya çalışmaktan mutluyum.
Glen_b

27

Yaygın olarak kullanılan uygulama, araştırma alanınıza bağlı olabilir. En sık kullanılan alıntı stillerinden biri olan Amerikan Psikologlar Birliği (APA) el kitabında şöyle yazıyor: (s. 139, 6. baskı):

P <0,001'den küçük bir değer kullanmayın


8
Genelde bahsettiğim şey olsa da (+1), PNAS'ta Valen Johnson'ın son tavsiyesi üzerine, bu tavsiyeyi bir ondalık basamakta gözden geçirme gerekip gerekmediğinden emin değilim : "0.005'i varsayılan anlamlılık düzeyi yapın [ ...]. Son derece önemli test sonuçlarını 0,001'den düşük P değerleri ile ilişkilendirin. "
Henrik,

3
İyi cevap. Tarzlarımda stil kılavuzları ve gerçek standartlar yok, en azından p değerleri için değil. Disiplinlerarası çalışmalar yapıyorum ama sanırım bilgisayar bilimi ve HCI bunun alanı olacak. Bence APA tarzı, yazarların döneceği bir yer olurdu, çünkü yöntemler genellikle bilişsel psişikten veya APA'nın kapsayacağı diğer alanlardan ödünç alınmıştır.
Paul,

10
5σp<10-6

1
5σzpp0.0001zp

@ amoeba Evet, sanırım haklısın.
Glen_b

14

Bu tür aşırı değerler, genomik ve süreç izleme gibi çok büyük miktarda veri içeren alanlarda daha sık görülür. Bu durumlarda, bazen -log 10 (p-değeri) olarak rapor edilir . Örneğin, p-değerlerinin 1e-26'ya düştüğü Doğa'dan bu rakama bakınız .

-log 10 (p-value), JMP'de birlikte çalıştığım istatistikçiler tarafından "LogWorth" olarak adlandırılıyor .


21
ppp -değeri.
Ben Bolker,

8
@BenBolker Aslında, "verilerinizle tahrif edilen NSA" dan daha az muhtemel olsa da, "Verilerinizde birkaç önemli bit attı" kozmik bir ışın "gibi olaylar bile, bu olasılıklardan çok daha muhtemeldir.
Glen_b

6
p<10-100ρ0.9n~500

8
p=2.2x10-226

9
@amoeba Slate Star Codex yorum bölümünde, Daniel Wells , science.sciencemag.org/content/363/6425/eaau1043'ün 3.6e-2382 ("yazım hatası değil, iki bin ") değerinde olduğunu belirtti. ), oldukça fazla bir farkla sizinkini yener!
Mark Amery

-3

R'de, "<2e-16" tam anlamıyla <2e-16 anlamına gelmez, ancak bunun yerine, değer R'nin kaydedemediği veya gösteremediği kadar küçüktür.

Regresyon testinde, sık sık "<2e-16" çıktığında p 4.940656e-324 kadar küçük olur, bu rakam 4.940656e-324'ten daha küçük bir sayıdır


Hangi numara " 4.940656e-324'ten daha küçük "?
Sven Hohenstein

8
" R," <2e-16 "ifadeniz anlamıyla <2e-16 " anlamına gelmez . R, görüntüler <2e-16, değer olan daha küçük 2e-16, kelimenin tam anlamıyla.
Sven Hohenstein

Ne dediğimi yanlış anladın. R "<2e-16" dediğinde, p değeri 2e-16'dan daha küçüktür, ancak 2e-16'dan küçük p değerinin "<2e-16" olarak gösterileceği anlamına gelmez. Gösterdiğim gibi, R'nin [4.940656e-324, 2e-16] arasındaki herhangi bir sayıdaki lm özet p-değerini gösterme sorunu yoktur, soldaki sınır ise 2 ^ -1074'tür. Bu nedenle, yalnızca p değeri 2 ^ -1074'ten küçük olduğunda, R'nin p değerinin küçük bir delta değerinden daha küçük olduğunu söyleyeceğini varsayalım. Sadece R bu delta değerini 2e-16 olarak gösterir. Yani benim tahminim "<2e-16" aslında p-değerlerindeki "<2 ^ -1074" anlamına geliyor
user3590816 22:17

6
Bununla birlikte, tahmininiz yanlış: @ Sven'in size anlatmaya çalıştığı şey bu. Yardıma bakın format.pvalveya olduğu gibi deneyin format.pval(1e-16).
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.