P değerleri ile ilgili olarak, neden% 1 ve% 5? Neden% 6 ya da% 10 değil?


80

ilgili olarak , % ve % neden altın standart olarak göründüğünü merak ediyorum . Neden % veya % gibi diğer değerler değil ?15"statistical significance"610

Bunun temel bir matematiksel sebebi var mı, yoksa bu sadece geniş kapsamlı bir kongre mi?


2
Ya herkesin 12 parmağı varsa? 10 tabanını değil, 12 tabanını sayardık. Bu, "% 1" in 1/144 veya 0.0069444444 olacağı anlamına gelir.
Contango

Yanıtlar:


77

Aşağıdaki referansları kontrol ederseniz, bazı ortak unsurlar olmasına rağmen, arka planda oldukça fazla miktarda değişiklik bulacaksınız.

Bu rakamlar en azından kısmen, Fisher’ın yaptığı bazı yorumlara dayanıyor.

(1/20 seviyesini tartışırken)

Bir sapmanın anlamlı olup olmadığına karar vermede bu noktayı sınırlamak uygun olacaktır. Standart sapmanın iki katını aşan sapmalar, resmen önemli olarak kabul edilir.

Fisher, RA (1925) Araştırma Görevlileri için İstatistiksel Yöntemler , s. 47

Öte yandan, bazen daha geniş biriydi:

Yirmi biri yeterince yüksek görünmüyorsa, eğer tercih edersek, çizgiyi ellide (yüzde 2 puan) veya yüzde birde (yüzde 1 puan) çizebiliriz. Şahsen, yazar yüzde 5 noktada düşük bir önem standardı belirlemeyi tercih ediyor ve bu seviyeye ulaşamayan tüm sonuçları tamamen görmezden geliyor. Bilimsel bir gerçek, ancak doğru bir şekilde tasarlanan bir deney nadiren bu önem düzeyini veremediğinde deneysel olarak kabul edilmiş sayılmalıdır .

Fisher, RA (1926) Saha deneylerinin düzenlenmesi . Tarım Bakanlığı Dergisi, s. 504

Fisher ayrıca kitabının tablolarından biri için% 5 kullandı - ancak diğer tablolarının çoğunun daha geniş bir çeşitlilik düzeyi vardı.

Yorumlarından bazıları, farklı durumlarda az ya da çok katı (yani düşük ya da yüksek alfa seviyeleri) yaklaşımlar önerdi.

Yukarıdaki bu tür tartışmalar, kullanmak için diğer herhangi bir 'standart' değer istemek için% 5 ve% 1 anlamlılık seviyelerine (ve bazen diğerleriyle,% 10,% 2 ve% 0,5) odaklanan tablolar üretme eğilimine yol açtı.

Ancak, bu yazıda Cowles ve Davis,% 5'inin - veya en azından buna yakın bir şeyin - kullanımının Fisher'ın yorumundan daha ileri gittiğini öne sürüyor.

Kısacası,% 5'lik (ve daha az oranda% 1'lik) kullanımımız oldukça keyfi bir kongredir, ancak pek çok insan birçok sorun için doğru şekilde oyunda olduklarını hissediyor görünmektedir.

Belirli bir değerin genel olarak kullanılması için hiçbir neden yoktur .

Diğer referanslar:

Dallal, Gerard E. (2012). İstatistiksel Uygulamanın Küçük El Kitabı. - Neden 0.05?

Stigler, Stephen (Aralık 2008). "Fisher ve% 5 seviyesi". Şans 21 (4): 12. burada mevcut

(Bunların arasında, çok az bir geçmişe sahip olursunuz - aralarındaki fark, en azından% 5'lik genel oy sahasında -% 2 ile% 10 arasında - yani% 2 ile% 10 arasında olduğu düşünüldüğünde, anlamlılık düzeylerini düşünmek için iyi bir durum var gibi görünüyor. bir süre hava.)


36

Cevap vermemeliyim ( burada olduğu gibi ):

“... elbette, Tanrı 0,06'yı yaklaşık olarak 0,05'i kadar seviyor. Tanrı'nın sıfır büyüklüğünün, p'nin büyüklüğünün oldukça sürekli bir işlevi olarak null'a karşı ya da aleyhinde delillerinin gücünü gördüğüne dair bir şüphe olabilir mi?” (P.1277)

Rosnow, RL ve Rosenthal, R. (1989). İstatistiki prosedürler ve psikolojik bilimlerde bilginin gerekçesi. Amerikan Psikoloğu , 44 (10), 1276-1284. pdf

Makalede bu konuda biraz daha tartışma var.


9
Peki ya 0.055? :)
nico

33
@nico Kimse 0.055
beğenmiyor

18

% 5 için bazı temel psikoloji olduğuna inanıyorum. Bunu nereden aldığımı hatırlamadığımı söylemeliyim, ama işte her undergrad giriş istatistik dersinde yaptığım alıştırma.

Bir yabancının bir barda size yaklaştığını ve size şöyle düştüğünü hayal edin: "Kafaları kuyruklardan daha sık üreten yanlı bir madeni param var. Benden bir tane almak istersiniz, böylece arkadaşlarınızla bahis oynayabilir ve para kazanabilirsiniz?" Tereddütle bir göz atmayı kabul edersiniz ve yazı tura 10 kez söylersiniz. Soru : Sizi önyargılı olduğuna ikna etmek için kaç kere başları / kuyrukları indirmesi gerekir?

Sonra bir el ele vereyim: bölünme 5/5 ise, madalyonun önyargılı olduğuna kim ikna olur? 4/6? 07/03? 2/8? 1/9? 0/10? İlk iki ya da üç kişiyi ikna etmeyecek, sonuncusu da herkesi ikna edecektir; Yine de çoğu insanı 2/8 ve 1/9 ikna ediyor. Şimdi, eğer binom tablosuna bakarsanız, 2/8% 5,5 ve 1/9% 1'dir. QED.

Herhangi biri şu anda bir giriş dersi veriyorsa, bu alıştırmayı da uygulamanızı ve sonuçlarınızı yorum olarak yayınlamanızı öneririm, böylece geniş bir meta-analiz sonuçları toplayabilir ve en azından Amerikan’da yayınlayabiliriz. İstatistiğin Öğretim Köşesi. ve tek taraflı ve iki taraflı koşulları değiştirmek için çekinmeyin !n

Başka bir cevapta, Glen_b, Fisher'ın bu sihirli sayıların, sorunun ne kadar ciddi olduğuna bağlı olarak değiştirilip değiştirilmeyeceği konusundaki tartışmasını sağladığından söz eder, bu yüzden lütfen yapmayın "Kız kardeşinizin lösemisinde yeni bir tedavi var, ama ya onu iyileştirir 3 ay ya da 3 gün içinde onu öldürelim, öyleyse hadi biraz bozuk para atalım "- bu, Andrew Gelman'ın bile sevmediği rezil xkcd çizgi roman kadar aptalca görünecek .

Madeni paralar ve Gelman'dan bahseden TAS, Gelman ve Nolan'ın "Bir kalıbı yükleyebilirsiniz, ancak madeni paraya ağırlık veremezsin" başlıklı çok ilginç bir makalesi vardı ; masa üstü, zamanın yaklaşık yarısını harcayacaktır, diğer zaman ise sonuçta ortaya çıkacaktır, bu nedenle madeni parayı ciddiye almak için fiziksel bir mekanizma bulmak zordur. (Bira şişesi kapakları ile deney yaptıkları gibi, bu açıkça pub kaynaklı bir araştırmadı.) Diğer taraftan, bir kalıbı yüklemek nispeten kolay bir şeydi ve öğrencilerime yaklaşık 1 cm - Yerel bir hobi dükkanından ahşap küpler ve kalıba yüklenmelerini isteyen zımpara kağıdı ve bana yüklendiğini ispatlayın - bu, Pearson testinde oranlar ve gücü için bir alıştırmaydı .χ2


3
Sihirbazlar genellikle bozuk para saygısını kontrol edebilir. İstatistikçi-matematikçi-sihirbaz (tadına bakma izni) Persi Diaconis, bununla tanınır (ve daha fazlası).
Nick Cox

@StasK - Birkaç yıl önce, yukarıdaki ikinci paragrafınızdakilere benzer bir soru sordum. İşte link: stats.stackexchange.com/questions/7036/…
bill_080

Bill, esasen güç hakkında sormuştun. Bu soru, test seviyesini ele almaktadır.
StasK

9

% 5'inin% 4,56'dan Fisher'a yuvarlandığı görülüyor, "ortalamanın ardındaki eğrinin kuyruk bölgeleri artı üç veya eksi üç olası hata" (Hurlbert ve Lombardi, 2009).

Hikayenin bir diğer unsuru, tabloların eleştirel değerlere sahip olması gibi görünüyor (Pearson ve ark. 1990; Lehmann, 1993). Fisher'ın Pearson'a masalarını kullanmalarına izin verilmedi (muhtemelen her ikisi de Pearson'un kendi yayınını pazarlaması nedeniyle (Hurlbert ve Lombardi, 2009) ve ilişkilerinin problemli doğası).

Hurlbert, SH ve Lombardi, CM (2009, Ekim). Neyman-Pearson karar teorik çerçevesinin son çöküşü ve neoFisherian'ın yükselişi. Annales'te Zoologici Fennici (Cilt 46, No. 5, sayfa 311-349). Finlandiya Zooloji ve Botanik Yayınları

Lehmann, EL (1993). Fisher, Neyman-Pearson hipotezlerini test etme teorileri: Bir teori mi, iki mi? Amerikan İstatistik Kurumu Dergisi, 88 (424), 1242-1249.

Pearson, ES, Dedikoducu, WS, Plackett, RL ve Barnard, GA (1990). Öğrenci: William Sealy Gosset'in istatistiksel biyografisi. Oxford Üniversitesi Yayınları, ABD.

Ayrıca bakınız: Gigerenzer, G. (2004). Akılsız istatistikler. Sosyo-Ekonomi Dergisi, 33 (5), 587-606.

Hubbard, R., ve Lindsay, RM (2008). P değerleri neden istatistiksel anlamlılık testinde faydalı bir kanıt ölçüsü değildir? Teori ve Psikoloji, 18 (1), 69-88.


7

Bana göre cevap, araştırma oyun teorisinde istatistiklerden daha fazla. % 1 ve% 5'inin genel bilince yakılması, araştırmacıların kendi varsayımlarına uygun anlamlılık seviyelerini seçmede etkili olmadığı anlamına gelir. P değeri 0,055 olan ve anlamlılık seviyesinin% 6 olarak ayarlandığı bir makale gördüğümüzü söyleyin - sorular sorulur. % 1 ve% 5, güvenilir bir taahhüt şekli sunmaktadır.


7
Belki, ama sizce araştırmacılar gerilemeleri manipüle etmiyor, tekrarlanan testler kullanıyorlar vb. Örneğin% 5 seviyesinin altına sıkıştırmak için…
kirk

Elbette bu mümkün ve muhtemelen olur. Ancak soru yaklaşık% 1 ve% 5 idi. Bana ne zaman önemli bir şeyi kabul edeceğine dair sosyal bir kongre kurma girişimi gibi geliyor. Bunlar keyfi, ancak bireysel araştırmacılar için keyfi değil, bir grup olarak araştırmacılar için keyfi.
varsayımlar

3
Kabul ediyorum, sadece geleneksel anlamlılık seviyelerine sahip olmanın, yazınıza aktardığınız gibi sorular sorulmaması gerektiği anlamına gelmediğine işaret ediyordum. Sadece bir kağıdın konvansiyonel düzeyde önemli bir sonuç vermesi, güvenilir olduğu anlamına gelmez!
kirk

Ah, oyun teorisi (ya da yapmaya teşebbüs etmek) anlamında güvenilir kullanıyordum. İçinizde olduğu gibi geri tepebileceğiniz ya da fikrinizi değiştirebileceğiniz bir şey değilse, bu tehdidi güvenilir hale getirin. Bu durumda, bireysel araştırmacılar diğer bazı keyfi eşiklere dayanarak zor zamanlar yaşayabilir.
varsayımlar

2
@Kirk'in ifade ettiği şey kesinlikle olur. Deniyor -hacking . p
Nick Stauner

6

Kişisel hipotezim, 0,05 (veya 20'de 1) 'in / z değeri (2'ye çok yakın) ile ilişkili olduğudur. Sonuçların istatistiksel olarak anlamlı olması durumunda 2 kullanımı iyidir. Yuvarlak sayıların başka izdüşümü yoktur.


7
Bunun doğru olduğundan şüpheliyim. Tabii ki "yuvarlak sayılarla birleşme" var: neden kritik bir veya değeri kullanmıyorsunuz ? Dahası, hiç kimse bir asır önce geniş kapsamlı kritik değerler tabloları yapmaktan kaçınıyordu, bu yüzden motivasyonun nereden geldiğini görmek zor. Z = 3Z=1Z=3
whuber

9
Aksine, güzel numaralar veriyorlar! Normal dağılım için şanslar, için yaklaşık , , ve 1/ . Tüm bu yaklaşımlar bir önemli rakamdan daha iyidir - ve "20'de 1", grubun en kötüsüdür (22'de 1, gerçeğe daha yakın olacaktır). 1 / 20 1 / 400 1 / 16000 z = 1 , 2 , 3 , 41/31/201/4001/16000z=1,2,3,4
whuber

1
:) Hmm ... iyi nokta. Ancak, kesme olarak kullanacağınız şey ile sınırlandırmanız gerekir - 1/3 biraz gevşek, 1/400 dokunuşta sıkı.
Jeremy Miles

10
İşte tam olarak elde ettiğim şey bu, Jeremy:% 5 ve% 1 geleneği, en azından kısmen, istatistiksel risk kavramına ("biraz gevşek" veya "sıkı bir dokunuş") dayanıyor ve aslında Herhangi bir uygun kuraldan türetilir.
whuber

1
@ whuber kullanmak yaklaşık olarak verir ve bundan daha fazlasını elde edemezsiniz! 1 / πZ=11/π
James

6

Tek doğru sayı .04284731

... .05 'in seçiminin esasen keyfi olduğu anlamına gelen saygısız bir cevaptır. Genelde p değerinden daha büyük veya daha az olan değer yerine sadece p değerini bildiririm.

"Önem" sürekli bir değişkendir ve benim görüşüme göre, onu takdirsizleştirmek çoğu zaman iyiden daha fazla zarar verir. Yani, eğer p = .13 ise, p = .21'den daha fazla ve p = .003'ten daha az güveniyorsunuzdur.


Tablo zamanlarında, bir veya daha fazla karar vermek zorunda kalmaya zorlandı ... tablolar öğretimde kullanıldığından, bu devam ediyor ...
kjetil b halvorsen

@kjetilbhalvorsen masa yapımcıları kritik değerleri için 04284731'i seçmemekte açıkça hata yaptılar.
generic_user 18:18

2

Bu beni her zaman büyüleyen bir hipotez testi alanıdır. Spesifik olarak, bir gün birisi test prosedürünü ikilileştiren keyfi bir sayıya karar verdiğinden ve o zamandan beri insanlar nadiren soru sormaktadır.

Bir öğretim görevlisinin Staiger ve Enstrümantal değişkenlerin Hisse Senedi testine (F-stat'ün zayıf enstrüman sorunlarından kaçınmak için birinci aşamadaki regresyonda 10'un üzerinde olması gerektiği) çok fazla güvenmememizi söylemediğini hatırlıyorum. tamamen keyfi bir seçim. "Ama düzenli hipotez testleriyle yaptığımız şey bu değil midir ?????"


5
Bu bir cevap olarak mı tasarlandı, @EconStats? Bir yorum gibi görünüyor. CV'nin bir tartışma forumu olarak tasarlanmadığını unutmayın. Bu yazıyı daha belirgin hale getirerek yanıtı verir misiniz ?
gung

1
Üzgünüm Sanırım benim açımdan, diğer kullanıcılar tarafından sağlanan kanıtlara rağmen, hala en muhtemel cevabın ondalık tabanlı bir numaralandırma sistemine sahip olduğumuzu ve bugün hala hipotez testleri için rasgele sayılar bulmak için kullanıldığını düşünüyorum. Örneğin, bahsettiğim Staiger ve Stock F-testi.
EconStats,

1
Bu sorunun asıl posteri olarak, bunun kesinlikle bir cevap niteliği taşıdığına inanıyorum. Teşekkürler!
Contango

0

Neden 1 ve 5? Çünkü haklılar.

Eminim ki belirli sayıların duygusal değeri ve bilişsel belirginliği üzerine çalışmalar vardır, ancak araştırmaya başvurmadan 1 ve 5'in seçimini anlayabiliriz.

Bugünün istatistiklerini yaratan insanlar, ondalık bir dünyada doğup büyüdüler ve yaşıyorlar. Elbette ondalık olmayan sayma sistemleri vardır ve fajajları kullanarak 12'ye kadar saymak mümkündür ve yapılmıştır, ancak parmakların kullanılmasıyla aynı şekilde açık değildir (bu nedenle rakamlar gibi "rakamlar" denir). ). Ve siz (ve Fisher) ondalık olmayan sayma sistemlerini bilseniz de, ondalık sistem son yüz yıl içerisinde sizin (ve Fisher dünyası) baskın sayma sistemidir ve olmuştur.

Ama neden rakamlar beş ve bir özel? Çünkü her ikisi de temel on'un en göze çarpan bölümleridir: bir parmak, bir el (veya: bir buçuk).

On ile bir ve beş arasında olmak için kesirleri kavramsallaştırmak için o kadar ileri gitmenize gerek yok. Biri sadece orada, tıpkı parmağınız sadece orada olduğu gibi. Ve bir şeyi yarıya indirmek, onu başka bir orana bölmekten çok daha basit bir işlemdir. Herhangi bir şeyi iki parçaya kesmek hiçbir düşünce gerektirmez, oysa üç ya da dörte bölünmek oldukça karmaşıktır.

Para birimi para birimlerinin çoğunda 1, 2, 5, 10, 20, 50, 100, 200, 500, 1000 gibi değerlere sahip madeni paralar ve banknotlar vardır. Bazı para birimi sistemlerinde 2, 20 ve 200 yoktur, ancak hemen hemen hepsinde başlangıç ​​vardır. 1 ve aynı zamanda 5'de, en para sistemleri yok , 3, 4, 6, 7, 8 veya 9 ilginç başlayan bir madeni para ya da banknot sahip değil mi? Ama neden böyle?

Çünkü bir sonraki büyük siparişte gelmek için her zaman 1'lerden birini veya 5'lerden ikisini (veya 2'den beşini) her zaman gerekir. Parayla hesaplamak çok basittir: on veya iki kat. Sadece iki çeşit operasyon. Sahip olduğunuz her para bir sonraki sipariş madalyonunun yarısı veya onda biri kadardır. Bu sayılar çoğalır ve kolayca ve kolayca toplanır.

Bu nedenle, 1 ve 5, ilk çocukluklarından itibaren Fisher'a ve başka kimseye anlamlılık seviyelerini seçen, 10 un en basit, en basit, en temel bölümleri olarak önem seviyelerini seçmişlerdi. sayılar sadece orada.

Her bir veri seti için uygun anlamlılık seviyesini hesaplamak için objektif bir yol yoksa, bir ve beş haklı hisseder.


"araştırmaya başvurmadan." Cevabın güzel olduğunu düşünürken, bu kesin olarak görüş alanına giriyor. Çok fazla güvenilirlik kazandıracak ve bunu destekleyecek kaynaklar olsaydı cevabı daha güvenilir hale getirecekti.
Momo
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.