Ziliak (2011) p-değerlerinin kullanımına karşı çıkıyor ve bazı alternatiflerden bahsediyor; Onlar neler?


25

Denilen sonuç çıkarımı p-değeri, güvenmek dezavantajları tartışırken son makalesinde ". Matrixx v Siracusano ve Öğrenci v yargılanan Fisher İstatistiksel önem" (DOI: 10.1111 / j.1740-9713.2011.00511.x), Stephen T. Ziliak, p değerlerinin kullanılmasına karşı çıkıyor. Sonuç paragraflarında şöyle diyor:

Veriler zaten bildiğimiz ve kesin olan tek şey. Aslında bilmek istediğimiz şey oldukça farklı bir şey: Elimizdeki veriler göz önüne alındığında, bir hipotezin gerçek olma olasılığı (veya en azından pratik olarak yararlı). İki ilacın farklı olma olasılığını ve mevcut kanıtlar ne kadar verildiğine bakmak istiyoruz. Önemlilik koşulunun yanlışlığına bağlı olarak önemlilik testi, Fisher'in içine düştüğü tuzak - bize bu olasılığı söylemez ve söyleyemez. Güç fonksiyonu, beklenen kayıp fonksiyonu ve şimdi yaygın olarak erişilebilir ve ücretsiz çevrimiçi olan Öğrenci ve Jeffreylerden kaynaklanan pek çok karar-teorik ve Bayes usulü vardır.

Güç fonksiyonu, beklenen kayıp fonksiyonu ve "diğer karar-teorik ve Bayes usulleri" nedir? Bu yöntemler yaygın olarak kullanılıyor mu? R'de mevcut mu? Önerilen bu yeni yöntemler nasıl uygulanmaktadır? Örneğin, bir veri setindeki hipotezimi test etmek için bu yöntemleri nasıl kullanırdım, aksi takdirde geleneksel iki örneklemli t-testlerini ve p-değerlerini kullanırdım?


Yalnızca değerlerinin kullanılmasına karşı çıkan birçok makale var , ancak bu gerçekten IMO bağlamına bağlı. İlgilendiğiniz şey hakkında daha fazla bilgi ekleyebilir misiniz (son cümleniz gibi)? p
chl

2
Makaleye erişimim yok, ancak bu argüman neler olup bittiğine dair hatalı bir anlayışa işaret ediyor. Kusurlu bir anlayışa rağmen, diğer istatistiklerin dikkate değer olduğu sonucuna varmak makul. Beklenen kayıp fonksiyonu, sadece kayıp fonksiyonunun beklenen değerinin bir tahminidir (örneğin kare hata, lojistik vb.).
Tekrarlayıcı

Yanıtlar:


17

Bu, şaşkın bir birey tarafından basılan başka bir kağıt gibi görünüyor. Fisher, pek çok istatistik öğrencisi olmasına rağmen, bu tuzağa düşmedi.

Hipotez testi karar teorik bir problemdir. Genel olarak, iki karar arasında belirli bir eşikli bir teste sahip olursunuz (doğru hipotez veya yanlış hipotez). gibi tek bir noktaya karşılık gelen bir hipoteziniz varsa , verilerinizin doğru olduğunda sonuçlanma olasılığını hesaplayabilirsiniz. Ancak, tek bir nokta değilse ne yaparsınız? işlevine sahip olursunuz . Hipotez , böyle bir hipotez olduğunu ve senin gözlenen veri bu doğru olduğu göz önüne alındığında üretme olasılığı için böyle bir işlevi olsun. Bu işlev güç işlevidir. Bu çok klasik. Fisher her şeyi biliyordu.θ=0θθ0

Beklenen kayıp, karar teorisinin temel mekanizmasının bir parçasıdır. Çeşitli doğa durumlarına, bunlardan kaynaklanan çeşitli olası verilere ve alabileceğiniz bazı olası kararlara sahipsiniz ve verilerden kararlara kadar iyi bir işlev bulmak istiyorsunuz. İyiyi nasıl tanımlarsın? Elde ettiğiniz verilerin altında yatan özel bir yapı ve bu prosedürle verilen karar verildiğinde, beklenen zararınız nedir? Bu en basit şekilde iş problemlerinde anlaşılıyor (eğer bunu son üç çeyrekte gözlemlediğim satışlara dayanarak yaparsam, beklenen parasal kayıp nedir?).

Bayesian prosedürleri, karar teorik prosedürlerinin bir alt kümesidir. Beklenen zarar, önemsiz vakalar dışındaki tümünde benzersiz şekilde en iyi prosedürleri belirtmek için yeterli değildir. Bir prosedür A ve B eyaletlerinde diğerlerinden daha iyi ise, açıkça tercih edersiniz, ancak A eyaletinde daha iyi ve B durumunda daha iyi ise hangisini seçersiniz? Bayes prosedürleri, minimumluk ve tarafsızlık gibi yardımcı fikirlerin girdiği yer burasıdır.

T-testi aslında karar teorik problemine mükemmel bir çözümdür. Soru üzerine cutoff seçim nasıl sen hesaplayın. Belirli bir değeri belirli bir değere karşılık gelir , tip I hata olasılığı ve güçlerin belirli bir dizi Eğer tahmin altında yatan parametrenin boyutuna bağlı olarak,. Bir nokta boş hipotezi kullanmak için bir yaklaşım mı? Evet. Uygulamada genellikle bir sorun mu var? Hayır, tıpkı Bernoulli'nin kiriş sapması için yaklaşık teorisini kullanmak gibi yapı mühendisliğinde de genellikle iyidir. Geçiriyor yararsız-değeri? Hayır. Verilerinize bakarak başka bir kişi farklı bir kullanmak isteyebilirttαβpαsenden ve değeri bu kullanımı barındırmaktadır.p

Ayrıca, Fisher'ın Öğrenci çalışmalarının yaygın bir şekilde yayılmasından sorumlu olduğunu göz önünde bulundurarak neden Student ve Jeffreys'i birlikte adlandırdığı konusunda kafam biraz karıştı.

Temel olarak, p-değerlerin kör kullanımı kötü bir fikirdir ve oldukça ince bir konsepttir, ancak bu onları işe yaramaz yapmaz. Matematiksel kökenleri zayıf olan araştırmacılar tarafından kötüye kullanılmasına itiraz etmeli miyiz? Kesinlikle, ama Fisher sahadaki adamın kullanması için bir şeyleri damıtmaya çalışmadan önce neye benzediğini hatırlayalım .


5
Aslında soruyu yanıtlamak için +1 ve kışkırtıcı ancak sorunlu olan teklife meydan okumak için ek (ancak sanal) +1. Burada yeni bir katılımcı olduğunu görüyorum ama zaten birçok cevaba katkıda bulundum: sitemize çok teşekkürler ve hoş geldiniz (biraz gecikmeli)!
whuber

Detaylı cevabınız için çok teşekkürler. Bu makalede eleştirel olarak önerilen alternatif stratejiler hakkında düşünmeye yardımcı olur. Bu soruyu sordum, çünkü bazı çalışanlar bu makaleyi p değerlerine hiç bakmamamız gerektiğini söylemek için kullandılar ve bu alternatiflerin gerçekte ne anlama geldiklerini anlamadığımı anladım. Açıklaman için teşekkürler!
Ariel

@whuber Bunun soruya cevap verdiğini sanmıyorum. OP, Ziliak'ın önerdiği alternatifleri soruyordu ve bu cevap onlara hitap etmiyor. Örneğin, Ziliak'ın önem eleştirisi, insanların neden% 5 veya% 1 önemini kullandıklarına değinmektedir. Gerçekten sağlam bir neden yok ve bu seviyeleri Fisher'in gazetelerine geri çevirdi. Bu sadece bazı keyfi, uygun bir sayı. Parasal avantajlara dayanan “alternatif” yaklaşımların aksine, yani dolar değerleri.
Aksakal,

1
@Aksakal Hipotez testini karar teorik bir problemle ilişkilendirerek ve p değerini açık bir şekilde beklenen bir riske (0-1 kayıp fonksiyonuna dayanarak) bağlayarak konuşmaya önemli bir katkı yapıldığına inanıyorum.
whuber


5

Ez kullandığınızda paket olabilirlik oranları sağlayan ezMixed()karışık etkiler modelleme yapmak işlevini. Olabilirlik oranları, iki modelin olasılığını (gözlenen veriler göz önüne alındığında) karşılaştırarak bir fenomen için kanıtları ölçmeyi amaçlamaktadır: fenomenin etkisini sıfıra sınırlayan "kısıtlı" bir model ve fenomen. Modellerin diferansiyel karmaşıklığına ilişkin gözlemlenen olasılıkları düzelttikten sonra (çapraz doğrulamaya asimptotik olarak eşdeğer olan Akaike'nin Bilgi Kriteri aracılığıyla) oran, fenomen için kanıtları belirlemektedir.


4

Bütün bu teknikler R'de aynı şekilde tüm cebir kaleminizde de bulunur. P-değerleri bile, R'deki birçok farklı fonksiyon aracılığıyla elde edilebilir, hangi fonksiyonun bir p-değeri veya bir Bayes postereri almak için kullanılacağına karar vermek tek bir fonksiyon veya pakette bir göstericiden daha karmaşık olduğuna karar verir.

Bu teknikleri öğrendikten ve hangi soruyu gerçekten cevaplamak istediğinize karar verdikten sonra, R (veya başka araçlar) kullanarak nasıl yapılacağını görebilirsiniz (veya daha fazla yardım sağlayabiliriz). Sadece kayıp işlevinizi en aza indirmek veya posterior bir dağılım elde etmek istediğinizi söylemek, akşam yemeğinde ne yemek istediğiniz sorulduğunda "yiyecek" yanıtlamak kadar yararlıdır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.