Neden hipotez testlerini öğretmeye ve kullanmaya devam ediyorsunuz (güven aralıklarında)?


56

Aralık tahmincisi (güven, önyükleme, güvenilirlik ya da her neyse) olan problemler için neden hipotez testlerini (tüm zor kavramlarıyla ve en istatistiksel günahların arasında olan) öğretmeye ve kullanmaya devam ediyorsunuz? Öğrencilere verilecek en iyi açıklama (varsa) nedir? Sadece gelenek? Görüşler çok hoş olacak.



4
Bu teklifler çok uygun. Tüm modeller yanlış, ancak bazıları kullanışlıdır.
mpiktas,

Yanıtlar:


60

Bu benim kişisel görüşüm, bu yüzden bir cevap olarak nitelendirildiğinden emin değilim.

Neden hipotez testi öğretmeliyiz?

Kısacası, çok büyük sebeplerden biri, her ihtimalde, sizi bu cümleyi okumanıza götürdüğünüzde, oturduğunuz yerin 10 ft'lik bir yarıçapı içerisinde binlerce (veya milyonlarca) hipotez testi yapılmadıysa, yüzlerce.

Cep telefonunuz kesinlikle bir baz istasyonunun kapsama alanı dahilinde olup olmadığına karar vermek için bir olasılık oranı testi kullanıyor. Dizüstü bilgisayarınızın WiFi donanımı, yönlendiricinizle iletişim kurmada aynı şeyi yapıyor.

İki günlük bir pizza parçasını otomatik olarak yeniden ısıtmak için kullandığınız mikrodalga, pizzanızın ne zaman yeterince sıcak olduğuna karar vermek için bir hipotez testi kullandı.

Buzlu bir yolda çok fazla gaz verdiğinizde aracınızın çekiş kontrol sistemi devreye girdi veya lastik basıncı uyarı sistemi arka yolcu tarafındaki lastiğinizin anormal derecede düşük olduğunu ve farlarınızın otomatik olarak yaklaşık 5: Akşam 19.00’da akşam karanlığında

İPad'iniz (gürültülü) ivmeölçer değerlerine dayanarak bu sayfayı yatay biçimde görüntülüyor.

Kredi kartı şirketiniz, “siz” Teksas'ta bir Best Buy'da düz ekran bir TV ve Zales'de bir Washington eyaletindeki alışveriş merkezinde bir öğle yemeği, gaz ve film satın aldıktan birkaç saat sonra 2000 dolarlık bir elmas yüzük satın aldığınızda kartınızı kapattı. Pittsburgh banliyölerinde evinizin yakınında.

Bu web sayfasını tarayıcınızda oluşturmak için gönderilen yüz binlerce bit, her biri ayrı ayrı 0 veya 1 olup olmadığını belirlemek için bir hipotez testine tabi tutulmuştur (bazı şaşırtıcı hata düzeltmelerine ek olarak).

Bu "ilgili" konularda biraz sağa bakın.

Bunların hepsi hipotez testlerinden dolayı "oldu" . Bunların çoğu için, bazı parametrelerin bazı aralık tahminleri hesaplanabilir. Ancak, özellikle otomatik endüstriyel işlemler için, hipotez testlerinin kullanımı ve anlaşılması çok önemlidir.


Daha teorik bir istatistiksel seviyede, önemli istatistiksel güç kavramı, doğal olarak karar teorik / hipotez test çerçevesinden kaynaklanmaktadır. Ayrıca, saf bir matematikçinin "bile" Neyman-Pearson lemmasının güzelliğini ve sadeliğini ve ispatını takdir edebileceğine inanıyorum.

Bu, hipotez testinin iyi öğretildiğini veya anlaşıldığını söylemek değildir. Genel olarak, değil. Ve - özellikle tıp bilimlerinde - etki büyüklükleri ve pratik ve istatistiksel anlamlılık kavramlarıyla birlikte aralık tahminlerinin rapor edilmesinin, resmi bir hipotez testine neredeyse evrensel olarak tercih edilebileceği anlamına geldiğini kabul ediyorum. kavramlar kendi başlarına önemli ve ilginç değildir.


2
Örneklerin ilginç listesi için teşekkürler. Sorunun amacı göz önüne alındığında: İstatistik derslerimizin gözden geçirilmesi tartışmasına katkıda bulunmak için, testlerin modern cihazlarda uygulanması hakkında daha fazla ayrıntı almaya çalışacağız, mühendislik öğrencilerimiz için büyük bir motivasyon olabilir.
Washington S. Silva

3
Örneklerinizin çoğu gerçekten klasik bir hipotez tespiti (sabit bir güven düzeyi anlamına gelir) değil bir karar prosedürüne ihtiyaç duyar.
kjetil b halvorsen

1
Sevgili @kjetil: Dürüst olmak gerekirse, bir olumsuzluk burada biraz zor görünüyor. Aslında, soru klasik hipotez testleriyle ilgili özel bir şey sormuyor ve cevabım da bu varsayımı yapmıyor! ( Hipotez testleri burada geniş çapta ve iyi bir sebeple yorumlanır.)
Kardinal

1
Otomatik tekrar ısıtmalı bir mikrodalga almam gerekiyor.
jmbejara

2
Bu çok anlamlı bir cevap, ancak tüm bu şeylerin neden "hipotez testleri" olduğu hakkında biraz daha fazla bilgi verirseniz çok minnettar olurum. Tüm örneklerinizin otomatik ikili kararlarla ilgili olduğunu biliyorum. Çoğu durumda bir değerin ölçüldüğünü ve daha sonra bunun üstünde mi yoksa altında mı olduğuna karar vermek için bir kesim ile karşılaştırıldığını (ve dolayısıyla karara vardığımı) hayal ediyorum. Bu zaten sizin için “hipotez testi” olarak nitelendirildi mi, yoksa başka bir şey mi kastettiniz? OP neden hipotez testinin hala öğretildiğini sorduğunda sanırım basit eşikleme anlamına gelmedi.
amip diyor Reinstate Monica,

29

Hipotez testlerini birkaç nedenden ötürü öğretiyorum. Birincisi, hipotez testi bakış açısını okudukları ve anladıkları büyük bir önceki araştırmalar grubunu anlamak zorunda kalacakları tarihseldir. İkincisi, modern zamanlarda bile, başka tür istatistiksel analizler yaparken, çoğu zaman dolaylı olarak bazı araştırmacılar tarafından kullanılmaya devam edilmesidir.

Fakat ben bunu öğrettiğimde, model oluşturma çerçevesinde, bu varsayımların ve tahminlerin bina modellerinin parçaları olduğunu öğretiyorum. Bu şekilde daha karmaşık ve teorik olarak ilginç modelleri karşılaştırmaya geçmek oldukça kolaydır. Daha sık araştırma yapmak, teorileri hiçbir şeye karşı bir teoriden ziyade birbirlerine karşı koyar.

Hipotez testlerinin günahları matematikte doğal değildir ve bu hesaplamaların doğru kullanımı. Öncelikle yalan söyledikleri yerde aşırı güven ve yanlış yorumlama var. Naif araştırmacıların büyük bir çoğunluğu münhasıran aralık tahminini, bu şeylerle ilişkilerin hiçbirini tanımadıkça kullandıysa, hipotez dediğimiz şey, günah diyebiliriz.


+1, Teşekkürler. Tartışıldı. Ancak giriş kurslarında, tam anlamıyla bir model seçimi yoktur. Hipotez testinin başlatılması için uygun olan diğer bağlamlardan bahsedebilir misiniz? Bir testin sonucunun güç tahmini olmadan bildirilmesi kabul edilebilir mi?
Washington S. Silva,

2
Giriş derslerinde model seçiminin olmaması bir zorunluluk değildir. Bir kursu değiştirmeyi düşünüyorsanız, başlamak için iyi bir yer olarak düşünün.
John

20

PPPP


2
Bazı alanlarda, "Tek yer ..." ve "ANOVA dahil ..." demek, çok fazla miktarda istatistiksel araç kutusunun kapsandığı anlamına gelmez.
Fomite

4
Bence bu pozisyon için söylenecek çok şey var. Birçok araştırmacının çoğunlukla verilerindeki kalıpları bilmek istediği göz önüne alındığında, çoğu istatistiği makul bir şekilde bir kenara koyabilir miyiz ve sadece verilerin grafiklerini kullanıp kullanamayacağımızı merak ettim. (Elbette, bu araziler ustaca ve insightfully yapılabilir olacaktır ve biz bu onlar hakkında söyleyebiliriz eğer hipotez testleri olarak kötü olmazdı varsayar.)
gung - Eski Monica

1
Nitelemeyle, "kanıt yokluğunun yokluğun kanıtı olmadığı" teklifine katılmıyorum. Bir etki için kanıt bulunmaması, herhangi bir etkinin bulunmadığının kanıtı değildir , ancak kesinlikle bu etkinin varlığına karşı kanıt teşkil eder. Soru, anlamlı olmayan bir sonucun etkisine karşı ne kadar kanıt olduğuna dair daha fazla soru. Bence büyük p-değerleri ile sorun normal dağılım durumunda, büyük p değerleri olmasıdır vardır onlar uyum iyiliğinin bir monoton fonksiyonu olarak, hipotez için kanıtlar. Ve normal dağılım çok yaygın olduğu için, insanlar bunu ve ekstrapolatı görüyor
olasılık

5
P

11

Hangi hipotez testinden bahsettiğinize bağlı olduğunu düşünüyorum . "Klasik" hipotez testinin (Neyman-Pearson) hatalı olduğu söylenir, çünkü testi yaptığınızda gerçekte olanlar hakkında uygun şartlar aranmaz . Bunun yerine uzun vadede gördüklerinizden "bağımsız olarak" çalışmak üzere tasarlanmıştır. Ancak şartsız olmak, bireysel davada yanıltıcı sonuçlara yol açabilir. Bunun nedeni prosedürün uzun vadede bireysel dava hakkında "umursamadığı" olmasıdır.

Hipotez testi, karar vermenin teorik çerçevesinde yapılabilir, bunun daha iyi bir yol olduğunu düşünüyorum. Sorunu iki karar olarak dile getirebilirsiniz:

  1. H0
  2. HA

Karar çerçevesinin anlaşılması daha kolaydır, çünkü “ne yapacaksınız” kavramlarını açıkça ayırır. ve "gerçek nedir?" (önceden bilginiz aracılığıyla).

Sorunuza "karar teorisi" (DT) bile uygulayabilirsiniz. Ancak, hipotez testlerini durdurmak için DT, sizin için alternatif bir karar vermeniz gerektiğini söylüyor. Öyleyse soru şudur: eğer hipotez testi iptal edilirse, onun yerini ne alır? Bu sorunun cevabını düşünemiyorum. Hipotez testi yapmanın alternatif yollarını düşünebiliyorum.

(NOT: hipotez testi bağlamında, veriler, örnekleme dağıtımı, önceki dağıtım ve kayıp işlevi tüm önceki bilgilerdir, çünkü karar vermeden önce alınırlar.)


Bu konudaki amacım Brezilya'da çalıştığım enstitüde devam etmekte olan istatistikteki derslerin gözden geçirilmesi tartışmalarını zenginleştirmek için uzman görüşü toplamaktı. Amaç, @ cardinal, @Andrew Robinson, @ probabilityislogic ve @ JMS'den yola çıkarak görüşleri alınmak suretiyle gerçekleştirilmektedir. Açıkça, hipotez testleri (NP, DT veya Byes yoluyla) çok iyi öğretilmelidir, ancak istatistik öğretiminin evrenselliği göz önüne alındığında, uygun şekilde kurs oluşturma zorlukları tekniğin kendisinden eşit veya daha karmaşıktır. Katkınız için teşekkürler.
Washington S. Silva

1
Karar teorisini, makul kayıp / fayda fonksiyonlarını içeren Bayesian yöntemlerini kullanarak titizlikle yapılırsa seviyorum. Eğer böyle fonksiyonlar mevcut değilse, aralık tahmini yapmayı tercih ederim.
Frank Harrell,

@FrankHarrell - Katılıyorum, ancak yardımcı program işlevinin genellikle bilgi içeriğine dayandığı bir tür "karar teorisi" olarak sınıf aralığı tahminini yine de sınıflandıracağım. posterior dağılımın kendisiyle ve muhtemelen öngörünün ilgi çekici olması durumunda posterior öngörücüdür. Aralık tahmini, posteriorun uygun bir özetini sağlar. Ve iyi güven aralıkları (örn. MLE'ye dayanmaktadır), eldeki verilerin dışındaki bilgiler az olduğunda buna çok iyi bir yaklaşım sağlar
olasılık

Genel olarak, belirli bir karar vermediğiniz zaman (muhtemelen makul bir kayıp fonksiyonuna sahip olmamanızın temel nedeni budur) aralık tahminini kullanırsınız ve bu nedenle birçok farklı senaryoyu karşılamanız gerekir.
Olasılık 20

9

Sert bir Frequentist olsaydım, güven aralıklarının oldukça düzenli bir şekilde sadece ters çevrilmiş hipotez testleri olduğunu hatırlatırdım, yani% 95 aralığı, verilerinizi içeren bir testin .05'te reddetmeyeceği tüm noktaları açıklamanın başka bir yolu olduğunda. seviyesi. Bu durumlarda, bir başkası için bir tercih, yöntemden ziyade açıklama meselesidir.

Şimdi, açıklama elbette önemlidir, ancak bunun oldukça iyi bir argüman olacağını düşünüyorum. İki yaklaşımı aynı çıkarımın düzeltmeleri olarak farklı bakış açılarından açıklamak net ve açıktır. (Tüm aralık tahmin olması olan testler ters pedagojik olarak, daha sonra bir kaba ama özellikle zor değildir gerçektir).

Yukarıda da belirtildiği gibi, gözlemlerde şart koşma kararından çok daha ciddi çıkarımlar geliyor. Bununla birlikte, geri çekilirken bile, Frequentist gözlemlerdeki şartlandırmanın akıllıca veya aydınlatıcı olacağı pek çok durumun (belki de çoğunluğun değil) olduğunu her zaman gözlemleyebildi. Bunlar için, HT / CI kurulumu tam olarak istenen şeydir ('değildir') ve bu şekilde öğretilmesi gerekir.


Resmen konuşmak gerekirse, Tip I hata oranına bağlı alfa ile yapılan herhangi bir hipotez testi, kapsama parametresi (1-alfa) ile tam tersi bir güven aralığına dönüştürülebilir; Bunun tanımların gerektirdiğine inanmak için sert bir frekansçı olmanız gerektiğini sanmıyorum. :-)
Keith Winstein

3
@Keith Tanımlar üzerinde tartışma yok, ancak onları matematikten daha ilginç ve belki de kullanışlı parçalardan daha fazla olarak değerlendirmek için bir Frequentist olmak zorundasınız. Yani, eğer sen örnekleme teorik özelliklerini sonra (veya should) olacaktır istatistiksel çıkarımlar için hayati önem olduğunu düşünüyorum eşit biz kabul ettiği gibi, bu simetriye sahip, çünkü güven aralıkları ve hipotez testlerinde meraklı. Mine, 'iyi' CI'ler ile 'kötü' HT'ler arasındaki sorgulayıcıların karşıtlığına bir cevaptı. Onları bir araya getirerek diğer cevaplarda ortaya çıkan kontrastlara odaklanmak istedim.
conjugateprior

7

Neyman Pearson hipotez testini erken istatistik öğrencilerine öğretirken, genellikle orijinal ortamında bulmaya çalıştım: karar vermeyi. Daha sonra, tip 1 ve tip 2 hatalarının altyapısı anlamsızdır, boş hipotezi kabul edebileceğiniz fikriniz gibi .

Bir karar vermeliyiz, kararımızın sonucunun bir parametre bilgisi ile iyileştirilebileceğini düşünüyoruz, sadece bu parametrenin bir tahminine sahibiz. Hala bir karar vermek zorundayız. Öyleyse, parametre hakkında bir tahminde bulunma bağlamında alınacak en iyi karar nedir?

Bana öyle geliyor ki orjinal ortamında (belirsizlik karşısında kararlar alıyor) NP hipotez testinin mükemmel bir anlamı var. Bakınız örneğin N & P 1933, özellikle s. 291.

Neyman ve Pearson. İstatistiksel hipotezlerin en verimli testleri problemi üzerine. Londra Kraliyet Topluluğu'nun Felsefi İşlemleri. Matematiksel veya Fiziksel Karakterli Kağıtlar İçeren Seri A (1933) vol. 231, s. 289-337


4

Hipotez testi bir çok soruyu çerçevelemek için yararlı bir yoldur: bir tedavinin etkisi sıfır mı sıfır mı? Bunun gibi ifadeler ile istatistiksel bir model veya prosedür (bir aralık tahmincisinin inşası dahil) arasındaki kabiliyet, uygulayıcılar için önemli olduğunu düşünüyorum.

Ayrıca, bir güven aralığının (geleneksel anlamda) doğası gereği hipotez testinden daha az “günahkar” olmadığına değinmektedir - kaç tane intro istatistik öğrencisi bir güven aralığının gerçek tanımını biliyor?

Belki de problem, hipotez testi ya da aynı olanın klasik versiyonları gibi aralık tahmini değildir; Bayesian formülasyonu bunlardan oldukça hoş bir şekilde kaçınır.


2
@JMS, "Kaç tane intro istatistiği öğrencisi bir güven aralığının gerçek tanımını biliyor?" Veya, bu konuda doktora statüsü mezunları.
kardinal

Epeyce! Bu arada, öğrencilere ya da herhangi bir çizginin uygulayıcılarına kazı yapmak istemedim. Ancak, zihinsel jimnastikten istatistiklerde ileri çalışmalara kaydolmamış birinden beklemek biraz çılgınca.
JMS

2
CI'lerin gerçek tanımını kaç kişi söyleyebilir? Ve kaç kişi onları bu tanımla tutarlı bir şekilde kullanıyor? Düşünmemeye Onun çok zor "parametresi içinde olması muhtemeldir aralık söyledi" - Eğer bile biliyor onun bir CI olduğu gibi değil.
Olasılıksal

Her zamanki gibi muhabir gazetecilerin tahminlerini yapın
Washington S. Silva

1
Söylemeye çalıştığım, iktidar tahminleriyle eşlik etmeyen hipotez testlerinin çok sorgulanabilir olduğu ve aralık tahminlerinin bu ek komplikasyon kaynağına sahip olmadığıdır.
Washington S. Silva

2

Sebep karar vermedir. Çoğu kararda sizi yapar ya da yapmazsınız. Tüm gün aralıklarla aramaya devam edebilirsiniz, sonunda, yapmaya karar verip vermediğiniz bir an vardır.

Hipotez testi, bu basit YES / NO gerçeğine uyar.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.