Sıfır hipotezinin kabulü


15

Bu, istatistik ve diğer bilimlerin kesişimi hakkında bir tartışma sorusudur. Sıklıkla aynı problemle karşılaşıyorum: alanımdaki araştırmacılar, p değeri önem seviyesinden daha az olmadığında hiçbir etki olmadığını söyleme eğilimindedir. Başlangıçta sık sık hipotez testinin böyle olmadığını söyledim. Bu sorunun ne sıklıkta ortaya çıktığı göz önüne alındığında, bu konuyu daha deneyimli istatistikçilerle tartışmak istiyorum.

Bilimsel dergide “en iyi yayın grubu” Doğa İletişim Biyolojisi'nden yeni bir makale ele alalım (birden fazla örnek var, ama bir tanesine odaklanalım)

Araştırmacılar istatistiksel olarak anlamlı olmayan bir sonucu şu şekilde yorumlar:

Bu nedenle, kronik orta kalorik kısıtlama, bir primatın ömrünü uzatabilir ve sağlığını artırabilir, ancak bilişsel performansları etkilemeden beyin gri madde bütünlüğünü etkiler .

Kanıt:

Bununla birlikte, Barnes labirent görevindeki performanslar kontrol ve kalori kısıtlı hayvanlar arasında farklı değildi (LME: F = 0.05, p = 0.82; Şekil 2a). Benzer şekilde, kendiliğinden değişim görevi, kontrol ve kalori kısıtlamalı hayvanlar arasında herhangi bir fark ortaya koymamıştır (LME: F = 1.63, p = 0.22; Şekil 2b).

Yazarlar ayrıca etkinin yokluğunun açıklanmasını önermektedir - ancak kilit nokta açıklama değil iddianın kendisidir. Sağlanan araziler benim için "gözle" önemli ölçüde farklı görünüyor (Şekil 2).

Dahası, yazarlar önceki bilgileri görmezden gelir:

kalorik kısıtlamanın bilişsel performans üzerindeki zararlı etkileri sıçanlar ve insanlarda serebral ve duygusal fonksiyonlar için rapor edilmiştir.

Büyük örnek boyutları için aynı iddiayı anlayabiliyorum (etki yok = pratikte önemli bir etki yok), ancak özellikle karmaşık testler kullanıldı ve güç hesaplarının nasıl yapılacağı benim için açık değil.

Sorular:

  1. Sonuçlarını geçerli kılan herhangi bir ayrıntıyı göz ardı ettim mi?

  2. Bilimdeki olumsuz sonuçları bildirme gereğini dikkate alarak , bunun "sonuç yokluğu" ( ile sahip olduğumuz ) değil, "negatif sonuç (örneğin gruplar arasında fark yoktur)" nasıl kanıtlanacağı nasıl kanıtlanır? istatistik mi kullanıyorsunuz? Büyük örnek boyutları için null değerinden küçük sapmaların bile reddedilmesine neden olduğunu anlıyorum, ancak ideal verilere sahip olduğumuzu ve yine de null değerinin pratik olarak doğru olduğunu kanıtlamamız gerektiğini varsayalım.p>α

  3. İstatistikçiler her zaman "bu güce sahip olduğumuz önemli boyutun etkisini tespit edemedik" gibi matematiksel olarak doğru sonuçlarda ısrar etmeli mi? Diğer alanlardan araştırmacılar, bu tür olumsuz sonuçların formülasyonlarını şiddetle beğenmemektedir.

Sorunla ilgili düşüncelerinizi duymaktan memnuniyet duyarım ve bu web sitesinde ilgili soruları okudum ve anladım. 2) -3) sorularına istatistik açısından açık bir cevap var, ancak disiplinlerarası diyalog durumunda bu soruların nasıl cevaplanması gerektiğini anlamak istiyorum.

UPD: Olumsuz sonucun iyi bir örneği, tıbbi denemelerin 1. aşaması, güvenlik. Bilim adamları ilacın güvenli olduğuna ne zaman karar verebilir? Sanırım iki grubu karşılaştırıyorlar ve bu veriler üzerinde istatistik yapıyorlar. Bu ilacın güvenli olduğunu söylemenin bir yolu var mı? Cochrane doğru "hiçbir yan etki bulunamadı" kullanır, ancak doktorlar bu ilacın güvenli olduğunu söylüyor. Açıklamanın doğruluğu ve sadeliği arasındaki denge bir araya geldiğinde ve "sağlık için bir sonuç yok" diyebilir miyiz?


2
İstatistiksel olarak anlamlı olmayan sonuçları "negatif" bir çalışma olarak adlandırıyorsunuz. Bu defenestre edici bir dildir. Bunu şu şekilde adlandırmak için revize ettim: istatistiksel olarak anlamlı olmayan örneğin . Eğer yanılıyorsam, lütfen bana nasıl olduğunu söyle. Aksi takdirde, bir çalışmayı tanımlamak için siz ve ortak çalışanlarınız için yararlı bir dildir. demek sadece . Eğer bazı bakımlardan bulmak çok "olumlu" olabilir; belki de bu, kimyasal maruziyet ile insan sağlığı arasındaki ilişkiyi inceleyen ve aslında güvenli olduğunu gösteren ilk büyük ölçekli epidemiyolojik çalışmadır. p > α p > αp>αp>αp>αn=500,000
AdamO

4
Yan not: Doğayı asla istatistiklerin doğru bir şekilde nasıl kullanılacağına dair bir rehber olarak kullanmanızı önermem.
Cliff AB

1
@AdamO Aynı anda aşağı yukarı yayınlanan iki makaleye bir örnek var, bir makalede yazarlar güçlü bir sonuç verdi (bu onların ana sonucuydu), ikinci, daha güçlü çalışmada, buldular ve etki ettiler. Ancak, ilk yazar "1 etki büyüklüğü ile% 80 gücüne sahip olsaydı önemli bir etki bulamadık" yazarsa - negatif sonuçların dergisinde bile yayınlanmazdı.
Alman Demidov

2
ancak istatistikçi olmayanlar bana "olumsuz sonuçları nasıl kanıtlıyorsunuz?" - ve nasıl cevap vereceğimi bilmiyorum. Eşdeğerlik denemelerinde sıklıkla kullanılan hipotez ne olacak ? Bu, "denklik payı" olarak ekstra bir terim içerir ve ortalama farkı dikkate alabilir.
Penguin_Knight

2
Nature Publishing Group'un istismar ettiği yaygın bir hatadır, ancak dergiler arasındaki prestij farkı muazzamdır. Bununla birlikte, Tabii ki Doğa'daki makalelerin özensiz istatistikleri de olabilir.
amip diyor ki Reinstate Monica

Yanıtlar:


7

İstatistiksel olarak anlamlı olmayan sonuçları "sıfır hipotezi kabul et" ruhuyla yorumlamanın uygun olduğunu düşünüyorum. Aslında böyle bir şekilde yorumlanmış istatistiksel olarak anlamlı çalışmalar gördüm ; çalışma çok kesindi ve sonuçlar dar ama null olmayan ancak klinik olarak önemsiz etkilerle tutarlıydı. İşte çikolata / kırmızı şarap tüketimi ile diyabet üzerindeki "sağduyulu" etkisi arasındaki ilişki üzerine bir çalışmanın (veya dahası basının) bir miktar eleştirmeni . Yüksek / düşük alımla insülin direnci dağılımları için olasılık eğrileri histeriktir.

Bulguların "H_0'ın doğrulanması" olarak yorumlanıp yorumlanamayacağı çok sayıda faktöre bağlıdır: çalışmanın geçerliliği, gücü, tahminin belirsizliği ve önceki kanıtlar. P değeri yerine güven aralığını (CI) bildirmek, istatistikçi olarak yapabileceğiniz en yararlı katkı olabilir. Araştırmacılara ve istatistik uzmanlarına istatistiklerin karar vermediğini, insanların verdiğini hatırlatıyorum; p-değerlerini atlamak, bulgular hakkında daha düşünceli bir tartışmayı teşvik eder.

CI'nin genişliği, null içerebilen veya içermeyen ve hayat kurtaran potansiyel gibi klinik olarak anlamlı değerler içerebilen veya içermeyen bir dizi etkiyi tanımlar. Bununla birlikte, dar bir CI bir tür etkiyi doğrular; ya gerçek anlamda "anlamlı" olan ikinci tür ya da null olabilen ilk tür ya da null değerine çok yakın bir şey.

Belki de gerekli olan, "null sonuçların" (ve null etkilerin) ne olduğunun daha geniş bir hissidir. Araştırma işbirliğinde hayal kırıklığı bulduğum şey, araştırmacılar a priori bir durumu hedeflediklerini belirleyemedikleri zamandır: bir müdahale kan basıncını düşürmek için ise kaç mmHg? Bir ilacın kanseri tedavi etmesi gerekiyorsa, hastanın kaç ay hayatta kalması gerekir? Araştırmalara tutkulu olan ve alanlarına ve bilimine "takılı" bir kişi, önceki araştırmalar ve yapılanlar hakkında en şaşırtıcı gerçekleri tıkayabilir.

Örneğinizde, 0.82'lik p değerinin null değerine çok yakın olduğunu fark edemem. Bundan, söyleyebileceğim tek şey CI'nin null değerine odaklanmış olmasıdır. Bilmediğim, klinik olarak anlamlı etkileri içerip içermediğidir. CI çok darsa, verdikleri yorum bence doğrudur, ancak veriler bunu desteklemez: bu küçük bir düzenleme olacaktır. Buna karşılık, 0.22'nin ikinci p-değeri, anlamlılık eşiğine (ne olursa olsun) nispeten daha yakındır. Yazarlar buna uygun olarak, "H_0'ı reddetme" tipi yorumlama ile tutarlı "fark kanıtı vermeme" olarak yorumlamaktadır. Makalenin alaka düzeyine gelince, çok az şey söyleyebilirim. Umarım çalışma bulgularının daha dikkat çekici tartışmalarını bularak literatüre göz atarsınız! Analizlere gelince,


1
Adamo, değil F boş yakın için eşit istatistik ortalamaları arasında F özgürlük verilen pay ve payda derece için dağıtım? Eğer bir şey varsa, bence 0'a yakın bir F istatistiği omnibus denklik kanıtı anlamına geliyor. Aslında, Wellek 2010'da tam da bu motive Denkliği ve noninferiority Test İstatistiksel Hipotez , bölüm 7.2 denkliği için -test , normal dağılımlar, sayfalar 221-225. kFk
Alexis

@Alexis F testi özelliklerini işaret ettiğiniz için teşekkür ederiz. Özgürlük derecelerini bilmeden, test hakkında akıllıca yorum yapmak benim için zor. Belki de cevabı sadece -değerlerini gösterecek şekilde gözden geçirmeliyim . Her halükarda, benim cevap ana nokta iki hipotez tutamayacak olmasıdır ve eşit entrika ile: Bunlardan biri, her zaman doğrudur, test hiçbir mantıklı. Açıklayıcı yöntemler kullanmalıyız, ancak bunlar bir güven aralığıyla titiz hale getirilebilir. μ = μ 0 μ μ 0pμ=μ0μμ0
AdamO

Elbette! (ve net değilse, +1) Ancak ciddiyetle, denklik testine meraklı olmalısınız: klinik epidemiyoloji ve biyoistatistik (alan için onurlu bir miras!) içinde ortaya çıktı, ancak sık sık çıkarım için genel bir ithaldir. :)
Alexis

1
@AlmanDemidov Bu konularda sert bir çizgide duruyorum: Etkileri yorumlanamıyorsa karmaşık analizlerin dikkate alınmaması gerektiğini düşünüyorum. Onlar yapmak bir yorumunu var. Hosmer, Lemeshow, May tarafından 2. Hayatta Kalma Analizi, Cox model çıktısının yorumlanmasına adanmış bütün bir bölüme (4) sahiptir. Shapiro gibi testlerin eksikliği en iyi şekilde araziler kullanılarak ele alınmaktadır (bu genellikle testin kendisini engeller). Yeniden örnekleme istatistikleri, çok çeşitli modelleme koşulları altında CI'leri hesaplamak için güçlü bir yol sağlar, ancak sağlam teorinin doğru şekilde kullanılmasını gerektirir.
AdamO

3
Rijit çıkarım çerçevesinde "0.82 null değerine yakın" diye bir şey yoktur, çünkü p-değeri rastgele bir sayıdır, özel seviyesi önemsizdir. P değeri mutlak değerde büyük veya küçük olamaz. Seviyesi sadece önceden belirlenmiş eşik değeri ile ilgilidir, bir önem . Bir eşikle karşılaştırırsınız ve karşılaştırmanın sonucuna göre onu reddeder veya . H 0αH0
Aksakal

12

Sorunuzun başlığına : asla sıfır hipotezini kabul etmiyoruz, çünkü testi sadece karşı kanıt sağlar (yani sonuçlar her zaman için kanıt bulursanız alternatif hipotez ile ilgilidir veya için kanıt bulamadı ). H 0 H A H AH0H0HAHA

Bununla birlikte, farklı türde sıfır hipotezleri olduğunu fark edebiliriz :

  • Muhtemelen ve şeklindeki tek taraflı sıfır hipotezlerini H 0 : θ θ 0H0:θθ0H0:θθ0

  • Muhtemelen veya eşanlamlı olarak şeklindeki iki taraflı sıfır hipotezlerini (iki kuyruklu sıfır hipotezi olarak da bilinir) Bir örnek durumda ve veya eşanlamlı olarak ikisinde -örnek vaka. Bu spesifik sıfır hipotez formunun sorunuzun ne olduğuyla ilgili olduğundan şüpheleniyorum. Reagle ve Vinod'u takiben, bu formun null hipotezlerini pozitivist null hipotezleri olarak adlandırıyorum ve bunu notasyonu ile açıkça belirtiyorum . Pozitifist null hipotezler , fark veyaH0:θ=θ0H0:θθ0=0H0:θ1=θ2H0:θ1θ2=0H0+bir etkinin kanıtı . Pozitifist null hipotezlerin grupları için çok amaçlı bir formu vardır :tüm için .kH0+:θi=θj;i,j{1,2,k};  and ij

  • Şimdi sadece bu formun boş hipotezleri olan ortak tek taraflı boş hipotezleri öğreniyor olabilirsiniz ve , iki örnek durumda, burada , a priori'ye önem verdiğiniz minimum ilgili farktır (yani, daha küçük farklılıklar olduğunu söylersiniz) bundan daha önemli değil). Yine, Reagle ve Vinod'un ardından, bu formun null hipotezlerini negativist null hipotezleri olarak adlandırıyorum ve bunu notasyonu ile açık hale getiriyorum . Negatif null hipotezleri denklik kanıtı sağlar (H0:|θθ0|ΔH0:|θ1θ2|ΔΔH0±Δ) veya bir etkinin olmadığını gösteren kanıtlar ( dan büyük ). Negatif null hipotezlerin grupları için çok amaçlı bir formu vardır :tüm için (Wellek, bölüm 7)|Δ|kH0:|θi=θj|Δ;i,j{1,2,k};  and ij

Yapılacak en güzel şey, fark testleri ile eşdeğerlik testlerini birleştirmektir . Bu, alaka testi olarak adlandırılır ve [tost]etiketin açıklamasında ayrıntılı olarak açıklandığı gibi, hem istatistiksel gücü hem de etki boyutunu açıkça bir testten çıkarılan sonuçlara yerleştirir . düşünün: reddederseniz , alakalı bulduğunuz bir boyutun gerçek bir etkisi olduğu için mi? Yoksa numune büyüklüğünüz testinizin aşırı güçlü olduğu kadar büyük mü? Ve eğer ı reddedemezseniz , bunun nedeni gerçek bir etki olmaması veya örneklem büyüklüğünüzün çok küçük olması ve testinizin kalması mıdır? Alaka düzeyi testleri bu sorunları en baştan ele alır. H + 0H0+H0+

Eşdeğerlik için testler gerçekleştirmenin birkaç yolu vardır (birisinin fark testleri ile birleştirilip birleştirilmediği):

  • İki tek taraflı test (TOST), yukarıda ifade edilen genel negativist null hipotezini iki spesifik tek taraflı null hipoteze çevirir:
    • H - 01 : θ 1 - θ 2ΔH01:θθ0Δ (bir örnek) veya (iki örnekli)H01:θ1θ2Δ
    • H - 01 : θ 1 - θ 2- ΔH02:θθ0Δ (tek örnek) veya (iki örnekli)H01:θ1θ2Δ
  • TOST'den çok daha aritmetik olarak sofistike olma eğiliminde olan eşit derecede en güçlü denklik testleri. Wellek bunlar için kesin referanstır.
  • Güven aralığı yaklaşımı, öncelikle Schuirman tarafından motive edildiğine ve Tryon gibi başkaları tarafından rafine edildiğine inanıyorum.


Kaynaklar Reagle, DP ve Vinod, HD (2003). Sayısal olarak hesaplanmış reddetme bölgelerini kullanan negativist teori için çıkarım . Hesaplamalı İstatistik ve Veri Analizi , 42 (3): 491-512.

Schuirmann, DA (1987). İki tek taraflı test prosedürünün ve ortalama biyoyararlanımın eşdeğerliğini değerlendirmek için güç yaklaşımının karşılaştırılması . Farmakokinetik ve Biyofarmasötik Dergisi , 15 (6): 657-680.

Tryon, WW ve Lewis, C. (2008). Tryon'un (2001) azaltma faktörünü düzelten istatistiksel eşdeğerlik oluşturmada çıkarımsal bir güven aralığı yöntemi . Psikolojik Yöntemler , 13 (3): 272-277.

Tryon, WW ve Lewis, C. (2009). Çıkarımsal güven aralıkları kullanarak istatistiksel fark, denklik, belirsizlik ve önemsiz fark için bağımsız oranların değerlendirilmesi . Eğitim ve Davranış İstatistikleri Dergisi , 34 (2): 171-189.

Wellek, S. (2010). Eşdeğerlik ve Yetersizlik İstatistiksel Hipotezlerinin Test Edilmesi . Chapman ve Hall / CRC Press, ikinci baskı.


1
Bana kim oy verdiğinde bunun hakkında bazı geri bildirimler yapmalı: ayrıntılı cevaplar verdiğim ve girdiye yanıt verdiğim açık olmalı.
Alexis

9

İstatistik derslerinde öğretilen standart çıkarım uygulamasına atıfta bulunuyorsunuz:

  1. formH0,Ha
  2. önem seviyesini ayarlamaα
  3. p-değerini ile karşılaştırα
  4. " reddet, kabul " veya " reddetmek başarısız "H a H 0H0HaH0

Bu iyi ve pratikte kullanılıyor. Hatta bu prosedürün ilaç gibi bazı düzenlenmiş endüstrilerde zorunlu olabileceğini tahmin etmeye çalışacağım.

Ancak, araştırma ve uygulamada uygulanan istatistik ve çıkarımın tek yolu bu değildir. Örneğin, şu makaleye bir göz atın : "LHC'deki ATLAS dedektörü ile Standart Model Higgs bozonu arayışında yeni bir parçacığın gözlenmesi". Makale, ATLAS denilen deneyde Higgs bozonunun varlığına dair kanıt sunuyordu. Aynı zamanda yazar listesinin asıl içeriği olduğu sürece bunlardan biriydi :)

  • ne ne de . "Hipotez" terimi kullanılır ve metni ne okuduğunu tahmin edebilirsiniz .H a H 0H0HaH0
  • "Önem" terimini kullanırlar, ancak "standart" çıkarımda önemlilik eşiği olarak kullanmazlar. Standart sapmalarda mesafeyi ifade ederler, örneğin "mH = 125 GeV için gözlenen yerel anlamlar 2.7 "σασ
  • "ham" p-değerleri sunarlar ve anlamlılık seviyeleri ile "reddet / reddetmek" karşılaştırmaları yapmazlar, daha önce yazdığım gibiα
  • % 95 gibi olağan güven seviyelerinde güven aralıkları sunarlar

Sonuç şu şekilde formüle edilmiştir: "Bu sonuçlar, 126.0 ± 0.4 (stat) ± 0.4 (sys) GeV kütlesine sahip yeni bir parçacığın keşfi için kesin kanıt sağlar." "Stat" kelimeleri istatistiksel ve "sys" sistematik belirsizliklerini ifade eder.

Gördüğünüz gibi herkes bu cevabın başında özetlediğim dört adımlı prosedürü yapmıyor. Burada, araştırmacılar, p-değerini, istatistik sınıflarında öğretilenin aksine, eşiği belirlemeden gösterirler. İkincisi, en azından resmi olarak, "reddetmek / reddetmek" dansını yapmazlar. Kovalamaya başladılar ve "işte p değeri, ve bu yüzden 126 GeV kütlesine sahip yeni bir parçacık bulduğumuzu söyledik."

Önemli Not

Higgs gazetesinin yazarları henüz Higgs bozonunu açıklamadılar. Sadece yeni parçacığın bulunduğunu ve kütle gibi bazı özelliklerinin Higgs bozonu ile tutarlı olduğunu iddia ettiler.

Parçacığın gerçekten Higgs bozonu olduğu belirlenmeden önce ek kanıt toplamak birkaç yıl sürdü. Sonuçları erken tartışarak bu blog yayınına bakın . Fizikçiler sıfır dönüş gibi farklı özellikleri kontrol etmeye devam ettiler. Ve kanıtlar bir noktada toplanırken CERN, parçacığın Higgs bozonu olduğunu ilan etti.

Bu neden önemli? Çünkü bilimsel keşif sürecini bazı katı istatistiksel çıkarım prosedürüne önemsizleştirmek imkansızdır. İstatistiksel çıkarım kullanılan araçlardan sadece biridir.

CERN bu parçacığı ararken odak noktası ilk önce onu bulmaktı. Nihai hedef buydu. Fizikçinin nereye bakacağı hakkında bir fikri vardı. Bir kez aday belirlediklerinde, aday olduğunu kanıtlamaya odaklandılar. Sonunda, p değeri ve önemi olan tek bir deney değil, kanıtların toplamı herkesi parçacığı bulduğumuza ikna etti . Buraya tüm ön bilgileri ve standart modeli ekleyin . Bu sadece istatistiksel bir çıkarım değil, bilimsel yöntem bundan daha geniştir.


vay, cevabınız harika! bu gerçekten iyi bir örnek. Umarım en fazla 10 yıl içinde yaşam bilimcileri de bu rapor stiline gelirler!
Alman Demidov

5

Güç hesaplarına dayanmayan buna yaklaşmanın yolları vardır (bakınız Wellek, 2010). Özellikle, etkinin a priori anlamlı büyüklükte olduğu null değerini reddettiğinizi de test edebilirsiniz .

Daniël Lakens bu durumda denklik testi yapılmasını savunuyor. Lakens özellikle ortalama karşılaştırmalar için " TOST " (iki tek taraflı test) kullanır, ancak aynı fikre ulaşmanın başka yolları da vardır.

TOST'ta bir bileşik null değerini test edersiniz: tek taraflı null hipotezi, etkinizin en küçük negatif fark farkından daha negatif olduğunu ve etkinizin en küçük pozitif ilgi farkından daha pozitif olduğunu sıfır. Her ikisini de reddederseniz, anlamlı bir fark olmadığını iddia edebilirsiniz. Etkinin sıfırdan önemli ölçüde farklı olsa bile bunun olabileceğini unutmayın, ancak hiçbir durumda boş değerin onaylanmasını gerektirmez.

Lakens, D. (2017). Eşdeğerlik testleri: t testleri, korelasyonlar ve meta-analizler için pratik bir primer . Sosyal Psikolojik ve Kişilik Bilimi , 8 (4), 355-362.

Wellek, S. (2010). Eşdeğerlik ve Yetersizlik İstatistiksel Hipotezlerinin Test Edilmesi . Chapman ve Hall / CRC Press, ikinci baskı.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.