İki kuyruklu testler… Sadece ikna olmadım. Amaç ne?


59

Aşağıdaki alıntı girişten, Tek kuyruklu ve iki kuyruklu testler arasındaki farklar nelerdir? , UCLA'nın istatistik yardım sitesinde.

... diğer yönde bir etkinin kaybolmasının sonuçlarını düşünün. Mevcut bir ilaca göre bir iyileşme olduğuna inandığınız yeni bir ilaç geliştirdiğinizi düşünün. Gelişimi tespit etme yeteneğinizi en üst düzeye çıkarmak istersiniz, bu nedenle tek kuyruklu bir testi seçebilirsiniz. Bunu yaparken, yeni ilacın mevcut ilaca göre daha az etkili olup olmadığını test edemezsiniz.

Hipotez testinin mutlak temellerini öğrendikten ve bir veya iki kuyruklu test hakkında kısma geldikten sonra ... Bir kuyruklu testin temel matematiğini ve artan algılama yeteneğini anlıyorum. bir şeyin etrafında ... Amaç nedir? Örnek sonucunuz yalnızca birinde veya diğerinde olabilirken, neden alfalarınızı iki uç noktaya ayırmanız gerektiğini gerçekten anlamıyorum.

Örnek senaryoyu yukarıdaki alıntı metinden alın. Ters yönde bir sonuç için "sınamayı" nasıl başardınız? Örnek ortalaman var. Nüfusun demek istiyorsun. Basit aritmetik, hangisinin daha yüksek olduğunu gösterir. Ters yönde sınamak veya sınamak için ne var? Numune ortalamasının diğer yöne doğru gittiğini açıkça görüyorsanız, sizi tam tersi bir hipotez ile sıfırdan başlatan nedir?

Aynı sayfadan başka bir teklif:

İki kuyruklu testin ne kadar "yakın" olduğu önemli değil, boş hipotezi reddetmeyen, iki kuyruklu bir test yaptıktan sonra tek kuyruklu bir test seçmek uygun değildir.

Bunun tek kuyruklu testinizin polaritesini değiştirmek için de geçerli olduğunu farz ediyorum. Peki bu "doktor" sonucu, ilk önce doğru tek kuyruklu testi seçmiş olmanıza göre daha az geçerli midir?

Açıkçası burada resmin büyük bir bölümünü özlüyorum. Hepsi sadece çok keyfi görünüyor. Hangi olduğunu sanırım, "istatistiksel olarak anlamlı" anlamına gelenin anlamı olarak -% 95,% 99,% 99,9 ... başlamakla keyfi.


18
Bu bana çok iyi bir soru gibi geliyor, +1.
gung - Monica'yı yeniden

5
Verilerinizi toplamadan önce denemenizi ve testlerinizi tasarlamanız gerektiğinin kesin olarak bilinmesine rağmen, yeni ilaçların çoğu kez çok taraflı bir test olmadan test edilmeleri gerçeği göz önüne alındığında, örneklerini ilaçlara ilgi çekici buluyorum .
P-Gn

3
@ user1735003, ilaç denemelerini düzenleyen pek çok ruh halini / davranışını göz önünde bulunduran ironik bir makale, gözlemci önyargısı için artan bir inceleme altına giriyor. Burada Ritalin'de ilginç bir Cochrane var . “Plasebo'nun üstünlüğü iddia edildi”, herhangi bir yargıcın “zarar” dediği şeydir, bu yüzden en azından düşünülemez bulmuyorum. Ancak bu denemelerde, çalışmalar zarar vermek için durursa, sinyal olumsuz olaylardan gelir.
AdamO

10
“Örnek ortalamanız var. Nüfus ortalamanız var ... Örnek ortalamanın diğer yöne doğru gittiğini açıkça görüyorsanız, karşıt hipotez ile sıfırdan başlamanız sizi ne durduruyor?” . Hayır, hipotez testinin bütün noktası , nüfus ortalamanıza sahip olmamanız ve örnek ortalamayı, popülasyon ortalaması (null hipotezi) hakkında bir varsayımı test etmek için kullanmanızdır. Bu yüzden, "örnek ortalamanın yolunda olduğunu açıkça görmeyin" diye bir şey yoktur , çünkü kesin olarak test ettiğiniz şeydir, verilen değil.
StAtS

1
sorun şu ki kutuplamayı bilmiyorsunuz, bu yüzden iki kuyruklu testi denemeniz gerekiyor. hangi fişin kullanıldığını bilmiyorsanız, voltmetreyi DC güç kaynağına taktığınızı hayal edin. POZİTİF
Aksakal

Yanıtlar:


46

Verileri buzdağının tepesi olarak düşünün - suyun üzerinde görebildiğiniz tek şey buzdağının tepesidir, ancak gerçekte buzdağının tamamı hakkında bir şeyler öğrenmekle ilgilenirsiniz.

İstatistikçiler, veri bilimcileri ve verilerle çalışan diğer kişiler, su hattının üstünde gördüklerini etkilememelerine ve su hattının altında saklananların değerlendirmelerini etkilemelerine izin vermemek konusunda dikkatlidir. Bu nedenle, bir hipotez testi durumunda, buzdağının tepesini görmeden önce ne olabileceği konusundaki beklentilerine (veya eksikliklerine) dayanarak beklentilerini (veya bunların eksikliğini) temel alarak, boş ve alternatif hipotezlerini formüle etme eğilimindedirler. .

Hipotezlerinizi formüle etmek için verilere bakmak kötü bir uygulamadır ve kaçınılması gerekir - at arabasını attan önce koymak gibidir. Verilerin, ilgilenilen hedef popülasyondan / evrenden seçilen tek bir örneklemden (umarım rastgele bir seçim mekanizması kullanarak) geldiğini hatırlayın. Numunenin, altta yatan popülasyonu yansıtabilen veya yansıtmayabilen kendi kendine özgü özellikleri vardır. Neden hipotezlerinizin popülasyonun tamamı yerine dar bir dilim dilimi yansıtmasını istiyorsunuz?

Bunu düşünmenin bir başka yolu, hedef popülasyonunuzdan bir örnek seçtiğinizde (rastgele bir seçim mekanizması kullanarak), örneğin farklı veriler üreteceğidir. Eğer boş ve alternatif hipotezler hakkındaki spesifikasyonunuzu yönlendirmek için verileri kullanırsanız (ki istememelisiniz !!!), hipotezleriniz haritanın her yerinde, her bir örneklemin kendi kendine özgü özellikleri tarafından yönlendirilecektir. Tabii ki, pratikte sadece bir örnek çiziyoruz, ancak eğer bir başkası aynı çalışmayı aynı büyüklükteki farklı bir örneklemle yapsa, hipotezlerini değiştirmek için hipotezlerini değiştirmek zorunda kalacaklarını bilmek çok rahatsız edici bir düşünce olacaktır. onların örneği.

Mezun olduğum okul profesörlerinden biri çok akıllıca şöyle diyordu: “Örnek hakkında umursamıyoruz, ancak bize nüfus hakkında bir şeyler söylemesi dışında” . Hedef popülasyon hakkında bir şeyler öğrenmek için hipotezlerimizi formüle etmek istiyoruz, o popülasyondan seçtiğimiz bir örnek hakkında değil.


1
@ subhashc.davar: Cevabımın alaka düzeyini görmediğiniz için, bu başkasının görmeyeceği anlamına gelmez. Lütfen cevapların yalnızca soruyu soran kişi için değil tüm topluluk için olduğunu unutmayın. Bu konuyu şiddetle hissediyorsanız cevabımı silmekten mutluluk duyarım.
Isabella Ghement

7
@ subhashc.davar Bir örnek yardımcı olabilir: Bir atıştırmanın performansı etkileyip etkilemediğini test edersiniz. Deneyi yönetiyorsunuz ve atıştırmalıklardan hafif bir puan kazanıyorsunuz. Harika! Snacker> Snacker olmadığını görmek için bir kuyruklu test yapın. Sorun: Snacker'lerin daha kötü performans gösterdiği bir örnek çizseydiniz ne yapardınız? Atıştırmalıklar <atıştırmalıklar için tek kuyruklu bir test yaptınız mı? Öyleyse, bir hata yapıyorsunuz ve örnek idiosyncracie'lerin testinize rehberlik etmesine izin veriyorsunuz.
RM

21
Profesörümden bir fıkra: “Bir arkadaşın yeni doğmuş kızını doğumhanede ziyaret ettik. / 50. İstatistiksel olarak çok önemliydi. Öyleyse bu makaleyi benimle birlikte kim yazmak istiyor? Kimse? Neden? Bir hipotezi test etmek için bir hipotez oluşturan verileri kullanamazsınız. "
AdamO

4
@AdamO Yorumunuzu cevabın kendisinden daha iyi bir açıklama buldum. 'Sen olarak ben son cümle tho başka bir şekilde ifade ediyorum olmamalıdır ayrıca hipotezi test etmek hipotezinizi oluşturulan hangi ile aynı verileri kullanır.'. Bununla ilgili bir sonuç, daha önce seçmiş olduğunuz testin sonucuna dayanarak hipotezinizi değiştirmenin iyi olduğudur. Fakat yeni hipotezinizi yeni verilerle test etmelisiniz.
Kenny Evitt

3
@KennyEvitt evet kesinlikle doğru. Tesadüfi bulgular önemlidir ve bildirilmeli, ancak önceden belirlenmiş hipotezler olarak satılmamalıdır.
AdamO

18

Bence sorunuzu düşünürken boş hipotez anlamlılık testi (NHST) hedefini / satış noktalarını aklınızda tutmaya çalışırsanız, bunun yardımcı olacağını düşünüyorum; istatistiksel çıkarım için sadece bir paradigma (çok popüler olmasına rağmen) ve diğerleri de kendi güçlü yanlarına sahipler (örneğin, burada , Bayesian çıkarımına göre NHST tartışması için buraya bakınız ). NHST'nin en büyük nesi nedir?: Uzun süreli hata kontrolü . Eğer NHST kurallarına uyarsanız (ve bazen bu çok büyükse), o zaman uzun vadede yaptığınız çıkarımlarda ne kadar yanlış olacağınıza dair iyi bir fikre sahip olmalısınız.

NHST'in titizlik kurallarından biri, test prosedürünüzde herhangi bir değişiklik yapmadan ilgilendiğiniz teste yalnızca bir göz atmanızdır. Uygulamada Araştırmacılar genellikle gözardı (ya farkında değildir) bu kural (bkz Simmons ve ark., 2012), veri dalgaları ekleyerek onların kontrol ettikten sonra birden testlerp- Modellerine değişkenler ekledikten / çıkardıktan sonra değerler, vb. Bununla ilgili sorun, araştırmacıların NHST sonuçlarına göre nadiren nötr olmalarıdır; önemli sonuçların, önemli olmayan sonuçlardan daha fazla yayınlanma ihtimalinin daha yüksek olduğunun farkındadır (hem yanlış yönlendirilmiş hem de meşru olan nedenlerden dolayı; Rosenthal, 1979). Bu nedenle araştırmacılar sıklıkla veri eklemek / model değiştirmek / aykırı değer seçmek ve önemli bir etkiyi "açığa çıkarmak" için tekrar tekrar test etmek için motive olurlar (bkz. John et al., 2011, iyi bir giriş).

Bir sezgilere aykırı sorun Dienlerin güzel bir şekilde tarif yukarıdaki uygulamalarla, tarafından oluşturulur (2008): önemi sıklıkla (yanlış pozitif bulgular daha sonra istedikleri uzun dönem hata oranlarını elde edilene kadar araştırmacılar onların örnek / tasarım / modelleri ayar tutacak eğer ) ve false-negatif bulgular (genellikle ) sırasıyla 1.0 ve 0.0'a yaklaşacaktır (yani , hem yanlış olduğunda hem de doğru olduğunda her zaman reddedersiniz ).α=.05β=.20H0

Özel sorularınız bağlamında, araştırmacılar etkinin yönüne ilişkin özel tahminlerde bulunmak istemediklerinde varsayılan olarak iki kuyruklu testleri kullanırlar. Tahminlerinde yanlışlarsa ve etki yönünde tek kuyruklu bir test yaparlarsa, uzun süreli şişirilir. Tanımlayıcı istatistiklere bakarlarsa ve trendin gözbebeklerine dayanarak tek kuyruklu bir test yaparlarsa, uzun vadeli şişirilecektir. Uygulamada, değerlerinin uzun vadeli anlamlarını yitirdiklerini çok büyük bir sorun olmadığını düşünebilirsiniz , ancak anlamlarını koruyamazlarsa, niçin çıkarım için bir yaklaşım kullandığınız sorusu akla gelir. uzun süreli hata kontrolüne öncelik verir.α pααp

Son olarak (ve kişisel tercih meselesi olarak), önce iki kuyruklu bir test yaptıysanız, önemsiz bulduktan sonra ilk kuyruklu testi uyguladıysanız, tek kuyruklu testi yaptıysanız ve daha az sorun yaşardım. başka bir örneklemde bu etkinin kesin onaylayıcı bir çoğaltmasını yaptıysanız (ve eğer sadece), çoğaltmayı aynı makalede yayınladıysanız, bunun anlamlı olduğunu tespit ettiniz. Keşifsel veri analizi - hata oranı şişiren esnek analiz uygulamasıyla - aynı analitik esneklik olmadan etkinizi yeni bir örnekte çoğaltabildiğiniz sürece, sorun yoktur.

Referanslar

Dienes, Z. (2008). Psikolojiyi bir bilim olarak anlama: Bilimsel ve istatistiksel çıkarıma giriş . Palgrave Macmillan.

John, LK, Loewenstein, G. ve Prelec, D. (2012). Şüpheli araştırma uygulamalarının yaygınlığının, doğru söylemeye yönelik teşviklerle ölçülmesi. Psikolojik bilim , 23 (5), 524-532.

Rosenthal, R. (1979). Dosya çekmecesi sorunu ve boş sonuçlar için tolerans. Psikolojik bülten , 86 (3), 638.

Simmons, JP, Nelson, LD, ve Simonsohn, U. (2011). Yanlış-pozitif psikoloji: Veri toplama ve analizinde açıklanmayan esneklik, önemli olan her şeyi sunmaya izin verir. Psikolojik bilim , 22 (11), 1359-1366.


Çok güzel cevap. En son araştırmam sırasında yaptığım bazı kaygıları bir araya getirmeme yardımcı oldu (bir rahip olmayan), tek kuyruklu p değerlerinin ancak “olumsuz” duruma güvenmek için mevcut bir nedeniniz varsa “güvenilir” olabileceği fikrini doğruladı. korelasyon "yön yanlış.
Venryx

10

Ne yazık ki, ilaç geliştirmenin motive edici örneği, ilaç geliştirmek için yaptığımız şey olmadığı için iyi değildir. Trendler zarar tarafındaysa çalışmayı durdurmak için farklı, daha katı kurallar kullanırız. Bu, hastaların güvenliği içindir ve ayrıca ilacın, anlamlı bir fayda yönünde sihirli bir şekilde salınması olası değildir.

Peki neden iki kuyruklu test yapıyorsunuz ? (çoğu durumda modellemeye çalıştığımız olası etki yönü hakkında önceden belirlenmiş bir fikrimiz olduğunda)

Boş hipotez, mantıklı, bilgili ve haklı olma anlamında inanca bazı benzerlikler taşımalıdır . Çoğu durumda, insanlar “ilgi çekici olmayan bir sonuç” un, 0 etkisinin olduğu durumlarda, olumsuz veya olumlu bir etkinin de eşit derecede ilgi duyduğunu kabul ederler. Kompozit bir boş hipotezi ifade etmek çok zordur, örneğin istatistiğin eşit veyabelirli bir miktardan az. İnsan, bilimsel bulgularını anlamak için boş bir hipotez hakkında çok açık olmalıdır. Kompozit bir hipotez testi uygulanma şeklinin, sıfır hipotezi altındaki istatistiğin, gözlemlenen veriler dahilinde en tutarlı değeri varsaydığına dikkat çekmek önemlidir. Dolayısıyla, etki beklendiği gibi pozitif yönde ise, boş değer yine de 0 olarak alınır ve gereksiz yere uğradık.

İki kuyruklu test, çoklu karşılaştırmaların kontrolü için iki tek taraflı test yapılması için yeterlidir! İki kuyruklu test aslında kısmen değerlendirilir, çünkü uzun vadede daha muhafazakar olur. Etki yönü hakkında iyi bir inancımız olduğunda, iki kuyruklu testler, güç üzerinde çok az genel etkiyle birlikte çoğu zaman yarı yarıya yanlış pozitifler verecektir.

Randomize kontrollü bir denemede bir tedavinin değerlendirilmesi durumunda, bana tek taraflı bir test satmaya kalkarsanız, “Durun, neden tedavinin gerçekten zararlı olduğuna inanıyoruz? Bunu desteklemek için de [faydalı bir etki gösterme yeteneği] var mı? Tek taraflı testin arkasındaki mantıksal tutarsızlık bütün araştırmayı sorgulamaya çağırıyor. Gerçekten hiçbir şey bilinmediği takdirde, 0 dışında herhangi bir değer ilginç olarak kabul edilir ve iki kuyruklu test sadece iyi bir fikir değildir, bu gereklidir.


8

Yaklaşmanın bir yolu, hipotez testlerini geçici olarak unutmak ve bunun yerine güven aralıklarını düşünmektir. Tek taraflı testler tek taraflı güven aralıklarına karşılık gelir ve iki taraflı testler iki taraflı güven aralıklarına karşılık gelir.

Bir popülasyonun ortalamasını tahmin etmek istediğinizi varsayalım. Doğal olarak, bir örnek alır ve bir örnek ortalamasını hesaplarsınız. Yüz değerinde bir nokta-tahmin yapmak için hiçbir sebep yoktur, bu nedenle cevabınızı, gerçek ortalamayı içerdiğinden emin olduğunuz bir aralık ile ifade edersiniz. Ne tür aralık seçersiniz? İki taraflı bir aralık daha doğal bir seçimdir. Tek taraflı bir aralık, yalnızca tahmininizin üst veya alt sınırlarını bulmakla ilgilenmediğiniz zaman anlamlıdır (çünkü zaten bir yönde yararlı bir sınır bildiğinize inanıyorsunuzdur). Ne kadar sıklıkla vardır gerçekten durum hakkında emin?

Belki de soruyu güven aralıklarına çevirmek onu gerçekten çürütmez, ancak tek kuyruklu testleri tercih etmek, yöntemsel olarak iki taraflı güven aralıklarını tercih etmek tutarsızdır.


4

Hipotez testinin mutlak temellerini öğrendikten ve bir veya iki kuyruklu test hakkında kısma geldikten sonra ... Bir kuyruklu testin temel matematiğini ve artan algılama yeteneğini anlıyorum. bir şeyin etrafında ... Amaç nedir? Örnek sonucunuz yalnızca birinde veya diğerinde olabilirken, neden alfalarınızı iki uç noktaya ayırmanız gerektiğini gerçekten anlamıyorum.

Sorun şu ki nüfusun anlamını bilmiyorsunuz. Gerçek nüfusun ne anlama geldiğini bildiğim gerçek bir dünya senaryosuyla hiç karşılaşmadım.

Örnek senaryoyu yukarıdaki alıntı metinden alın. Ters yönde bir sonuç için "sınamayı" nasıl başardınız? Örnek ortalaman var. Nüfusun demek istiyorsun. Basit aritmetik, hangisinin daha yüksek olduğunu gösterir. Ters yönde sınamak veya sınamak için ne var? Numune ortalamasının diğer yöne doğru gittiğini açıkça görüyorsanız, sizi tam tersi bir hipotez ile sıfırdan başlatan nedir?

Paragrafınızı birkaç kez okudum, ancak hala argümanlarınızdan emin değilim. Tekrar silmek ister misin? Verileriniz seçtiğiniz kritik bölgelere girmiyorsa "test etmeyi" başaramazsınız.

Bunun tek kuyruklu testinizin polaritesini değiştirmek için de geçerli olduğunu farz ediyorum. Peki bu "doktor" sonucu, ilk önce doğru tek kuyruklu testi seçmiş olmanıza göre daha az geçerli midir?

Fiyat teklifi doğrudur, çünkü bir p değerini kesmek uygun değildir. "Vahşi doğada" p-hackleme hakkında ne biliyoruz? Daha fazla ayrıntı var.

Açıkçası burada resmin büyük bir bölümünü özlüyorum. Hepsi sadece çok keyfi görünüyor. Hangi olduğunu sanırım, "istatistiksel olarak anlamlı" anlamına gelenin anlamı olarak -% 95,% 99,% 99,9 ... başlamakla keyfi. Yardım?

Bu keyfi. Bu nedenle veri bilimciler genellikle p-değerinin büyüklüğünü (sadece önemli veya önemsiz değil) ve etki büyüklüğünü de bildirirler.


Açık olmak gerekirse, istatistiksel çıkarımın temellerini zorlamaya çalışmıyorum. Daha önce de belirttiğim gibi, sadece çok temel bilgileri öğrendim ve doğru testin kullanılmaması nedeniyle olası bulguların nasıl gözden kaçabileceğini anlamakta güçlük çekiyorum.
09’daki TheAshes’ten

Diyelim ki arkadaşınız Joe, bitki büyümesini büyük ölçüde artırdığını iddia ettiği yeni bir ürün icat etti. İlgi çeken, bir kontrol grubu ve tedavi grubu ile sağlam bir çalışma tasarlarsınız. Boş hipin. Bu, alternatif hip'inizde büyümede bir değişiklik olmayacak olmasıdır. Joe'nun sihirli spreyi büyümeyi önemli ölçüde arttırdığı - yani bir kuyruklu test. 2 hafta sonra son gözlemlerinizi yaparsınız ve sonuçları analiz edersiniz. Tedavi grubunun ortalama büyümesi, kontrollerin AŞAĞIDAKİ 5 standart hatadan fazla olduğu ortaya çıktı. Bu çok önemli bulgu, seçtiğiniz testlerden dolayı daha az belirgin veya geçerli olanı nasıl ifade eder?
28’dekiAshes’ten

2
Bir jeton atması için kafa veya kuyruk çağırmanızı istersem, sonucu tahmin etme olasılığınız 50 / 50'dir (dengeli bir jeton ve dürüst bir kanatçı varsayarsak). Bununla birlikte, önce parayı çevirir ve bakmanıza izin verir, sonra da tahminde bulunursanız, artık 50/50 olmayacaktır. Alfa seviyesi 0,01 olan tek kuyruklu bir test yapıyorsanız, ancak sonuçları gördükten sonra test yönünü ters çevirin, çünkü p <.01 diğer yönde ise, Tip I hata riskiniz uzun değildir. ama çok daha yüksek. Gözlenen p değeri ve Tip I hata oranının aynı olmadığını unutmayın.
dbwilson

@TheAshes'ten çok temellere meydan okumaya çalışmakta yanlış bir şey yoktur. İstatistiksel hipotez testleri işe yaramaz, ancak büyük mantıksal kusurlar içeriyor ve bunlara meydan okumak kesinlikle mantıklı!
Flounderer

3

Her fark, cevaplamak istediğiniz soruya bağlıdır. Eğer soru şuysa: "Bir grup değer diğerinden daha büyük mü?" bir kuyruklu testi kullanabilirsiniz. Soruyu cevaplamak için: "Bu değer grupları farklı mı?" İki kuyruklu testi kullanıyorsunuz. Bir veri kümesinin diğerinden istatistiksel olarak daha yüksek olabileceğini, ancak istatistiksel olarak farklı olmadığını göz önünde bulundurun ... ve bu istatistikler.


1
Eğer soru şuysa: "Bir grup değer diğerinden daha büyük mü?" bir kuyruklu testi kullanabilirsiniz. ' Daha doğrusu, eğer soru "bu özel grup diğerlerinden daha büyük mü" ise, o zaman iki kuyruklu bir test kullanmalısınız.
Birikim

Bu soruyu sorarsanız, "Bu arada diğer grup gibi görünüyorsa aslında daha büyük görünüyorsa umurumda değil" şeklinde olduğu belirtilmelidir. Ne bekleyeceğinizi tam tersi görürseniz ve sonra hipotez testinin yönünü çevirmeye devam ederseniz, baştan başa kendinize yalan söylüyordunuz ve başlamak için iki kuyruklu bir test yapmalısınız.
Dason

2

Peki bu "doktor" sonucu, ilk önce doğru tek kuyruklu testi seçmiş olmanıza göre daha az geçerli midir?

Alfa değeri, boş değerin doğru olması koşuluyla boş değeri reddetme olasılığınızdır. Boş değerinizin, örnek ortalamanın normalde ortalama sıfır ile dağılmış olduğunu varsayalım. P (örnek ortalaması> 1 | H0) = .05 ise, "Örnek topla ve örnek ortalağı 1'den büyükse boş değeri reddet" kuralı, boş değerin% 5 olması durumunda boş değeri reddetme. "Bir örnek toplayın ve örnek ortalaması pozitifse kural, örnek ortalamanın 1'den büyük olması durumunda boş değeri reddedin ve örnek ortağının negatif olması durumunda, örnek ortalamanın 1'den küçük olması durumunda boş değeri reddedin" boş değerin doğru olduğu göz önüne alındığında, boş değerin reddedilme oranının% 10'u. Böylece, birinci kural% 5’lik bir alfa’ya ve ikinci kural ise% 10’luk bir alfa’ya sahip. İki kuyruklu bir testle başlarsanız, ve sonra verilere dayanarak tek kuyruklu bir sınama olarak değiştirin, sonra ikinci kurala uyuyorsunuz, bu nedenle alfa değerinizi% 5 olarak bildirmeniz yanlış olur. Alfa değeri yalnızca verinin ne olduğuna değil, onu analiz ederken hangi kuralları uyguladığınıza da bağlıdır. Neden sadece verilere dayanan bir şey yerine, bu özelliğe sahip olan bir metriği kullanıyorsanız, bu daha karmaşık bir sorudur.


2

2. noktaya gelince

İki kuyruklu testin ne kadar "yakın" olduğu önemli değil, boş hipotezi reddetmeyen, iki kuyruklu bir test yaptıktan sonra tek kuyruklu bir test seçmek uygun değildir.

boş değerin doğru olması durumunda, ilk, iki kuyruklu test, ile hatalı olarak reddedilir , ancak tek taraflı ikinci aşamada da reddedebilir.α

Genel reddetme olasılığı bundan dolayı değerini aşar ve artık test ettiğinizi düşündüğünüz düzeyde test yapmazsınız - stratejinin uygulandığı vakaların olduğundan daha sık yanlış reddetme alırsınız . gerçek boş hipotezler.αα100%

Genel olarak, olarak ifade edebileceğimiz değiliz. Sendikadaki iki olay birbiriyle bağlantılıdır, böylece İkinci terim için, üst ve kuantilleri arasında olasılık kütlesi (yani reddetme noktaları) olabilir. tek taraflı ve iki taraflı testler) ki bu iki taraflı testin ortak olasılığı reddetmiyor, tek taraflı bunu yapıyor. Bu nedenle,

P(two-sided rejects or one-sided does, but two sided doesn't)
P(two-sided rejects(one-sided doestwo sided doesn't))
P(two-sided rejects)+P(one-sided doestwo sided doesn't)
α/21α1α/2
P(one-sided doestwo sided doesn't)=α/2
böylece bu stratejinin genel reddetme olasılığı Etkili, sadece test istatistiği solunda topraklarda olasılıkları kadar ekleyin üst arasında, -quantile ve quantiles veya sağında kuantil.α/21-α1-α/21-α/2
α+α2>α
α/21α1α/21α/2

İşte küçük bir sayısal örnek:

n <- 100
alpha <- 0.05

two.sided <- function (x, alpha=0.05) (sqrt(n)*abs(mean(x)) > qnorm(1-alpha/2)) # returns one if two-sided test rejects, 0 else
one.sided <- function (x, alpha=0.05) (sqrt(n)*mean(x) > qnorm(1-alpha))        # returns one if one-sided test rejects, 0 else

reps <- 1e8

two.step <- rep(NA,reps)
for (i in 1:reps){
  x <- rnorm(n) # generate data from a N(0,1) distribution, so that the test statistic sqrt(n)*mean(x) is also N(0,1) under H_0: mu=0
  two.step[i] <- ifelse(two.sided(x)==0, one.sided(x), 1) # first conducts two-sided test, then one-sided if two-sided fails to reject
}
> mean(two.step)
[1] 0.07505351

1

Bu, ona bakmanın keyfi bir yoludur: Ne için kullanılan istatistiksel test nedir? Muhtemelen bir test yapmanın en sık nedeni, insanları (örneğin editörler, hakemler, okuyucular, izleyiciler), sonuçlarınızın "rastgele kapalı" olduğuna dikkat çekecek şekilde ikna etmek istediğinizdir. Ve bir şekilde, keyfi, ancak evrensel bir gerçek olduğu sonucuna vardık .p<α=0.05

Başka mantıklı bir neden testlerini gerçekleştirmek için, bir sabit razı asla ait , ancak değişiklik olur Eğer testinden çizmek olduğunu, sonuçları ne kadar önemli bağlı olarak vakadan vakaya.0.05 αα0.05α

İnsanları, dikkat çekici bir ölçüt yerine getirecek bir şeylerin “sadece rastgele olmaktan uzak” olduğuna ikna etmeye geri döndüm. İki taraflı testler için "rasgele değil"α=0.05 olduğunu düşündüğümüz konusunda evrensel olarak kabul edilmiş bir ölçütümüz var . Eşdeğer bir kriter, verilere bakmak, çizgiyi test etmek ve çizmek için hangi yöne karar vereceğiniz olacaktır . İkincisi, birincisine denktir, ancak tarihsel olarak çözdüğümüz şey bu değil.α=0.025

ile tek taraflı testler yapmaya başladığınızda, kendinizi gereksiz davranışlardan, olta balıkçılığından şüpheleniyorsunuz. İnsanları ikna etmek istiyorsan bunu yapma!α=0.05


O zaman elbette araştırmacılara özgürlük derecesi denilen bir şey var . Yeterli veriye sahipseniz ve istediğiniz kadar test etmekte özgürseniz, her türlü verinin önemini görebilirsiniz. Bu yüzden verilere bakmadan önce yaptığınız teste karar vermeniz gerekiyor. Geriye kalan her şey tekrarlanamaz test sonuçlarına yol açıyor. Youtube’a gidip Andrew Gelmans’ın konuştuğuna bakın "Bunun hakkında daha fazla veri suçu.


1
Hmm, boş hipotez, sonuçların rastlantısal olmadığını gösteriyor. Bu, çalışmalarının sonuçlarını çok sabit bir sonuç elde etmek olarak gören klinisyenler ve bilim adamları için kafa karıştırıcı olacaktır.
AdamO

1
"Bir kez ... ile tek taraflı testler yapmaya başladığınızda " noktanız önemlidir. bu kadar yaygın olmasının nedeni , RA Fisher'ın Rothamsted'teki pratik deneyiminin , beklenen değerden standart sapmadan daha fazla araştırmanın genellikle daha fazla araştırmaya değmesiydi ve bundan , genel kural olarak iki kuyruklu test seçti . , Tersi değil. Böylece tek kuyruklu eşdeğeriα=0.050.0525%2.5%
Henry,

1

İlk bakışta, bu ifadelerden hiçbiri iki taraflı bir testin tek taraflı bir çalışma için 'üstün' olmadığı iddiasında değildir. Test edilen istatistiksel varsayımla bağlantılı olarak test edilen araştırma hipoteziyle mantıklı bir bağlantı olması yeterlidir.

Örneğin:

... diğer yönde bir etkinin kaybolmasının sonuçlarını düşünün. Mevcut bir ilaca göre bir iyileşme olduğuna inandığınız yeni bir ilaç geliştirdiğinizi düşünün. Gelişimi tespit etme yeteneğini en üst düzeye çıkarmak istersiniz, bu nedenle tek kuyruklu bir testi seçebilirsiniz. Bunu yaparken, yeni ilacın mevcut ilaca göre daha az etkili olup olmadığını test edemezsiniz.

Öncelikle bu bir ilaç çalışmasıdır. Yani ters yönde yanlış olmak, istatistik çerçevesinin ötesinde sosyal öneme sahip. Yani birçoklarının söylediği gibi, sağlık genelleme yapmak için en iyisi değildir.

Yukarıdaki alıntıda, bir başkası zaten mevcutken bir ilacı test etmekle ilgili görünüyor. Bana göre, bu sizin ilacınızın zaten etkili olduğu varsayılmaktadır. Açıklama, bundan sonra iki etkili ilacın karşılaştırılmasıyla ilgilidir. Bu dağılımları karşılaştırırken, karşılaştırmalı sonuçlarını geliştirmek için nüfusun bir tarafını ihmal ediyorsanız? Sadece önyargılı bir sonuç değil, karşılaştırma artık haklı göstermek için geçerli bir sonuç değil: elmaları portakallarla karşılaştırıyorsunuz.

Benzer şekilde, istatistiksel çıkarım uğruna sonuç için hiçbir fark yaratmadığı, ancak sosyal öneme sahip olduğu nokta tahminleri çok iyi olabilir. Bunun sebebi, örneklemimizin insanların yaşamlarını temsil etmesi: “yeniden gerçekleşemeyecek” ve paha biçilemez bir şey.

Alternatif olarak, ifade, araştırmacının bir teşvike sahip olduğunu ima eder: "gelişmeyi tespit etme yeteneğinizi en üst düzeye çıkarmak istersiniz ..."

İki kuyruklu testin ne kadar "yakın" olduğu önemli değil, boş hipotezi reddetmeyen, iki kuyruklu bir test yaptıktan sonra tek kuyruklu bir test seçmek uygun değildir.

Yine burada, araştırmacının testini 'iki tarafa' tek tarafa 'değiştirdiğini' ima ediyor. Bu asla uygun değildir. Testten önce araştırma yapmak zorunludur. İki taraflı bir yaklaşımın rahatlığına her zaman karar vererek, araştırmacılar fenomeni daha titizlikle anlayamazlar.

İşte bu konuyla ilgili bir makale, aslında, iki taraflı testlerin aşırı kullanıldığını ortaya koyuyor.

İki taraflı bir testin aşırı kullanılmaması suçunu a:

Araştırma hipotezi ile istatistiksel hipotezi arasındaki açık fark ve mantıklı bir bağlantı

Araştırmacıların pozisyonu ve duruşunu alır:

iki ifade modu arasındaki farkın farkında olmayabilir ya da araştırma hipotezinin istatistiksel hipoteze çevrilmesi gereken mantıksal akışın farkında olmayabilir. Araştırmanın ve istatistiksel hipotezlerin uygun bir şekilde karıştırılması, iki kuyruklu testin kullanılmasının uygun olmadığı durumlarda bile iki kuyruklu testin aşırı kullanılmasının bir nedeni olabilir.

İhtiyaç duyulan, istatistiksel test sonuçlarının yorumlanmasında kesin istatistikleri kavramaktır. Muhafazakar olma adı altında eksik olunması tavsiye edilmez. Bu anlamda, yazarlar sadece “0,05 anlamlılık düzeyinde istatistiksel olarak anlamlı olduğu bulundu (örneğin, p <0,05)” gibi test sonuçlarını raporlamanın yeterince iyi olmadığını düşünüyor.

Her ne kadar iki kuyruklu test teoride daha tutucu olsa da, yönlü araştırma hipotezi ile istatistiksel hipotezi arasındaki bağlantıyı muhtemelen iki kat daha fazla şişirilmiş p değerlerine götürür.

Yazarlar aynı zamanda, ters yönde anlamlı sonucu bulma argümanının gerekçelendirme bağlamından ziyade sadece keşif bağlamında bir anlam ifade ettiğini göstermiştir . Araştırma hipotezini ve onun temel teorisini test etmek için araştırmacılar eşzamanlı olarak keşif ve gerekçelendirme bağlamına değinmemelidir.

https://www.sciencedirect.com/science/article/pii/S0148296312000550


1

Genellikle, bir alternatif hipoteze karşı sıfır hipotezi için bir anlamlılık testi yapılır . Bu, bir kuyrukluya karşı iki kuyrukluya bir fark yarattığı zamandır.


  • P değerleri için bu (iki veya bir taraf) önemli değil! Demek istediğim yalnızca bir kısmını meydana gelen bir criterium seçmek olmasıdır sıfır hipotezi doğru olduğunda zamanın. Bu, ya iki kuyruktan iki küçük parça ya da bir kuyruğun büyük bir parçası ya da başka bir şeydir.α

    Tip I hata oranı, bir veya iki taraflı testler için farklı değildir.

  • Öte yandan, önemli olan güç için .

    Alternatif hipoteziniz asimetrik ise, o zaman boş hipotezi sadece bu kuyruk / sonda reddetmek için kritere odaklanmak istersiniz; Öyle ki, alternatif hipotez doğruysa, boş hipotezi reddetme ihtimaliniz daha düşüktür ("kabul et").

    Alternatif hipoteziniz simetrik ise (belirli bir tarafa az ya da çok güç vermeyi umursamıyorsanız) ve her iki taraftaki sapma / etkinin eşit olması beklenir (veya sadece bilinmeyen / bilgisiz), o zaman iki taraflı test (test etmediğiniz kuyruk için birçok% 50 güç kaybetmiyorsunuz ve birçok II tipi hata yapacağınız yer).

    Tip II hata oranı, bir ve iki taraflı testler için ve alternatif hipoteze bağlı olarak farklıdır.

Artık, bir etkinin bir tarafa mı yoksa her iki tarafa mı düşeceğini bekleyeceğimiz ve bir test kullanmak istediğimize dair önyargılara girmeye başladığımızda ve bir testin tahrif edip edemeyeceğimizi görmek için biraz daha Bayesal bir kavram gibi oluyor. null hipotezi) bir etki gibi bir şeyi 'onaylamak' veya daha muhtemel yapmak.


0

Böylece bir cevap daha:

Sanırım bir kuyruklu mu yoksa iki kuyruklu mu olmak tamamen Alternatif hipotezine bağlıdır .

Bir t-testinde aşağıdaki test ortalamasını düşünün:

H0:μ=0

Ha:μ0

Şimdi, çok olumsuz bir örnek ortalamasını veya çok olumlu bir örnek ortalamasını gözlemlerseniz, hipotezinizin doğru olması muhtemel değildir.

Öte yandan, örnek ortalamanız yakın ise negatif ya da pozitif olursa hipotezinizi kabul etmeye istekli olursunuz . Şimdi, örnek ortalamanız düşerse boş hipotezinizi reddetmeyeceğiniz aralığı seçmeniz gerekir. Açıkçası, civarında hem negatif hem de pozitif tarafları olan bir aralık seçersiniz . Yani iki taraf testini seçtiniz.0 00

Ama test etmek istemiyorsanız , ama test etmek istiyorsanız . Şimdi sezgisel olarak burada yapmak istediğimiz şey, eğer örnek ortalamanın değeri çok olumsuz gelirse, o zaman kesinlikle boş olanımızı reddedebiliriz. Bu nedenle null değerini yalnızca örnek ortalamanın negatif negatif değerleri için reddetmek isteriz.μ=0μ0

Fakat bekle! Eğer bu benim null hipotezim ise null dağılımımı nasıl ayarlarım? Örnek ortalamanın boş dağılımı, popülasyon parametresinin bazı varsayılan değerleri ile bilinir (burada ). Ancak mevcut boş değer altında birçok değer alabilir.0

Diyelim ki sonsuz boş hipotezler yapabiliriz. Her biri değerinde bir pozitif değer varsayar . Fakat şunu düşünün: ilk hipotezimizde , eğer sadece çok uzak negatif örneklem ortalamalarına dikkat etmeyi reddedersek, olan her sonraki hipotez de reddeder. Çünkü onlar için örnek ortalama, popülasyon parametresinden daha uzaktır. Yani temelde tek yapmamız gereken sadece bir hipotez yapmak, fakat tek kuyruklu yapmak .μH0:μ=0H0:μ>0

Böylece çözümünüz olur:

H0:μ=0

Ha:μ<0

En iyi örnek, durağanlık için Dickey-Fuller testidir.

Bu yardımcı olur umarım. (Diyagramları dahil etmek istiyor ancak mobilden cevaplamak istiyordu).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.