Fisher'ın “git daha fazla veri al” yaklaşımı ne zaman anlamlıdır?


26

Gung'un harika cevabından alıntı

İddiaya göre, bir araştırmacı bir keresinde Fisher'a “önemli olmayan” sonuçlarla yaklaşmış, ne yapması gerektiğini sormuş ve Fisher “git daha fazla veri al” dedi.

Bir Neyman- Pearson açısından bakıldığında, bu bariz olan -hacking ancak Fisher'in go-get-daha-veri yaklaşımı mantıklı bir kullanım örneği var mıdır?p


10
Fisher (tekrar tekrar) deneylerin çoğaltılmasının önemini vurguladı ve bence onun niyeti buradaydı (konuşmanın gerçekleştiği varsayılarak). Kesinlikle Fisher, önemini kontrol edemeyeceğinizi ve daha sonra almadıysanız ilk numunenizi genişletemeyeceğinin farkındaydı.
Glen_b -Reinstate Monica

@Glen_b Daha önce "deneylerin çoğaltılması" ifadesini duydum ama anlamadım. Ayrıntılı olabilir misiniz? Diyelim ki, örneklem büyüklüğü 100 olan tek bir denemeden 10 daha iyi olan bir deneyin on kopyası mı?
nalzok

Keşif çalışmasında, go-more-more-data kabul edilebilir olabilir. Doğrulayıcı çalışmada, go-get-more-data için konum yoktur.
user158565

5
İstatistiki uygulama hakkındaki tartışmalı görüşlerimden biri, yanlış-pozitif konusunu göz önüne almanın önemli olmasına rağmen, bir türü korumak için verilerden öğrenmeyi reddettiğimiz yüksek bir kaide üzerine tip 1 hata oranlarını muhafaza etmememiz gerektiğidir. 1 hata oranı.
Cliff AB

Yanıtlar:


29

Sık görülen paradigma, Fisher ve Neyman-Pearson'un görüşlerinin bir birleşimidir. Sadece bir yaklaşımı ve başka bir yorumu kullanırken problemler ortaya çıkar.

Daha fazla veri toplamanın daha fazla kanıt olduğu gibi, daha fazla veri toplamanın sorunlu olduğu herkes için garip görünmelidir. Gerçekten de, sorun daha fazla veri toplamada değil, aynı zamanda ilginin ölçüsü olduğunda, buna karar vermek için değerinin kullanılmasında yatmaktadır . Dayalı daha fazla veri toplama -değeri sadece yeni hesaplamak eğer -hacking değerini gösterir.pppp

Araştırma sorusu hakkında tatmin edici bir sonuç çıkarmak için yeterli kanıtınız yoksa, elbette, daha fazla veri alın. Ancak, araştırmanın NHST aşamasına geçmiş şimdi olduğunu kabul ve yerine odak miktarının ilgi etkisi.


İlginç bir not, Bayesanlar'ın bu ikilemden muzdarip olmadığıdır. Aşağıdakileri örnek olarak düşünün:

  • Eğer bir sıklıkçı önemli bir fark çıkarmazsa ve sonra bir denklik testine geçerse, kesinlikle yanlış pozitif oran artmıştır;
  • Bir Bayesian aynı anda en yüksek yoğunluk aralığını ve bir farkın pratik denklik bölgesini ifade edebilir ve geceleri aynı şekilde uyuyabilir.

Dolayısıyla, temel olarak, A popülasyonunun ortalamasının B popülasyonuna eşit olup olmadığını test etmek istediğimi söyleyin. Başlangıçta, bazı veriler alıyorum, için bir test : "araçlar eşit" ve bunu reddetmekte başarısız oldum. Bu durumda için başka bir test : "araçlar eşit DEĞİL". Tüm yapabildiğim, araçların gizli aralıklarını tahmin etmek, doğru mu? İki aralık arasında çakışma olmazsa ne olur? H 0H0H0
nalzok

6
“Sadece yeni bir p değeri hesaplarsanız p-hack ediyor.” Bu aslında tamamen p değerini hesaplamak için kullanılan yönteme bağlı değil mi? Sıralı analizi ve daha fazla veri toplama kararını dikkate almamak, yanlış bir p-değeriyle sonuçlanacaktır. Bununla birlikte, p değerinin hesaplanmasında daha fazla veri toplamak için karar kuralını dahil ederseniz, geçerli bir p değeri üreteceksiniz.
jsk

4
@ jsk Bence sonradan hesaplanan p değerlerinin bir şekilde geçersiz olması ve denemenizin "doğru" olduğunu ve o proje ile ilgili araştırmanızın "ne olduğunu değerlendirmek için keyfi ve veri odaklı olmayan bir standart kullandığınızdan daha az olduğunu düşünüyorum. bitti". Olmayan tüm önemli p-değerleri yanlış olduğunu karar vermek ve birini elde edene kadar veri toplamaya olduğu önemli ve o zaman "doğru" sonucunu almış olduğumdan durdurma deneysel bilimin tersidir.
Upper_Case-Stop Harming Monica,

1
@Upper_Case P-hack'la ilgili yazının çok küçük bir bölümü hakkında yorum yapıyordum, bu yüzden bu bölümü tırnak içine aldım. Benim ifademe çok fazla şey okuyorsun. Demek istediğim, daha fazla veri toplamaya karar vermek için kullanılan HER karar kuralının, p-değerinin hesaplanmasına dahil edilmesi gerektiğidir. P-değerinin hesaplanmasına verilen kararları dahil ettiğiniz sürece, eğer istersen geçerli bir NHST yapabilirsin. Bu, hiçbir şekilde "önemli bir sonuç bulana kadar daha fazla veri topla" diyen durma kuralını savunuyorum anlamına gelmez.
jsk

@jsk Ah, şimdi amacınızı daha iyi anlıyorum. Açıklama için teşekkürler.
Upper_Case-Stop Harming Monica,

10

Yeterince büyük bir örneklem büyüklüğü verildiğinde, test, gerçek etki büyüklüğü tam olarak sıfır değilse, burada tartışıldığı gibi her zaman önemli sonuçlar verecektir . Uygulamada, gerçek etki büyüklüğü sıfır değildir, bu nedenle daha fazla veri toplamak en ufak farkları tespit edebilecektir.

Fisher'ın (IMO) fasetli cevabı, kendi öncülünde 'önemli fark' ile 'pratik olarak ilgili fark' ile birleştiği göreceli olarak önemsiz bir soruyu yanıtlıyordu.

Ofisime giren ve "25 gram" etiketli bu kurşun ağırlığı tarttım ve 25.0 gram ölçtüm. Yanlış etiketlendiğine inanıyorum ne yapmalıyım? "Diye soran bir araştırmaya eşdeğer olacaktır. Cevaplayabileceğim, "Daha hassas bir ölçek alın."

İlk testin pratikte alakalı olduğu farkın büyüklüğünü tespit etmek için yeterince güçsüzce kullanıldığında, daha fazla veri toplama yaklaşımının uygun olduğuna inanıyorum.


Mesele şu ki, p-değerinin hesaplanmasında daha fazla veri alma kararını dahil etmeniz gerekiyor.
jsk

jsk p değerini değiştirseniz bile, önemli bir sonuç bulmak için daha fazla veri toplayabilirsiniz (daha fazla veriye ihtiyacınız olsa da).
Underminer

1
Daha net olabilirdim. Ne demek istediğinizi tam olarak anlayamadım "önemli bir sonuç bulmak için hala daha fazla veri toplayabilirsiniz". Bunu anlıyorum çünkü boş hipotez genellikle hiçbir zaman gerçek değildir, daha fazla veri toplamak sonunda önemli bir sonuca yol açacaktır. Sadece p değerini hesaplarken, p değerinin hesaplanmasında daha fazla veri toplama kararını dahil etmeniz gerektiğine dikkat çekmek istedim. Bu, karar kurallarının (daha fazla veri toplama konusunda) orijinal veri toplamadan önce önceden belirtilmesi gerektiği anlamına gelir.
jsk

p-değerini ayarlama konusunda çok muhafazakar bir yöntemle bile (örneğin, Bonferroni doğru, post-hoc analizde uygulanabilir), düzeltmenin üstesinden gelecek kadar büyük bir ek örnek büyüklüğü vardır. Mesele şu ki: Bana bir p-değeri ayarlama yöntemi (orijinal veri toplama öncesinde belirtilmiş olsun veya olmasın) sağlarsanız, ilgilenilen grupların nüfus dağılımları arasındaki gerçek fark ve önemsiz ön sonuçlar; ve size, önemli sonuçlar elde etmenizi sağlayacak kadar büyük bir örneklem büyüklüğü sağlayabilirim. Bu nedenle, daha fazla veri HER ZAMAN bir cevaptır.
Underminer

7

Teşekkürler. Burada akılda tutulması gereken birkaç şey var:

  1. Alıntı kıyamet olabilir.
  2. İkinci bir çalışma için daha fazla / daha iyi veri veya farklı bir kaynaktan (daha kesin bir ölçek, cf., @ Underminer'in cevabı ; farklı durum veya kontroller; vb.) Veri elde etmek oldukça mantıklıdır (bkz. @ Glen_b'in yorumu ). . Yani, ek verileri orijinal verilerle birlikte analiz edemezsiniz: D = anlamlı olmayan bir sonuçla N = 10 olduğunu, başka bir N = 20 verisi toplayıp bunları tek başına analiz edebileceğinizi söyleyin (30'u birlikte test etmeden) ). Alıntı kıyamet değilse, Fisher'in aklında olan şey bu olabilirdi.
  3. Fisher'ın bilim felsefesi esas olarak Popperian'dı . Başka bir deyişle, boş değer, teorinizi onaylamak için kesinlikle reddedilecek bir şey değildi, ama ideal olarak teorinizin kendisi olabilir, öyle ki reddetme evcil hayvan teorinizin yanlış olduğu ve çizim tahtasına geri dönmeniz gerektiği anlamına gelir. Böyle bir durumda, tip I hata enflasyonu araştırmacının yararına olmaz. (Öte yandan, bu yorum, karakterin dışında kalmayacak kadar kargaşalı olmadıkça, bu tavsiyede bulunan Fisher'a karşı keser.)
  4. Her halükarda, bu yorumun dahil edilmesinin sebebinin, iki yaklaşımın doğasındaki farklılıklarla ilgili temel bir şeyi gösterdiği olduğunu belirtmeye değer.

1
(Diyelim ki Fisher'dan başka biri, doğruluğunu etkilemeyen bir alıntı olduğunu söyledi.) İkinci noktanıza cevaben, AFAIK, ek verileri orijinal verilerle birlikte analiz etmeseniz bile, hala hack yapıyor, ve bunu yaparak, alternatif hipotezi yanlış kabul etme olasılığınız daha yüksektir, çünkü boş hipotezi destekleyen orijinal veriler atılır. Öte yandan, bu, boş bir hipotez reddedilinceye kadar (şans eseri) sınamaya devam etmeyeceğiniz için üçüncü noktanızı uyguladığınızda anlamlı olur. p
nalzok

Bu arada, "iki yaklaşımın doğasındaki farklılık" hakkında detaylı bilgi verirseniz harika olur. Fisher'ın yöntemi daha kulağa daha çok ... öznel, hata oranını gerçekten önemsemediğini hissediyorum, ancak bir şeyleri özlüyorum.
nalzok

1
@nalzok, aradaki fark orijinal başlıkta tartışılıyor: Neyman-Pearson yaklaşımı çalışmanın ayrı bir olay olduğunu varsayar, yaparsınız ve uzaklaşırsınız; Fisher'ın yaklaşımı konunun devam eden soruşturma altında olduğunu varsayar. Re: # 2, verileri yalıtılmış olarak analiz ederseniz, bilgisayar korsanlığı yapmaz (belki birden fazla çalışma yapmazsanız ve sadece ne istediğinizi gösteren yayınlayın). Re: # 3, hayır, boş kabul edilmedi, teorinizi test etmek için daha iyi yollar bulmaya devam etmeniz gerekiyor.
gung - Reinstate Monica

1
@nalzok, küçük olduğunda, test önemlidir ; zaman büyük, test olmayan -önemli. Verileri, ima ettiğiniz görünüşte yeniden kullanmazsınız ve Fisher'ın birinin düşünmesi gerektiğini düşündüğünden şüpheliyim. ppp
gung - Reinstate Monica

1
(+1) Bazen ağaca odaklandığımızı ve ormanı özlediğimizi düşünüyorum. Açıkçası, zor bir problemimiz olduğunda, daha fazla veri genellikle daha az veriden daha iyidir . Çoğu durumda, daha fazla veri çok daha iyi değildir. Meng'in anlayışlı 2018 belgesinde " Büyük verilerde istatistiksel paradokslar ve paradokslar (I) ") önerdiği gibi, bilinmeyen bir miktar tahmin etmeye çalışırken daha iyi veri elde etmek (örneğin iyi seçilmiş bir örnek) daha büyük verilerden çok daha faydalıdır . Ancak daha fazla veri genellikle yardımcı olur!
usεr11852 Reinstate Monic diyor

6

P-hack olarak adlandırdığımız şey, bir defalarca bir önemlilik testi uygulamak ve yalnızca önemlilik sonuçlarını bildirmektir. Bunun iyi ya da kötü olması durumsal olarak bağımlıdır.

Açıklamak için, boş ve alternatif hipotezlerden ziyade Bayesian terimlerindeki gerçek etkileri düşünelim. İlgi etkilerimizin sürekli bir dağılımdan geldiğine inandığımız sürece , sıfır hipotezinin yanlış olduğunu biliyoruz . Ancak, iki taraflı bir test olması durumunda, bunun olumlu mu yoksa olumsuz mu olduğunu bilmiyoruz. Bu ışık altında, iki taraflı testler için p-değerlerini, kanıtın ne kadar güçlü olduğunu tahmin etmemizin doğru yöne (yani, olumlu veya olumsuz etkiye sahip) olduğunu düşünebiliriz.

Bu yorum altında, herhangi bir anlamlılık testinin üç olası sonucu olabilir: etkinin yönünü sonuçlandırmak için yeterli kanıt görüyoruz ve haklıyız, etkinin yönünü sonuçlandırmak için yeterli kanıt görüyoruz ama yanılıyoruz veya yapmıyoruz etkinin yönünü sonuçlandırmak için yeterli kanıtı görün. Yeterli kanıtınızın (yani, ) olduğuna dair şartlı olduğuna dikkat edin , yönün doğru olma olasılığının yanlış alma olasılığından daha büyük olması gerektiğine dikkat edin (bazı gerçekten çılgın, gerçekten kötü bir testiniz olmadıkça). gerçek etki büyüklüğü sıfıra yaklaşır, yeterli kanıt verildiğinde verilen yönü doğru alma koşulu olasılığı 0.5'e yaklaşır.p<α

Şimdi, daha fazla veri almak için geri döndüğünüzde ne olacağını düşünün. Ne zaman daha fazla veri elde ederseniz, yönü doğru şekilde alma olasılığınız yeterli veriye bağlı olarak artar. Bu nedenle, bu senaryoda, daha fazla veri alarak, aslında bir tip I hata olasılığını arttırmamıza rağmen, aynı zamanda yanlışlıkla yanlış yönlendirme olasılığını da azalttığımızı anlamamız gerekir.

Bunu aksine, P-hack'in daha da kötüye kullanımı; Çok küçük olma olasılığı iyi olan 100'ün üzerinde etki büyüklüğünü test ediyoruz ve yalnızca önemli olanları rapor ediyoruz. Bu durumda, eğer tüm etkiler küçükse, önem beyan ettiğimizde yönü yanlış anlama şansımızın% 50 civarında olacağına dikkat edin.

Tabii ki, bu veri-çift katmanın ürettiği p-değerleri hala bir tuz taneleri ile gelmelidir. Genel olarak, bir etki büyüklüğü hakkında daha emin olmak için daha fazla veri toplayan insanlarla ilgili bir sorun yaşamamanız gerekirken, bu başka şekillerde kötüye kullanılabilir. Örneğin, akıllı bir PI, 100 veri noktasının tümünü aynı anda toplamak yerine, önce 50 veri noktası toplayarak, verileri analiz ederek ve önemli değilse, sonraki 50'yi toplayarak bir miktar para tasarrufu yapabileceklerini ve güçlerini artırabileceklerini fark edebilirler. . Bu senaryoda, önemini beyan etme koşulunda etkinin yönünü yanlış anlama olasılığını arttırırlar, çünkü etkinin yönünü 100 veri noktasından ziyade 50 veri noktasıyla yanlış yönlendirme olasılığı daha yüksektir.

Ve son olarak, sonuçlarını dikkate değil biz önemsiz bir sonuç olduğunda daha fazla veri alma. Bu, hiçbir zaman bilimi ileriye itmeyecek olan konu hakkında daha fazla bilgi toplamayacağı anlamına mı geliyor? Güçlü bir çalışma bütün bir alanı öldürür.


1
(+1) Bu ilginç bir bakış açısı, ancak Fisher'ın metodolojisi ile zekice PI'ninki arasındaki farkı açıklayabilir misiniz? Her ikisi de daha fazla veri toplar çünkü ilk test önemsizdir, öyle görünüyor.
nalzok

Ayrıca, "aslında bir tip I hata olasılığını arttırmamıza rağmen, yanlış yöndeki yanlış yönlendirme ihtimalini de azaltıyoruz" derken ne demek istediğinizi tam olarak anlayamadım. Buradaki sıfır hipotezi nedir? IMO, tek taraflı bir test yapıyorsanız, "yanlış yönü sonuçlandırmak", "bir tür I hatası" dır ve iki taraflı testler için yönü tamamlamamalısınız.
nalzok

Yanlışysam beni düzelt, ancak iki taraflı bir test anlamlı olana kadar daha fazla veri toplamayı öneriyorsun, ve bu durumda, I tipi hata oranı% 100 olacaktır.
nalzok

1
Fisher'ın önerdiği ile zeki / saf PI arasındaki temel fark, Fisher'ın bu çalışmayı sonuçlandırmak için yaptığı çağrıdır. Seçenekleri ya daha fazla veri toplamak ya da etkinin yönünü asla bilemeyeceğine karar vermek. Öte yandan, PI karar düşük güç o bile verileri görmeden onun ilk çalışması.
Cliff AB,

1
@nalzok: çalışma saatleri dışında bakmaya çalışacağımdan eminim :)
Cliff AB

1

Alternatifin küçük bir priori olasılığı varsa, boş olanı reddetmeyen bir deney onu daha da azaltacak ve daha fazla araştırmayı daha düşük maliyetli hale getirecektir. Örneğin, bir priori olasılığın 0,01 olduğunu varsayalım . O zaman senin entropinin .08 bit. Olasılık 0,001'e düşerse, o zaman entropinin şimdi 0,01 olur. Bu nedenle, veri toplamaya devam etmek genellikle uygun maliyetli değildir. Maliyet etkin olmasının bir nedeni, bilmenin o kadar önemli olduğudur ki, kalan .01 bit entropinin bile azaltılmaya değer olduğu.

Diğer bir sebep ise, priori olasılığın gerçekten yüksek olmasıydı. Eğer priori olasılığınız% 50'den fazlaysa, boş değeri reddetmemek entropinizi artırarak veri toplamaya devam etmeyi daha düşük maliyetli hale getirir. Bir örnek, bir etkinin olacağından neredeyse emin olduğunuz, ancak hangi yönde olduğunu bilmediğiniz olabilir.

Örneğin, bir karşı istihbarat ajanıysanız ve bir departmanın bir köstebeği olduğundan ve onu iki şüpheli olarak daralttığınızdan ve hangisinin toplanmasının haklı olacağına karar vermek için bazı istatistiksel analizler yapıyorsanız eminseniz daha fazla veri.


Null değerinin reddedilmemesi neden olasılığını düşürüyor? Kanıtın yokluğu, yokluğun kanıtı olmasa da, neden yokluğa karşı kanıt olduğunu anlamıyorum .
nalzok

@nalzok "Alternatifin küçük bir priori olasılığı varsa, boş değeri reddedemeyen bir deney onu daha da azaltacaktır" "Boş", "onu" en yakın isim olsa da, boş bir miktar değildir ve bu nedenle azaltılamaz ve "o" için geçerli bir öncül değildir. Ek olarak "ayrıca", "bunun" zaten küçük bir şeyi ifade ettiğini gösterir. Bu gerçekler, alternatifin “küçük bir priori olasılık” olduğu “onun” öncülüne işaret ediyor.
Birikim
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.