Veriler “keşif” vs veriler “meraklanma” / “işkence”?

30

Çoğu zaman "veri gizliliği" ( örneğin eğlenceli bir örnek ) hakkında gayri resmi uyarılarla karşılaştım ve bunun ne anlama geldiği ve neden bir sorun olabileceği konusunda sezgisel bir fikrim olduğunu düşünüyorum.

Öte yandan, "keşifsel veri analizi" istatistiklerde mükemmel bir şekilde saygıdeğer bir prosedür gibi görünmektedir, en azından bu başlığa sahip bir kitabın klasik olarak saygılı bir şekilde alıntılandığına bakılırsa .

Benim işimde, sık sık bana "veri snooping" gibi görünen bir şeyle karşılaşıyorum, ya da belki de daha iyi bir "veri işkencesi " olarak tanımlanacaktı; ".

İşte tipik senaryo: pahalı deneyler gerçekleştirilir (sonraki analizde çok fazla düşünülmeden), orijinal araştırmacılar toplanan verilerde bir "öyküyü" kolayca ayırt edemez, birileri bazı "istatistiksel sihirbazları" uygulamak için getirilir ve Verileri her hangi şekilde dilimleyerek ve kestikten sonra , nihayet bazı yayınlanabilir "hikayeleri" çıkarmayı başarır.

Elbette, nihai raporda / makalede, istatistiksel analizin yukarı-yukarı olduğunu göstermek için atılan bazı "onaylamalar" vardır, ancak arkasındaki bariz her ne pahasına olursa olsun yayıncılık tavrı beni şüpheli kılar.

Maalesef, veri analizi ve yapılmaması konusundaki sınırlı anlayışım, bu gibi belirsiz şüphelerin ötesine geçmemi engelliyor, bu nedenle muhafazakar cevabım temel olarak bu bulguları göz ardı etmeme yol açıyor.

Umudum, yalnızca keşif ve gözetleme / işkence / işkence arasındaki ayrımın daha iyi anlaşılması değil, aynı zamanda ve daha da önemlisi, bu çizginin ne zaman geçtiğini saptamak için ilkelerin ve tekniklerin daha iyi anlaşılması, Optimumdan daha az analitik prosedürü makul bir şekilde açıklayabilecek ve böylece battaniye güvensizliğinin şu an oldukça basit fikirli yanıtımın ötesine geçebilecek bir yol.

EDIT: Çok ilginç yorumlarınız ve cevaplarınız için hepinize teşekkür ederim. İçeriğine bakılırsa, sorumu yeterince iyi açıklamamış olabileceğimi düşünüyorum. Umarım bu güncelleme konuları açıklığa kavuşturur.

Benim buradaki soru çok değil ne ilgilendiriyor ben işkence önlemek için yapmanız gereken benim O sonuçlarını kabul (veya değerlendirmek) nasıl: ziyade (bu da ilgi bana bu bir sorudur rağmen) verileri bir gerçeği biliyorum içinden geldi edilmiştir böyle "veri işkencesi".

Durum daha da ilginçleşiyor (ek olarak), ek olarak, yayınlanmadan önce bu tür "bulgular" hakkında bir görüş bildirme konumundayım.

Bu noktada yapabileceğim en fazla şey, “Bunları elde etmeye ilişkin varsayımlar ve prosedürler hakkında bildiklerim ne olursa olsun, bu bulgulara ne kadar güvenirim verebileceğimi bilmiyorum” gibi bir şey söylemek. Bu söylemeye bile değmeyecek kadar belirsiz. Bu kadar belirsizliğin ötesine geçmek istemek, görevimin motivasyonuydu.

Adil olmak gerekirse, buradaki şüphelerim görünüşte sorgulanabilir istatistiksel yöntemlerden daha fazla dayanıyor. Aslında, ikincisini daha derin bir problemin sonucu olarak görüyorum: Deneysel tasarıma yönelik bir şövalye tutumunun, sonuçları olduğu gibi yayınlamaya yönelik kategorik bir bağlılıkla birleştirilmesi (yani başka bir deney yapmadan). Tabii ki, takip projeleri her zaman öngörülmüştür, ancak tek bir kağıdın çıkmaması söz konusu değildir, "100.000 örnekle doldurulmuş bir buzdolabı" demiştir.

İstatistikler, bu yüce hedefi gerçekleştirmeye yönelik bir araç olarak resme gelir. İstatistiklere dayanmanın tek nedeni (tüm senaryoda olduğu gibi ikincil olarak) “her ne pahasına olursa olsun yayın” varsayımına yapılan ön cephenin basitçe anlamsız olmasıdır.

Aslında, bu gibi durumlarda yalnızca bir etkin cevap düşünebilirim: analizin kalitesini gerçekten test eden bazı istatistiksel testler önermek (ek deneyler gerektirmeyen). Ama sadece bunun için istatistiklerinde pirzola sahip değilim. Umudum (geriye dönük olarak saf), bu tür testler yapmama izin verecek ne çalışabileceğimi bulmaktı ...

Bunu yazdığımda, eğer mevcut değilse, dünyanın “veri işkencesini” tespit etme ve açığa çıkarma tekniklerine adanmış yeni bir istatistik alt dalı kullanabileceği konusunda beni şaşırtıyor. (Tabii ki, "işkence" metaforundan uzak durmayı kastetmiyorum: sorun başlı başına "veri işkence" değil, yol açabilecek sahte "bulgular" dır.)

multiple-comparisons interpretation eda

— kjo
kaynak

1

@BabakP Bu alıntı , istatistik şakaları ve istatistik alıntıları konuları dahil olmak üzere altı cevapta görünmektedir . (Bunlardan bazıları biraz aşağı avlanıyorsanız, ilgili alıntılar için iyi bir kaynaktır.)

— whuber

7

'Veri gizleme' ve 'keşif veri analizi' 'nde kullanılan teknikler arasında herhangi bir ayrım olduğunu düşünmüyorum - önceki terimin aşağılayıcı kullanımı, yanlış bir onaylayıcı analiz olarak sunulan bir keşif analizi içindir.

— Scortchi - Monica'yı yeniden kurun

8

Feynman, referansta bulunduğunuz kitapta zaten bu soruyu yanıtlıyor: "Keşifte bulduğu bu hipotezi test etmek istiyorsa ... başka bir deney yapmalı." Feynman’ın aşırı aşırı olabileceğinden (“biraz abartmaktan”) endişe duyuyor gibi görünüyorsunuz: aynı verileri inceleyerek geliştirildiklerinde, hipotezlerin resmi testlerinin ne ölçüde haklı gösterilebilir ?

— whuber

2

@whuber: pratikte daha da çarpıcıdır, çünkü çoğu zaman farklı verilerle test etmekle birlikte, aynı deneysel kurulum ya da deney türü istemeden benzer sonuçlara yol açacaktır.

— Eylül, 13

1

@ Ocak: bu sizin verilerinize / deneylerinize bağlı olduğunu düşünüyorum Örneğin biyolojik / tıbbi araştırma düşünün. Gördüğüm veriler için en büyük varyasyon genellikle hastalar arasındadır (denekler). Denemenin yeni hastalarla tekrarlanması umarım benzer sonuçlara yol açacaktır, ancak pratikte bu durum oldukça sık değildir (yani, ilk hasta grubunda geliştirilen modellerin tahmin sonuçları beklenenden çok daha kötüdür; ilk deneydeki veriler "işkence gördü" idi)

— cbeleites,

22

Bazen yeterince dikkat çekmeyen, yani hipotez oluşturma ve hipotez testi veya keşif analizi ve hipotez testi gibi bir fark yoktur. Dünyadaki bütün kirli numaraların senin fikrin / hipotezinle ortaya çıkmasına izin verilir. Fakat daha sonra test ettiğinizde, acımasızca sevgililerinizi öldürmelisiniz.

Her zaman yüksek verim verileriyle çalışan bir biyologum ve evet, bu "dilimleme ve kesme" işlemlerini sık sık yapıyorum. Yapılan deneylerin çoğu dikkatlice tasarlanmamıştır; veya belki de bunu planlayanlar olası tüm sonuçları hesaba katmamışlardır. Ya da planlama sırasındaki genel tutum "haydi orada ne görelim" di. Pahalı, değerli ve kendi başlarına ilginç veri kümeleriyle sonuçlanıyor, daha sonra bir hikaye ortaya çıkarmak için etrafımda dönüyorum.

Ama o zaman, sadece bir hikaye (yatma vakti). Birkaç ilginç açı seçtikten sonra - ve işte kritik nokta - onu yalnızca bağımsız veri kümeleriyle veya bağımsız örneklerle değil, tercihen bağımsız bir yaklaşımla bağımsız bir deney sistemi ile test etmelisiniz .

Bu son şeyin önemi - bağımsız bir deney düzeneği, sadece bağımsız ölçümler veya numuneler kümesi değil - çoğu zaman hafife alınmaktadır. Bununla birlikte, 30.000 değişkeni anlamlı bir fark için test ettiğimizde, aynı kohorttan benzer (ancak farklı) ve aynı yöntemle analiz edilen örneklerin önceki kümeye dayanarak yaptığımız hipotezi reddetmeyeceği ortaya çıkar. Ama sonra başka bir deney türüne ve başka bir kohort'a dönüştük ve bulgularımız metodolojik bir önyargının sonucu olarak ortaya çıkıyor veya uygulanabilirliklerinde sınırlı.

Bu nedenle, bir hipotezi ya da modeli gerçekten kabul etmek için, bağımsız araştırmacılar tarafından sık sık birkaç makaleye ihtiyacımız var.

Bu nedenle, bu ayrımı aklınızda tuttuğunuz ve ne yaptığınızı, bilimsel sürecin hangi aşamasında olduğunuzu hatırladığınız sürece böyle bir işkencenin iyi olduğunu düşünüyorum. Ayın evrelerini kullanabilir veya verileri bağımsız olarak doğruladığınız sürece 2 + 2'yi yeniden tanımlayabilirsiniz . Bir resmin üzerine koymak için:

görüntü tanımını buraya girin

Ne yazık ki, çeşitli deneyler yapıldıktan ve yüksek verim analizinin bir şeyler göstermesi umuduyla bir hikaye ortaya çıktıktan sonra bir kağıt toplama işlemi için bir mikroarray sipariş edenler var. Ya da tüm hipotez testleri ve nesiller arası şey konusunda kafaları karışmış durumda.

— Ocak
kaynak

Sanırım birisinin "hipotez oluşturma" olarak gördüğümü yorumlayabildiğini düşünüyorum, ancak bahsettiğim manipülasyonların amacı kesinlikle "işkence" verilerinden elde edilen sonuçları yayınlamak ve en yüksek düzeyde bunu yapmaktır. kağıdı kabul edecek kesin dergi. Söylemeye gerek yok, bu tür bildiriler asla işkence kökenlerine ilişkin hiçbir öneride bulunmaz. Aslında, AFAICT, yazarlar bundan hiç rahatsız değil. Yine de, bu tür gazetelerin okuyucularının çoğunluğunun, işkencenin onları ne kadar içine

— soktuğunu

1

@kjo: hipotez üretme kesin bilimsel sürecin bir parçasıdır olabilir yayınlanacak. Yani bu bir sebep değil.

— cbeleites, 13

@ Ocak: DoE'den "alabileceğimiz tüm örnekleri al - yine de çok az olacak" demeyi unuttun - ki karşılaştığım en sık rastlanan DoE.

— cbeleites, 13

@cbeleites: peki, genel olarak bu tutumu eleştirmeyi hayal etmem; genellikle deneyler daha fazla sayıda kopyadan yararlanabilir. Ancak, deneycilerin çoğu zaman fiziksel olarak mümkün olduğu kadar çok koşul (örnek tipleri, türler, çeşitler, sınıflar vb.) İçerme eğiliminde olduklarını, analizleri kabus haline getirip bazen soruyu tamamen engellediklerini kabul ediyorum.

— Ocak

12

Lisedeki en sevdiğim profesör Herman Friedman bunu söylerdi

"Eğer şaşırmazsan, hiçbir şey öğrenmedin"

Önceden tanımlanmış bir hipotezin en zorlu testi dışında hiçbir şeyden kesinlikle kaçınılması, şaşırtma yeteneğinizi ciddi şekilde sınırlandırır.

Bence asıl mesele ne yaptığımız konusunda dürüst olduğumuz. Çok fazla keşif modundaysak, söylemeliyiz. Diğer taraftan tanıdığım bir profesör, orijinallerinin anlamlı bulunmadığı için öğrencisine hipotezlerini değiştirmesini söyledi.

— Peter Flom - Monica'yı yeniden
kaynak

4

Priori tanımlı hipotezleri titizlikle test etme ve bir sonraki titizlikle test edilmek üzere priori tanımlı hipotezleri önermek için aynı verileri gözetlemede yanlış bir şey yok . Ve hatta hafif bir keşif modundaysak, şunu söylemeliyiz - sadece gerçekte ne yaptığımızı söyleyin - ve başkalarının sonuçlarımızı almak istediklerine tam olarak ne kadar büyük bir tuz tutacağı konusunda karar vermelerine izin verin; kendimizi. Dürüstlüğü vurgulamak için bu cevabı birden fazla oy vermek istiyorum.

— Scortchi - Monica'yı yeniden konumlandırın

7

Birkaç nokta ekleyeyim:

her şeyden önce, hipotez üretimi bilimin önemli bir parçasıdır. Ve olmayan öngörü (keşif / tanımlayıcı) sonuçları olabilir yayınlanacak.
IMHO'da sorun bir veri setinde veri araştırmasının kullanılması ve bu bulguların sadece bazı bölümlerinin yayınlanması sorun değil. Sorunlar
- ne kadar denenmiş olduğunu açıklamamak
- daha sonra , çalışma bazı öngörücü modeller / hipotez test çalışmaları için bir doğrulama çalışmasıymış gibi sonuçlar çıkardı.
Bilim ve yöntem geliştirme, yinelemeli süreçlerdir, sadece hipotez oluşturma - test etme - yeni hipotezler üretme - test etmekten çok daha genel bir süreçtir. IMHO, hangi aşamada ne tür uygun davranışın gerekli olduğu konusunda profesyonel bir yargılama meselesidir (örneğe bakın) altında).

Ne yaparım:

İnsanları sonuçlanan iyimser önyargılardan haberdar etmeye çalışın
Bir şansım olduğunda, insanlara ne kadar fark yaratacağını gösterdim (çoğunlukla aynı problemin daha düşük bir seviyesi ile mümkün, örneğin hasta bağımsız olarak onaylanmış verileri dahili performansla karşılaştırın) SVM paratorları için grid araması, PCA-LDA gibi "birleştirilmiş modeller" gibi hiper-parametre optimizasyon yordamlarının tahminleri. Asıl veri tarama işlemi için gerçekten mümkün değil, çünkü şu ana kadar kimse para kazanmam için bana para verdi makul boyutta bir çalışmanın gerçek bir kopyası ...)
Yazarı olduğum yazılar için: Çıkarımların sınırlarının tartışılması konusunda ısrarcı olun. Sonuçların, çalışmanın izin verdiğinden daha genel bir şekilde formüle edilmediğinden emin olun.
Çalışma arkadaşlarını, çalışma konusundaki uzmanlık bilgilerini ve veri oluşturma süreci hakkında, masraflı (yerine uygun şekilde yapmanız gerekecek) örnekleme açısından verilerin nasıl değerlendirileceğine karar vermeleri konusunda kullanma konusunda cesaretlendirin . model- "hiper" -parametreler (ne tür bir ön işleme kullanımı gibi).
paralel olarak: İnsanların bu optimizasyon işinin ne kadar maliyetli olduğunu doğru bir şekilde yapmaları halinde (bunun keşif olarak adlandırılıp çağrılmadığı önemli değil, farkında değillerse, yanlış yapılırsa veri tarama gibi benzer sonuçlara sahip olacaklar), örneğin Beleites, C. ve Neugebauer , U. ve Bocklitz, T. ve Krafft, C. ve Popp, J .: Sınıflandırma modelleri için örneklem büyüklüğü planlaması. Anal Chim Acta, 2013, 760, 25-33. DOI: 10.1016 / j.aca.2012.11.007 arXiv’de
kabul edilen makale: 1211.1323
İşte bu denemenin kör olduğunu bulduğu bir çalışma da genellikle boşunadır, örneğin,
J. Engel, J. Gerretzen, E. Szymańska, JJ Jansen, G. Downey, L. Blanchet, LMC Analitik Kimyada TrAC Eğilimleri, 2013, 50, 96-106. DOI: 10.1016 / j.trac.2013.04.015 (çok sayıda ön işleme adımı kombinasyonu denediler ve çok azının ön işleme işleminden
ziyade daha iyi modellere yol açtığını buldular)
Verilerime gereğinden fazla işkence yapmadığımı vurgulayın:
örnek :

Tüm ön işleme, sadece spektroskopik bilgi kullanılarak karar verildi ve veriye dayalı ön işleme gerçekleştirilmedi.

(Farklı) teori geliştirme için örnek olarak aynı verileri kullanarak bir takip kağıdı okur

Tüm ön işlemlere spektroskopik bilgi verilerek karar verildi, veri odaklı adımlar dahil edilmedi ve parametre optimizasyonu gerçekleştirilmedi. Bununla birlikte, LR eğitimi için ön işleme olarak spektrumun bir PLS projeksiyonunun [45] 25 gizli değişkene yansımasının [45] öngörülerinde küçük değişikliklerden daha fazla değişikliğe yol açmadığını kontrol ettik (bkz. Ek S.2).

Çünkü bu arada, açıkça PLS ön işleme modelleriyle karşılaştırmamı istediler (CILS dergisinin editörünün yaptığı bir konferansta).
Pratik bir bakış açısı ele alın: Örneğin, yukarıda bağlanan astrositom çalışmasında, elbette verilere baktıktan sonra bazı noktalara karar verdim (örneğin, hangi eşik değerinin numunenin dışından alınan ölçümlere karşılık geldiği gibi - sonra atıldı). Kritik olmadığımı bildiğim diğer kararlar (lineer ve kuadratik taban çizgisi: bu tür verilerle ilgili deneyimim, bunun aslında çok fazla değişmediğini gösteriyor - bu da Jasper Engel'in benzer tipteki farklı verilerde buldukları ile mükemmel bir uyum içinde. Verilere bakarak temel türün kararını vermekten büyük bir önyargının gelmesini beklemem (makale bunun neden mantıklı olduğu konusunda bir tartışma sunar).
Yaptığımız çalışmaya dayanarak, şimdi neyin ele alınması gerektiğini ve nelerin değiştirilmesi gerektiğini söyleyebiliriz. Biz yöntemi geliştirme nispeten erken aşamada hala çünkü (bakarak ex-vivo , öyle numuneler) değil yöntem kullanılabilir edemeden sonuçta gerekli olacak tüm "ev ödevi" geçmesi değerinde iken in-vivo . Örneğin, astrositom derecelendirmesinin şimdiki aşamasında, yeniden örnekleme doğrulama, harici test setinden daha mantıklı bir seçimdir. Bazı performans özelliklerinin ancak bu şekilde ölçülebildiği için gerçek dışsal bir doğrulama çalışmasına ihtiyaç duyulacağını hala vurguluyorum (örneğin, alet sapması / bunun için düzeltebileceğimizi ispatlamanın etkileri). Ama şu an hala ex-vivo ile oynuyorkenÖrnekler ve büyük sorunun diğer kısımlarını çözüyorlar (bağlantılı makalelerde: sınırda durumlarla nasıl başa çıkılır), uygun bir ex-vivo onaylama çalışmasından elde edilen yararlı bilgilerdeki kazanım , çaba sırasında değmeyecek kadar düşüktür (IMHO: veri tarama nedeniyle önyargıyı ölçmek için yapılmıştır).
Bir keresinde istatistiksel ve raporlama standartları hakkındaki bir tartışmayı okudum ve bunun beni ikna eden bir dergi için gerekli olup olmadığına karar verilmesi gerekip gerekmediğine karar verdim: Beni ikna eden bir fikir var: Buradaki fikir, editörlerin denemelerine gerek olmadığıydı. Bazı standartların üzerinde anlaşmaya varın ve bunları uygulayın (ki bu boşuna tartışmaya neden olacaktır):
- Uygun teknikleri kullananlar, bununla ilgili genellikle çok farkında / gururludur ve bu nedenle ne yapılacağını ayrıntılı olarak bildirecektir.
- Belli bir nokta (örneğin veri tarama, hasta düzeyinde bağımsız olmayan doğrulama) açıkça belirtilmemişse, gözden geçirenler / okuyucular için varsayılan varsayım, çalışmanın bu soruya uygun ilkelere uymadığıdır (muhtemelen, çünkü daha iyi bilmiyorum)

— cbeleites Monica'yı destekliyor
kaynak

4

Bazen "veri işkencesi" olarak gördüğünüz şeyler aslında değildir. Önceden her zaman net değildir, görene kadar deneyin gerçek sonuçları olduğuna inandığınızı göstermek için verilerle tam olarak ne yapacaksınız.

Örneğin, bir karar görevi için verilen tepki süresi verilerinde, genellikle kararla ilgili olmayan zamanları reddetmek istersiniz (yani, çok hızlı giderken açıkça karar verdikleri ve karar vermedikleri açıktır). Tahminin genel olarak nerede gerçekleştiğini görmek için RT aleyhindeki kararın doğruluğunu çizebilirsiniz. Ancak, bu belirli paradigmayı test edene kadar, kesiklerin nerede olduğunu bilmenin hiçbir yolu yoktur (zaman içinde doğruluk değil). Bazı gözlemciler için böyle bir prosedür verilere işkence etmek gibi gözükse de, hipotez testleriyle doğrudan ilgisi olmadığı sürece (testlere dayanarak ayarlamazsınız) o zaman verilere işkence etmez.

Bir deneme sırasında veri taraması, doğru şekilde yapıldığı sürece tamamdır. Denemenizi bir kara kutuya yapıştırmak ve yalnızca planlanan konu sayısı çalıştırıldığında analizi yapmak muhtemelen etik dışıdır. Bazen verilere bakana kadar denemeyle ilgili sorunlar olduğunu ve bazılarına en kısa zamanda bakmanız gerektiğini söylemek zor olabilir. Veri peeking güçlü bir şekilde yerinden ayrılır, çünkü p <0.05 olup olmadığını görmek ve devam etmeye karar vermekle aynıdır. Ancak, hata oranlarınıza zararlı hiçbir şey yapmayan toplamaya devam etmeye karar verebileceğiniz birçok kriter vardır.

Varyans tahmininizin bilinen bir olası aralıkta olduğundan emin olmak istediğinizi söyleyin. Küçük numuneler oldukça uzak sapma tahminlerine sahip olabilir, bu nedenle numunenin daha temsili olduğunu öğrenene kadar ekstra veri toplarsınız. Aşağıdaki simülasyonda, her koşuldaki varyansın 1 olmasını bekliyorum. Gerçekten çılgınca bir şey yapacağım ve her gruba 10 örnek için bağımsız olarak örnekleyeceğim ve sonra varyans 1'e yaklaşıncaya kadar konular ekleyeceğim.

Y <- replicate(1000, {
    y1 <- rnorm(10)
    while(var(y1) < 0.9 | var(y1) > 1.1) y1 <- c(y1, rnorm(1))
    y2 <- rnorm(10)
    while(var(y2) < 0.9 | var(y2) > 1.1) y2 <- c(y2, rnorm(1))
    c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1), length(y2) )
    })
range(Y[2,]) #range of N's in group 1
[1]   10 1173
range(Y[3,]) #range of N's in group 2
[1]   10 1283
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.045

Bu yüzden, örnekleme ile yeni bir etkiye kapıldım ve varyansları beklenenden daha yakın hale getirdim ve hala alfa'yı çok etkilemiyorum (0.05'in biraz altında). N'ler gibi birkaç kısıtlama her grupta eşit olmalı ve 30'dan fazla olamaz ve alfa 0.05'te hemen hemen doğrudur. Peki ya SE? Bunun yerine SE'yi belirli bir değer yapmaya çalışırsam ne olur? Bu gerçekten çok ilginç bir fikir çünkü sırayla CI'nın genişliğini önceden ayarlıyorum (fakat yeri değil).

se <- function(x) sqrt(var(x) / length(x))
Y <- replicate(1000, {
        y1 <- rnorm(10)
        y2 <- rnorm(10)
        while(se(y1) > 0.2 | se(y2) > 0.2) {
            y1 <- c(y1, rnorm(1)); y2 <- c(y2, rnorm(1))
        }
        c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1) )
        })
range(Y[2,]) #range of N's in group 1 and 2 (they're equal now)
[1] 10 46
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.053

Yine, alfa veri taramasına dayanarak N'lerin orijinal 10'dan 46'ya kadar dolaşmalarına izin vermeme rağmen, az miktarda değişti. Daha da önemlisi, SE'lerin hepsi her deneyde dar bir aralıkta kalmaktadır. Bir endişe olması durumunda düzeltmek için küçük bir alfa ayarlaması yapmak kolaydır. Mesele şu ki, bazı veri taraması zarar vermeyecek kadar az şey yapar ve hatta faydalar sağlayabilir.

(BTW, gösterdiğim şey sihirli bir mermi değil. Bunu yaparken uzun vadede konu sayısını azaltmıyorsunuz, çünkü değişken N'nin simülasyonu için güç, ortalama N'nin simülasyonu için olduğu gibidir. )

Yukarıdakilerin hiçbiri, bir deney başladıktan sonra konu ekleme konusundaki son literatürle çelişmez. Bu çalışmalarda, p-değerini düşürmek için bir hipotez testi yaptıktan sonra denekleri eklediğiniz simülasyonlara baktılar. Bu hala kötü ve olağanüstü alfa şişirmek olabilir. Ayrıca, Ocak ve Peter Flom'un cevaplarını gerçekten çok seviyorum. Sadece, toplarken verilere bakmanın ve hatta toplarken planlı bir N'yi değiştirmenin mutlaka kötü şeyler olmadığını belirtmek istedim.

— John
kaynak

Bunların hiçbiri, test istatistiklerinin örnekleme dağılımını etkilememek anlamında 'iyi' değildir. Elbette sürprizlere karşı mükemmel derecede duyarlı tepkiler (cf @ Peter'in cevabı), ancak deneyimin onaylayıcı niteliğini biraz sulandırıyor ve “araştırmacı serbestlik derecelerini” arttırıyorlar. Analizde dikkate alarak protokolü düzeltmek ve durdurma kurallarını önceden tanımlamak için pilot çalışmalar yaptığımız sürprizlerden kaçınmak tam olarak budur. Amaç, sonuçlarınızın geçerliliğini göstermek için bağımsız olarak çoğaltılabilen iyi tanımlanmış bir prosedürdür.

— Scortchi - Monica'yı yeniden kurun

Simülasyonları kendiniz çalıştırmakta özgürsünüz ama varyansa dayalı bir durma kuralına sahip olmak (makul bir minimum N üzerinden) alfa üzerinde hiçbir etkisi olmayacak ve beklenen bir gücü üretecektir. Hatta SE tabanlı bir durdurma kuralınız olabilir ve tutarlı SE'ler elde edersiniz ve bunlar alfa veya betaları etkilemez. Sadece bir ptemel durdurma kuralına sahip olamazsınız . N'yi değiştirme eleştirilerinin tümü bir hipotez testinden sonra bunu yapmakla ilgilidir (başka şeyler de olmalı). Bunun cezbedici olma potansiyeli var ... ama bunu görmezden geliyorum.

— John

Tepki süresi dağılımına gelince, her bir konunun lojistik regresyona dayanarak ne zaman tahmin edeceğini bulmaktan ziyade, bir pilotu temel alan sabit bir kesme noktası seçip kendi kesme noktasını kullanmanın daha iyi olacağını mı düşünüyorsunuz? (tabii ki hassasiyet kesme noktası sabittir, sadece reaksiyon zamanı değil).

— John

(1) Varyansa dayalı durma kuralı: Varyans tahminini etkiler ve bu nedenle, deneme önceden numune büyüklüğü önceden belirlenmiş gibi analiz edildiğinde hata oranlarını etkileyebilir. Yorumunuzda verilen "makul bir minimum N değerinin ötesinde" uyarısı ile cevabınızda belirtilen "küçük örnek boyutları" arasında bir gerginlik var; Kuşkusuz, ne zaman ne kadar iyi olduklarını bilmek için istatistiki bir isme sahipsin, ama herkes değil. Daha genel olarak, anlaşılmaz bir yaklaşım, deneyden önce durma kuralını açıkça tanımlamaktır.

— Scortchi - Monica'yı yeniden kurun

(2) Reaksiyon süresi dağılımı: Hayır (kuşkusuz aklımda böyle bir şey olmasına rağmen); Güvenilmez gözlemleri kaldırmak için kullanılan yöntem ne olursa olsun, pilot çalışmadan daha iyi geliştirileceğini ve daha sonra doğrulayıcı bir deneyde uygulanacağını öne sürmüştüm.

— Scortchi - Monica'yı yeniden kurun

0

Bu gerçekten, yayın yanlılığının olumlu sonuçların lehine yol açtığı ve rekabetçiliğimizin doğası gereği, dengesiz düşüncelerin kültürel bir problemidir. başkasının sonuçlarını çürütmek. Tıbbi araştırmalarda, bu problemi telafi etmek için davaların zorunlu olarak kaydedilmesi ve sonuçların halka açık hale getirilmesi için terkedilmiş davaların kayıtları ile yayınlanması yoluyla önemli ilerleme kaydedilmiştir. Anlayamadım, başarısız araştırmalar için dergilerde yayın yapmak mümkün olamayacağından, kamuya açık bir veritabanını saklamanın planlarının olduğunu biliyorum. Çoğaltılamayan olağandışı sonuçların, belki 50’de olduğu gibi, mutlaka bir kabahat sonucu olmadığına,

Farklı yöntemler kullanmak da mutlaka bir çözüm değildir. Örneğin, hangi kimyager reaktifleri farklı koşullarda farklı şekillerde karıştırabilir ve tabii ki aynı sonuçları bekler?

— Robert Jones
kaynak