Güncel tartışmanın istatistiksel anlamlılığa etkileri


10

Geçtiğimiz birkaç yıl içinde, çeşitli araştırmacılar "araştırmacı serbestlik derecesi" olarak adlandırılan zararlı bir bilimsel hipotez testi problemi ortaya attılar; Bunlar belirsiz seçimler, örneğin, bu durumda boş sonuçlarını psikolojide bu tartışma yol açtı, vb (kağıt yayınlamak değil, bir şey gösterileri yukarı kadar sayısız model özelliklerine çalışan, sapan değer olarak kategorize edilir, bu durumda, dahil edilecek olan burada , popüler bir Slate makalesine bakın ve takip tartışmayı Andrew Gelman tarafından burada ve Time dergisi de bu konuyla ilgili dokunur burada .)

İlk olarak , bir açıklama sorusu:

Zaman dergisi, yazdığı

"0,8'lik bir güç, test edilen on gerçek hipotezin olduğu anlamına gelir, sadece ikisi dışarıda bırakılacaktır çünkü etkileri verilerde alınmaz;"

Bunun ders kitabında bulduğum güç fonksiyonunun tanımına nasıl uyduğundan emin değilim, bu da boş parametrenin parametresinin bir fonksiyonu olarak reddedilme olasılığıdır θ. Farklı ile farklı θgücümüz var, bu yüzden yukarıdaki alıntıyı tam olarak anlamıyorum.

İkincisi , bazı araştırma sonuçları:

  1. Siyaset bilimi / ekonomi alanında, araştırmacılar mevcut tüm ülke yılı verilerini kullanıyorlar. Dolayısıyla, burada örneklerle uğraşmakla ilgilenmemeliyiz?

  2. Birden fazla test yapma sorunu, ancak sadece bir model bildirme sorunu, disiplindeki bir başkasının kağıdınızı tekrar test edeceği ve sağlam sonuçlar elde edemediğiniz için sizi hemen indireceği gerçeğiyle düzeltilebilir mi? Bunu öngördüğümde, alanımdaki bilginlerin robustness check, birden fazla model spesifikasyonunun sonucu değiştirmediğini gösterdikleri bir bölüm içermesi daha olasıdır . Bu yeterli mi?

  3. Andrew Gelman ve diğerleri, veriler ne olursa olsun, gerçekte orada olmayan bazı "kalıplar" bulmak ve yayınlamak her zaman mümkün olacaktır. Ancak, herhangi bir ampirik "modelin" bir teori tarafından desteklenmesi gerektiğinden ve bu bir disiplindeki rakip teorilerin hangi kampın daha fazla "desen" bulabileceğini bulmak için bir tartışma / yarışta yer alacağı göz önüne alındığında, bu bir endişe olmamalıdır. çeşitli yerlerde. Bir desen gerçekten sahte ise, diğer örneklerde / ortamlarda benzer bir desen olmadığında arkasındaki teori hızlı bir şekilde indirilecektir. Bilim böyle ilerlemez mi?

  4. Null sonuç için dergilerin mevcut eğiliminin gerçekten gelişeceğini varsayarsak, tüm null ve pozitif sonuçları bir araya getirmenin ve hepsinin test etmeye çalıştıkları teorisine bir çıkarım yapmanın bir yolu var mı?


Ayrıca bkz. "Psikoloji ve Fizikte Teori Test Etme: Metodolojik Bir Paradoks" . "Boş hipotez" alanınız için her zaman yanlıştır. Doğru araştırma uygulamalarında bile anlamlılık testleri ve hipotez testleri muhtemelen uygun değildir.
Flask

1. soru 3. soru ile çelişiyor. Polsci / Economics'te başka örnekler / ayarlar var mı değil mi?
Flask

Yanıtlar:


11

İddiaları değerlendirmek için p değerlerini kullanmak yerine Robert Abelson'ın tavsiyelerine uymalı ve MAGIC kriterlerini kullanmalıyız:

Magnitude
Articulation
Generality
Interestingness
Credibility

Abelson hakkında daha fazla bilgi için kitabını inceliyorum

Ve istatistiksel çıktıdaki p değerlerine değil, etki boyutlarına odaklanmalıyız (hiç uzman olmadığım bazı veri madenciliği istisnası hariç). Ve etki boyutları bağlam içinde değerlendirilmelidir:

1 in 1000 pairs of pants gets the wrong size label - not a big deal
1 in 1000 airplanes are defective in a way that leads to crashes - a big deal
1 in 1000 nuclear reactors is defective in a way that leads to meltdown - uh oh

Bir istatistikçi / veri analisti, içine verilerin girildiği ve p değerlerinin alındığı bir kara kutu gibi kullanılan tuhaf bir kişi olmamalıdır; o, mevcut teoriler (veya onların eksikliği) ve mevcut kanıtlar (veya bunların eksikliği) göz önüne alındığında, bir alandaki bağlamda bazı veri kümelerinin anlamı hakkında makul bir argüman yapmak için tasarlanmış araştırmalarda ortak olmalıdır.

Ne yazık ki, bu yaklaşım, araştırmacıların, veri analistlerinin ve sonuçları kimin gözden geçirdiğini düşünüyor (sivri saçlı bir patron, bir tez komitesi, bir dergi editörü ya da kim olursa olsun). Tuhaf bir şekilde, akademisyenler bile bu tür düşünceye karşı görünmektedir.

Görüşlerim hakkında daha fazla bilgi için, burada Sciences360'da yayınlanan bir makale var.


4
+1 Size kesinlikle katılıyorum, ancak 'iddiam MAGIC tarafından destekleniyor' demenin her zaman yardımcı olmayabileceğini hayal edebiliyorum :-)
Marc Claesen

1
Evet, bunu hecelemek zorunda kalacaksınız, ancak eğer yaptıysanız, işe yarayacağını düşünüyorum: "Bunlar, birkaç istisnası olan, çok sayıda insanı etkileyen, ilginç çünkü XXXX çünkü güvenilir ve XXXX çünkü güvenilir" çalışabilir. Denediğini görmedim. :-)
Peter Flom

1
Evet; nasıl olabileceğini söyleyen bir teori varsa, bir iddia “inandırıcıdır”; çoğaltılırsa vb. Fiziksel veya başka bir teorik açıklama yoksa daha az güvenilirdir. Bir iddia ne kadar az güvenilir olursa, bunun için o kadar fazla kanıt gereklidir.
Peter Flom

2
Bilimdeki güvenilirlik, teorilerin teorinin geliştirilmesinde kullanılmayan fenomenleri ne kadar iyi öngördüğü ile ölçülmelidir. Tahminlerin iyi olup olmadığını değerlendirirken, güvenilirlik bağımsız araştırmacılar tarafından çoğaltılmasını gerektirir. Anlamlılık testi ve hipotez testinin her iki davranışı da caydırıcı göründüğü tonlarca ampirik kanıt vardır, bunun yerine yayın yanlılığının karşı üretken faaliyetlerini teşvik eder ve keyfi "önem" in "p-hack" i keser.
Flask

1
@Flask - P değerlerinin ille de sorun olmadığını söyleyebilirim, daha ziyade zayıf hipotez testleri kullanmak problemdir. Fizik de p değerlerini kullanır ancak nokta tahminlerine yol açan hipotezlerle (yani gerçek bir boş hipotez). "Olumlu bir etki" bulmak teori oluşturmak için temel olarak işe yaramaz - teoriyi doğru bir şekilde doğrulamak için bir nokta tahmini yapmanız gerekir.
probabilityislogic

3

İstatistik bilimi alanı, başlangıcından bu yana bu konuları ele almıştır. İstatistikçinin rolünün, tip 1 hata oranının sabit kalmasını sağlamak olduğunu söylemeye devam ediyorum. Bu, yanlış pozitif sonuçlar çıkarma riskinin ortadan kaldırılamayacağı, ancak kontrol edilebileceği anlamına gelir. Bu, dikkatimizi genel istatistiksel uygulamanın felsefesine ve etiğine değil, yürüttüğü son derece büyük bilimsel araştırmalara çekmelidir. Medyadaki (veya hükümet politikasındaki) yüzeylerin en az 19 diğer güvenilir olmayan sonucun boş bulguları nedeniyle düşürüldüğü her inanılmaz (güvenilir olmayan) sonuç için.

Gerçekten, diyelim ki clinictrials.gov'a giderseniz, şu anda ABD'de devam eden farmasötik ajanlar için 1000'den fazla klinik çalışma olduğunu (hemen hemen her hastalık belirtisi için) gözlemleyeceksiniz. Bu, yanlış pozitif hata oranı 0.001 olduğunda, hiçbir etkisi olmayan raflara ortalama en az 1 ilacın konulacağı anlamına gelir. İstatistiksel anlamlılık için geçerli bir eşik değeri olarak 0,05 geçerliliği tekrar tekrar sorgulanmıştır. İronik olarak, sadece 1/20 yanlış pozitif hata oranı kullanmaktan rahatsız olan istatistikçiler, finansal paydaşlar (PI'ler veya Merck olsun) in vitro sonuçlardan, teorik kanıtlardan veya önceki kanıtların gücünden bağımsız olarak inançları inatla takip edeceklerdir. Açıkçası, bu azim, istatistiki olmayan rollerde başarılı olan birçok bireyin başarılı ve övgüye değer bir kişisel kalitesidir. Genellikle bu mukavemeti kullanma eğiliminde olan istatistiklerinde, kendi totemlerinde otururlar.

Sanırım öne sürdüğünüz Zaman teklifi tamamen yanlış. Güç yanlış olduğu düşünüldüğünde sıfır hipotezini reddetme olasılığıdır. Bu daha da önemlisi, sıfır hipotezinin tam olarak ne kadar "yanlış" olduğuna bağlıdır (bu da ölçülebilir bir etki büyüklüğüne bağlıdır). Nadiren tespit etmek için "ilginç" olarak gördüğümüz etkinin bağlamından bahsetmiyorum. (örneğin, evre 4 pankreas kanserinin kemoterapötik tedavisini takiben 4 aylık bir sağkalım ilginç değildir, bu nedenle bir faz 3 denemesi için 5.000 kişiyi işe almak için bir neden yoktur).

Sorduğunuz soruları yanıtlamak için

  1. ???

  2. Çok yönlülük zordur, çünkü verilerin nasıl ele alınacağı konusunda açık bir karar kuralına yol açmaz. Örneğin, basit bir ortalama fark testi ile ilgilendiğimizi varsayalım. Meslektaşlarımın sonsuz protestolarına rağmen, verilerin örnekleme dağılımından bağımsız olarak ortalama farkları tespit etmek için bir t-testinin iyi kalibre edildiğini göstermek kolaydır. Diyelim ki dönüşümlü olarak yollarını takip ettik. İyi bilinen bir dağılım testinin bazı varyantlarını kullanarak normallik testi yaparak başlarlar (qqplot'un kalibrasyonu diyelim). Veriler yeterince normal görünmüyorsa, verilerin bilinen herhangi bir dönüşümü izleyip izlemediğini sorarlar ve daha sonra entropiyi en üst düzeye çıkaran bir güç dönüşümü (muhtemelen logaritmik) belirlemek için bir Box Cox dönüşümü uygularlar. Açık bir sayısal değer ortaya çıkarsa, bu dönüşümü kullanacaklar. Değilse, "dağıtımsız" Wilcoxon testini kullanacaklar. Bu geçici olaylar dizisi için, basit, aptal t testi yeterli olduğunda ortalama farklılıkların basit bir testi için kalibrasyon ve gücün nasıl hesaplanacağını ummaya başlayamıyorum. Bunun gibi aptalca eylemlerin matematiksel olarak Hodge'nin süper tahminine bağlı olabileceğinden şüpheleniyorum: doğru olmasını istediğimiz belirli bir hipotez altında yüksek güç olan tahminciler. Bununla birlikte, bu süreç s süper verimli tahmin: doğru olmasını istediğimiz belirli bir hipotez altında yüksek güce sahip tahmin ediciler. Bununla birlikte, bu süreç s süper verimli tahmin: doğru olmasını istediğimiz belirli bir hipotez altında yüksek güce sahip tahmin ediciler. Bununla birlikte, bu süreçyanlış pozitif hata oranı kontrol edilmediğinden istatistiksel değildir.

  3. Eğilimlerin herhangi bir rastgele veri kümesinde hatalı bir şekilde "keşfedilebileceği" kavramı, Martin tarafından "Munchaesen'in İstatistiksel Izgarası" adı verilen iyi yazılmış makaleye dayanmaktadır . Bu çok aydınlatıcı bir okuma ve şu anda bildiğimiz gibi makine öğreniminin altın buzağı bize doğmadan 1984 yılına kadar uzanıyor. Gerçekten de, doğru bir şekilde ifade edilmiş bir hipotez yanlışlanabilir, ancak tip 1 hataları veri odaklı toplumumuzda eskisinden çok daha maliyetli hale geldi. Örneğin, büyük bir dizi boğmaca ölümüne yol açan anti-aşı araştırmasının sahte kanıtlarını düşünün. Aşıların kamuoyunda defenestrasyonuna neden olan sonuçlar tek bir çalışma ile bağlantılıydı(bu yanlış olmasına rağmen, harici araştırmalar tarafından doğrulanmadı). Sonuçları yürütmek ve kanıtların dürüstlükten iyiliğe gücünü bildirmek için etik bir itici güç vardır. Kanıt ne kadar güçlü? Elde ettiğiniz p-değeri ile ilgisi yoktur, ancak önemli diyeceğinizi söylediğiniz p-değeri. Unutmayın, son onaylayıcı test farklı bir şey rapor ettiğinde bile (genellikle çok daha küçük) verilerinizi tıkamak p değerini değiştirir.

  4. EVET! Cochrane raporu gibi dergiler tarafından yayınlanan meta-analizlerde test sonuçlarının dağılımının noraml'den daha bimodal göründüğünü açıkça görebilirsiniz, sadece olumlu ve olumsuz sonuçlar onu dergilere dönüştürür. Bu kanıt kesinlikle çılgınca ve klinik uygulamadaki herkes için kafa karıştırıcı. Bunun yerine, null sonuçlar ( sonuçlarına ilgi duyacağımız çalışmalardan gelen, ne olursa olsun) yayınlarsak , meta-analizlerin gerçekten anlamlı ve temsili kanıt göstermesini bekleyebiliriz.


1
" Eylemin temeli olarak" William Deming, "sayımsal" ve "analitik" çalışmalar arasında bir ayrım yapar. Her deneyin sonuçlarının deneyin tam ortamına bağlı olduğuna dikkat çeker, bu nedenle istatistikçiler "tip I hata oranını" kontrol etmeye çalışan farklı koşullar altında bir tedavi uygulandığında bilinmeyen bir miktar her zaman kapalı olacaktır. .
Flask

@Flask Benzer şekilde, uluslararası uzay istasyonunda hiçbir mekanik prosedür mükemmel bir şekilde kalibre edilmemiştir, ancak mühendislerin detaylara dikkat etmesi ve hatanın en aza indirilmesi, elimizde bir Uzay Tuhaflığı bulamadığımızı garanti etti.
AdamO

Mühendisler (umarım) bileşenleri beklenen tüm koşullar altında test eder ve daha sonra ürettikleri modellere göre ekstra hata payı eklerler. Bu, Deming tarafından savunulan davranış türüdür ve bir tedavinin gelecekteki performansı hakkında sonuçlar çıkarmaya çalışmaktan ya da sadece bir çalışmanın örnekleme hatasını değerlendirmekten faktörler arasındaki ilişkiden farklıdır. Başka bir yerde bahsetmediğim çok ilginç bir ayrım.
Flask

Ben "yanlış pozitif hata oranı kontrol edilmediği için bir işlem istatistiksel değildir" demenin savunmasız olduğunu düşünmüyorum. İstatistiklerde hata oranı kontrolleri ile sıklıktan çok daha fazlası vardır ve sık olmayan bitler bilim için daha yararlı bitlerdir. Konu hakkındaki son arXived makalemi okumak isteyebilirsiniz: arxiv.org/abs/1311.0081
Michael Lew

1
@Adamo Sıkça çıkarımda herhangi bir kanıt niceliğinin bulunmaması gerçekten de Bayesliler (ve olasılıklılar) arasında popüler bir fikirdir, ancak iyi bir şekilde onaylanmıştır ve Neyman ve Pearson'un sık kullanılan yöntemleri tasarladıkları ilk makalede açıkça ifade edilen bir görüşüdür! Belki makalemi açık bir zihinle okumalısın. Bilgi orada.
Michael Lew

3

Birincisi, ben bir istatistikçi değilim, sadece etrafımda kullanıldığını gözlemlediğim yöntemlerin neden bu kadar eksik olduğunu ve neden " değeri nedir? " Bakış açımı vereceğim.

İlk olarak, bir açıklama sorusu:

Time dergisi yazdı,

"A power of 0.8 means that of ten true hypotheses tested, only two will be ruled out > because their effects are not picked up in the

veri;"

Bunun ders kitabında bulduğum güç fonksiyonunun tanımına nasıl uyduğundan emin değilim, bu da boş parametrenin θ parametresinin bir fonksiyonu olarak reddedilme olasılığıdır. Farklı θ ile farklı gücümüz var, bu yüzden yukarıdaki alıntıyı tam olarak anlamıyorum.

Güç θ, varyans ve örneklem büyüklüğünün bir fonksiyonudur. Karışıklıkların ne olduğundan emin değilim. Ayrıca anlamlılık testinin kullanıldığı birçok durum için ortalama1 = ortalama2 sıfır hipotezi her zaman yanlıştır. Bu durumlarda önem sadece örneklem büyüklüğünün bir fonksiyonudur. Lütfen Paul Meehl'in "Psikoloji ve Fizikte Teori Testi: Metodolojik Bir Paradoks" bölümünü okuyun, bu benim için birçok şeyi açıklığa kavuşturdu ve hiçbir zaman yeterli bir yanıt görmedim. Paul Meehl'in adını arayarak bulabileceğiniz birkaç makalesi daha var.

Siyaset bilimi / ekonomi alanında, araştırmacılar mevcut tüm ülke yılı verilerini kullanıyorlar. Dolayısıyla, burada örneklerle uğraşmakla ilgilenmemeliyiz?

Simmons 2011 belgesini okursanız, bu söz konusu "p-hack" tekniklerinden sadece bir tanesidir. Sadece bir veri kümesi olduğu ve ondan seçici örnekleri almadığı doğruysa, o zaman örnek boyutunu arttırmak için yer yoktur sanırım.

Birden fazla test yapma sorunu, ancak sadece bir model bildirme sorunu, disiplindeki bir başkasının kağıdınızı tekrar test edeceği ve sağlam sonuçlar elde edemediğiniz için sizi hemen indireceği gerçeğiyle düzeltilebilir mi? Bunu öngördüğümde, alanımdaki bilginlerin, birden fazla model spesifikasyonunun sonucu değiştirmediğini gösteren bir sağlamlık kontrolü bölümü içermesi daha olasıdır. Bu yeterli mi?

Çoğaltma yayın yanlılığı olmadan gerçekleşiyor olsaydı, "boş sonuç dergileri" ne gerek olmazdı. Sağlamlık kontrol bölümünün iyi olduğunu, ancak boş sonuçları düşündüklerini yayınlamayan araştırmacıların varlığında yeterli olmadığını söyleyebilirim. Ayrıca, aynı veriler üzerinde çoklu analiz tekniklerinin aynı sonuca varması nedeniyle bir sonucu sağlam bulmam. Sağlam sonuç, yeni veriler üzerinde doğru etki / korelasyon / vb tahminini yapan sonuçtur .

Her iki kez de çoğaltma p <0.05 almıyor. Teori, ilk çalışmada kullanılandan farklı bir etki / korelasyon / vb. Öngörüyorsa daha sağlam kabul edilmelidir. Bir etkinin veya korelasyonun varlığından bahsetmiyorum, ancak olası değer aralığına kıyasla kesin değer veya küçük bir değer aralığı. Sıfır hipotezinin yanlış olması durumunda, artmış / azalmış etki veya pozitif / negatif korelasyon varlığı% 100 doğru olacaktır. Meehl'i okuyun.

Andrew Gelman ve diğerleri, veriler ne olursa olsun, gerçekte orada olmayan bir "örüntü" bulmak ve yayınlamak her zaman mümkün olacaktır. Ancak, herhangi bir ampirik "modelin" bir teori tarafından desteklenmesi gerektiğinden ve bu bir disiplindeki rakip teorilerin hangi kampın daha fazla "model" bulabileceğini bulmak için bir tartışma / yarışta yer alacağı göz önüne alındığında, bu bir endişe olmamalıdır. çeşitli yerlerde. Bir desen gerçekten sahte ise, diğer örneklerde / ortamlarda benzer bir desen olmadığında arkasındaki teori hızlı bir şekilde indirilecektir. Bilim böyle ilerlemez mi?

Araştırmacılar boş sonuçlar yayınlayamazsa bilim düzgün çalışamaz. Ayrıca, ikinci örnekte / ortamda patern bulunamaması, ilk çalışmanın koşulları altında var olmadığı anlamına gelmez.

Null sonuç için dergilerin mevcut eğiliminin gerçekten gelişeceğini varsayarsak, tüm null ve pozitif sonuçları bir araya getirmenin ve hepsinin test etmeye çalıştıkları teorisine bir çıkarım yapmanın bir yolu var mı?

Bu meta-analiz olurdu . Bu durumda null sonuçlar hakkında, araştırmacıların bunları yayınlamamasından başka özel bir şey yoktur, çünkü p-değerleri keyfi eşiğin üzerindedir. Yayın yanlılığının varlığında meta-analiz, yayın yanlılığından muzdarip olan tüm literatür gibi güvenilir değildir. Yararlı olsa da, meta analiz, bir teoriyi değerlendirmek için, o teorinin daha sonra test edilen kesin bir tahminde bulunmasından çok daha düşüktür. Yayın yanlılığı, yeni tahminler ortadan kalktığı ve bağımsız gruplar tarafından kopyalandığı sürece neredeyse önemli değildir.


Zaman teklifiyle ilgili kafa karışıklığım, teklifin gösterdiği gibi, null doğru olduğunda güç işlevinin sınırlandırılmaması gerektiğidir. Yanılmıyorsam, güç işlevinin etki alanı tüm parametre alanıdır. Bu nedenle, bir teste atayabileceği özel bir "güç 0.8" yoktur.
Heisenberg

Bir teorinin yeni veriler üzerinde test edilmesi gerektiği konusunda size tamamen katılıyorum. Fakat siyasal bilim veya makro ekonomi söz konusu olduğunda, sadece bu kadar çok ülkeye ve uzun yıllara sahip olduğumuz çabalar o zaman zorunlu olarak engelleniyor mu?
Heisenberg

@Anh her saniye eklenecek yeni veriler var. Teori geleceği tahmin etmelidir. Astronomide örneğin kuyruklu yıldızların pozisyonları tahmin ediliyordu. Ayrıca, beklenen bir parametre değeri için gücü hesaplarsınız. Dolayısıyla alıntı söz konusu olduğunda, en azından r = .5 korelasyonunu öngören bir teoriyi test etme gücüne atıfta bulunacaklardır.
Flask

R = 0.5'i açıklığa kavuşturmak bir teori tarafından öngörülen korelasyonun bir örneği olacaktır.
Flask

2

Basit bir şekilde, sıfır hipotez testi gerçekten sadece sıfır hipotezi ile ilgili olduğu için. Ve genellikle, sıfır hipotezi genellikle ilgi çekici olan şey değildir ve "statüko" bile olmayabilir - özellikle regresyon tipi hipotez testlerinde. Genellikle sosyal bilimde statüko yoktur, bu nedenle sıfır hipotezi oldukça keyfi olabilir. Bu, analizde büyük bir fark yaratır, çünkü başlangıç ​​noktası tanımlanmamıştır, bu nedenle farklı araştırmalar, farklı mevcut hipotezlerle başlar, büyük olasılıkla eldeki verilere dayanır. Bunu Newton'un hareket yasaları gibi bir şeyle karşılaştırın - bunu sıfır hipotezi olarak görmek mantıklı ve bu başlangıç ​​noktasından daha iyi teoriler bulmaya çalışın.

Ek olarak, p değerleri doğru olasılığı hesaplamaz - kuyruklara doğru ilerledikçe alternatif hipotez daha olası değilse, kuyruk olasılıklarını bilmek istemiyoruz. Gerçekten istediğiniz şey, teorinin gerçekte ne gördüğünü ne kadar iyi tahmin ettiği. Örneğin,% 50 oranında "hafif duş" şansı olduğunu tahmin ediyorum ve rakibim% 75 şans olduğunu tahmin ediyor. Bu doğru çıkıyor ve hafif bir duş gözlemliyoruz. Şimdi hangi hava durumu sahibinin doğru olduğuna karar verdiğinizde,% 40'lık bir "fırtına" şansı vereceği için tahminime ek kredi vermemeli veya "fırtınaya"% 0 şansı verdiği için rakibimden kredi almamalısınız.

IDH

BF=P(D|HI)P(D|H¯I)

HBF=H0.001

104,490,00052,263,471yBin(n,0.5)y|θBin(n,θ)θU(0,1)yBetaBin(n,1,1)DU(0,,n)p=0.00015

BF=(ny)2n1n+1=(n+1)!2ny!(ny)!=11.90

Bu nasıl olabilir? Bayes Faktörü küçük p değerine rağmen sıfır hipotezini destekliyor mu? Alternatife bakın - gözlenen değeri için bir olasılık verdi - alternatif, gerçekler için iyi bir açıklama sağlamaz - bu nedenle null daha olasıdır, ancak yalnızca alternatif göre . Null değerinin yalnızca bundan biraz daha iyi olduğunu unutmayın - . Ama bu hala alternatiften daha iyi.0.000000111n+1=0.00000000960.00000011

Bu, Gelman'ın eleştirdiği örnek için özellikle doğrudur - test edilen sadece gerçekten bir hipotez vardı ve çok fazla düşünülmedi: a) alternatif açıklamaların ne olduğu (özellikle karıştırmak ve kontrol edilmeyen etkiler hakkında), b) ne kadar önceki araştırmalar tarafından desteklenen alternatifler ve en önemlisi, c) sıfırdan önemli ölçüde farklı olan (varsa) hangi tahminleri yapıyorlar?

Ancak undefined olduğunu ve temelde önceki bilgilerle tutarlı diğer tüm hipotezleri temsil ettiğini unutmayın . Hipotez testlerini gerçekten doğru bir şekilde yapabilmenin tek yolu , karşılaştıracağınız bir dizi alternatif belirtmektir . Ve bunu olduğunu varsa bile, yalnızca verilerin göre desteklediğini . Alternatif hipotezleri alternatifler kümesinden çıkarırsanız, saçma sonuçlar almayı bekleyebilirsiniz. Ek olarak, belirli bir alternatifin diğerlerine göre çok daha uygun olduğu kanıtlanabilir, ancak yine de olası değildir. Bir p değerinin olduğu bir testiniz varsa H1,,HKHk0.010.1H¯H1,,HKHk0.01ancak p-değerinin olduğu yüz farklı test , "en iyi hipotez" in (en iyisi doğrudan daha iyi çağrışımlara sahip) aslında "neredeyse önemli" sonuçlar grubundan gelmesi daha olasıdır.0.1

Stresin en önemli noktası, varsayımların izolasyonunda asla bir hipotezin var olamayacağıdır. Belirtmeden sonra İçin teorileri / modeller, her zaman yeni bir hipotez ekleyebilir birisi yeni bir fikir var - Aslında hipotez bu tip bilim ilerledikçe temelde ne / bir tür etki için açıklama ve ardından bu yeni teoriyi mevcut alternatifler kümesine karşı test eder . Onun vs üstelik bu sadece vs . Basitleştirilmiş sürüm yalnızca çok güçlü bir şekilde desteklenen bir hipotez olduğunda geçerlidirH K + 1 = Henüz H K + 1 H 1 , , H K H 0 H A H 1 , , H K hakkında düşünülmeyen başka bir şeyK

HK+1=Something else not yet thought of
HK+1H1,,HKH0HAH1,,HK- yani, şu anda sahip olduğumuz tüm fikir ve açıklamalar arasında öne çıkan bir baskın teori var. Bu, sosyal / politik bilim, ekonomi ve psikolojinin çoğu alanı için kesinlikle doğru değildir.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.