Güven aralığı ve olasılık - bu ifadedeki hata nerede?


12

Birisi aşağıdaki gibi bir açıklama yaparsa:

"Genel olarak, çevresel dumana maruz kalan sigara içmeyenlerin, dumansız sigara içmeyenlere kıyasla 1,25 (yüzde 95 güven aralığı, 1,17 ila 1,32) koroner kalp hastalığı riski vardı."

Bir bütün olarak nüfus için göreceli risk nedir? Koroner kalp hastalığı ile kaç şey bağlantılı? Test edilebilen çok sayıda şeyden, çok azı aslında koroner kalp hastalığına bağlıdır, bu yüzden rastgele seçilen herhangi bir şeyin birbirine bağlı olma şansı kaybolur. Dolayısıyla, nüfus için göreceli riskin 1 olduğunu söyleyebiliriz. Ancak belirtilen aralık 1 değerini içermez. Yani ya aslında iki şey arasında bir olasılık var, olasılığı kaybolan derecede küçük ya da bu parametreyi içermeyen aralıkların% 5'i. İkincisi bir öncekinden çok daha muhtemel olduğundan varsaymamız gereken şey budur. Bu nedenle, uygun sonuç, veri kümesinin neredeyse kesinlikle nüfusun atipik olduğu,

Tabii ki, şeylerin% 5'inden fazlasının koroner kalp hastalığına bağlı olduğunu varsaymak için bir temel varsa, istatistikte çevresel dumanın bunlardan biri olduğu fikrini destekleyen bazı kanıtlar olabilir. Sağduyu bunun mümkün olmadığını gösterir.

Akıl yürütmelerinde hata nedir (tüm sağlık kuruluşları ikinci el sigara içmenin zararlı etkileri hakkında önemli literatür olduğunu kabul ettiklerinden)? "Test edilebilen çok sayıda şeyden çok azı aslında koroner kalp hastalığına bağlı" öncüllerinden dolayı mı? Bu cümle rastgele seçilen herhangi bir faktör için (yani bir kişinin koroner arter hastalığı riski olan kaç köpeğe sahip olduğu) doğru olabilir, ancak ikinci el sigara içme ve koroner kalp hastalığı için priori olasılığı sadece 'herhangi bir rastgele faktörden' daha yüksektir. .

Bu doğru muhakeme mi? Yoksa başka bir şey var mı?


Alıntılanan metin ... alıntı gibi görünüyor. Bu nereden? :)
MånsT

haha evet wikipedia'dan bir alıntı ... birisi "güven aralığı" için makaleye ekledi. Çıkarmaya çalışıyorum çünkü bu açıkça yanlış, ama adam reddediyor, bu yüzden sadece "bu açıkça yanlış" yerine matematiksel olarak sağlam bir nedene ihtiyacım var .. Bazı fikirlerim olmasına rağmen, birisinin açıklayabileceğini bilmek istedim tam olarak burada hangi hatalar yapılıyor. Çünkü bu doğruysa, benzer gerekçelerle birçok çalışma reddedilebilir
BYS2

3
Biraz sürüklerse, hareket edip yardım etmeye çalışacağım. Onun iddiası açıkça yanlıştır ve bir gündeme sahip olduğuna dikkat çeker.
Erik

3
Çok fazla istatistik kullanan ancak bir istatistikçi olmayan bir fizikçi olarak, bu paragrafın gerçekten yararsız olduğunu düşünüyorum, kulağa yanlış geldiği gerçeğini boş verin. Her zaman, muhtemelen yanlış bir şekilde,% 95 cl'nin sıfır hipotezi doğru olsaydı 20 den sonra 1 kez denememi tekrarlarsam% 95 düzeyinde önemli bir sonuç alacağımı düşündüm (benim görüşüme göre iyi bir neden) 99.9'dan daha az kullanmayın, ancak bu başka bir tartışmadır). Bu yazı, ilişkili faktörler hakkında daha çok bir nokta gibi görünüyor ve uzman olmayanlara (veya hiç kimseye) gerçekten yardımcı olmuyor.
Bowler

@Erik. Kullanıcı çorap kuklacılık oldukça tehlikeli bir geçmişi vardır (birkaç hesap vardı ve IP düzenlemeleri kullanır) ve daha önce bloke oldu ... onun anlaşma ne olduğundan emin değilim. Ama bir baş belası gibi görünüyor
BYS2

Yanıtlar:


10

Burada yanlış olan birçok şey var. @ açıkladığı gibi, dolaylı olarak (bağlantı yok) ve (bağlantı) üzerinde önceki olasılıkları varsayar .H 1H0H1

O üzerine (çok 1'e yakın) çok yüksek bir ağırlığa yerleştirir ve üzerinde çok küçük bir ağırlık . Bu yaptığı ilk şüpheli şeydir, çünkü duman ve kalp hastalığı arasında mekanik bir bağlantı olduğu için (aktif sigara içenleri düşünün), soru gerçekten maruziyetin yeterli olup olmadığıdır. Bu daha önce yapılmış çalışmaları bile dikkate almıyor. Bu yüzden, örneğin kırmızı çorap giymek gibi test edilecek "çok sayıda şeyden" biri değil. Bu zaten çok önyargılı ve gerçekten haklı olmayan bir şekilde başladığı anlamına geliyor.H 1H0H1

Daha sonra, gerçek değeri içermeyen% 95'lik bir güven aralığı elde etme olasılığının% 5'lik bir olasılığa sahip olduğunu belirterek öncekini günceller. Bu doğru olsa da, bu belirli aralığı sıfır hipotezi varsayımı altında elde etme şansı değildir . [1.17, 1.32] güven aralığını [100, 200] güven aralığı ile tam olarak aynı şekilde ele alacağını unutmayın ki bu açıkça sorunludur.

Bu Bayesci yaklaşım için gerçekten önemlidir: 1'in sıfır olduğu varsayımı altında 1'i içeren bir aralık elde etmeme olasılığınız% 5 iken, belirli bir aralığı elde etme olasılık yoğunluğu farklıdır (ve daha küçüktür).

Üçüncü hata, önceki asla belirtmemiş olması ve bu sonucu elde için yerine ne kadar olması belirtmemesi. Sadece "kaybolan bir şekilde küçük".H 1H0H1

Dördüncü hata, yapılacak uygun işlemin verileri reddetmek olduğunu söylemek. Sonucunun verilere bile bağlı olmadığını, argümanı herhangi bir veri için tam olarak aynı eylemin gerçekleştirileceğini ima eder. İlginç bir bağlantı bulursanız, ancak bunun bir fluke olabileceğinden şüpheleniyorsanız, yapılacak doğru bilimsel şey, sonucunuzu kopyalamaya çalışmaktır!


Nestor'un cevabını genişlettiğiniz için teşekkürler! Yine de kısa bir soru, "... bu, boş hipotez varsayımı altında belirli bir aralığı elde etme şansı değil" dediniz. Sıfır hipotezinin varsayımı altında belirli bir aralığı elde etme şansını bulmak isteseydik, bayes çıkarsama ve güvenilir bir aralık doğru kullanmamız gerekir mi? Sıklık güven aralıkları yalnızca "aralığın gerçek değeri içerme şansı" nı belirtir. Tekrar teşekkürler
BYS2

% 95 sıklık güven aralığı, yapılan aralığın en az% 95'inin gerçek değeri içereceği şekilde yapılandırılmıştır. Çok uzak çok iyi. Bu, sıfır hipotezi doğruysa belirli bir güven aralığı elde etme olasılığını (veya yoğunluğun değerini) de hesaplayabileceğiniz söylenir. Tam konum, sıfır hipotezini içerip içermediğinden daha fazla "bilgi" içerir. Boş değerlerin doğru olma olasılığı ile ilgili olduğu için Bayesian çıkarsama kullanılırken bu bilginin atılması kötüdür.
Erik

Oyuncak örneği şöyle olur: Bayesci çıkarım, bir dağıtım biçimine doğru çıkarım yapmak istersiniz. Önceden iki olasılık mümkündür: H1: Dağıtım standart normaldir. H2: Dağılım normal, ortalama = sd = 1. Dağılımların değerlerinin bir örneği, öncekinizi güncellemenizi sağlar. Yalnızca değerlerinizin işaretleri size verildiğinde, öncekinizi de güncelleyebilirsiniz, ancak ilgili bilgileri attığınız için güncelleme daha az bilgilendirici olacaktır.
Erik

7

Bu, hipotez testi ile ilgili oldukça ilginç bir felsefi meseledir (ve dolayısıyla burada açıkladığım gibi, sık sık ortaya çıkan güven aralıkları da ).

Elbette, araştırılabilecek birçok hipotez var - pasif sigara içmek koroner kalp hastalığına neden oluyor, alkol içmek chd'ye neden oluyor, köpeklere sahip olmak chd'ye neden oluyor, Oğlak olmak chd'ye neden oluyor ...

Tüm bu hipotezlerden birini rastgele seçersek, doğru olan bir hipotez seçme ihtimalimiz neredeyse sıfırdır. Alıntılanan metindeki argüman bu gibi görünüyor - gerçek bir hipotezi test etmemiz pek olası değil.

Ancak hipotez rastgele seçilmedi. Koroner kalp hastalığı hakkında önceki epidemiyolojik ve tıbbi bilgi ile motive edildi. Sigara içmenin koroner kalp hastalığına nasıl neden olabileceğini açıklayan teorik mekanizmalar vardır, bu yüzden bunların pasif sigara içiciliği için de işe yarayacağını düşünmek çok zor görünmemektedir.

Alıntıdaki eleştiri hipotezler için bir veri setinin çıkarıldığı keşif çalışmaları için geçerli olabilir. Bu tür "keşifleri" gerçekler olarak kabul etmememizin nedeni budur - bunun yerine sonuçların yeni çalışmalarda tekrarlanabilmesini talep ediyoruz. Her iki durumda da, alıntıda belirtilen makale meta bir çalışmadır ve bu nedenle bu sorundan etkilenmez.

Son yüzyıllarda ampirik olarak , tahmin edilen sonuçları gözlemlenen sonuçlarla karşılaştırarak teori tarafından motive edilen hipotezleri test etmenin olduğunu gördük . Bu prosedüre inanmamız, tıpta, mühendislikte ve bilimde bu kadar çok ilerleme kaydetmemizin sebebidir. Bunu bilgisayarıma yazabilmemin ve kendi bilgisayarınızda okuyabilmemin nedeni budur. Bu prosedürün yanlış olduğunu iddia etmek, bilimsel yöntemin temelde kusurlu olduğunu iddia etmektir - ve aksi yönde bir sürü kanıtımız var.

Bu tür kanıtları kabul etmek istemeyen bir kişinin aslında kabul edeceği bir şey olduğundan şüpheliyim ...


Paragrafını gerçekten sondan önce alamadım; "anlamlılık testine" mi (örneğin, veri olasılığını en azından daha aşırı hesaplamaya) mı, yoksa gerçekten "hipotez testine" (bayes ayarı) mı atıfta bulunuyorsunuz? Doğru soruyu sorarsanız hiçbirinin işe yaramadığını kim söyledi?
Néstor

@ Néstor: Bunu belki de farklı yazmalıydım. İstatistiksel hipotez testi hakkında gerçekten bir açıklama yapmıyordum , daha ziyade model tahminlerini gerçek dünya verileriyle karşılaştırmanın (yani hipotez doğruysa "test etme") çok etkili bir yol olduğu konusunda bir gözlem yapıyordum Bilim. CI'lara yönelik bu eleştirinin merkezinde, bu yöntemi kabul etmek istemediğine inanıyorum. Alıntıda verilen argümanlar, herhangi bir istatistiksel yönteme uygulanacaktır - tüm sıfır hipotezler için sıfır olasılıkla, hiçbir şeye asla inanmayacağız.
MånsT

6

Yazarın neden koroner kalp hastalığı riskinin 1 olma olasılığının, sadece bir güven aralığına dayanarak kaybolan derecede küçük olabileceğini söylediğini anlamıyorum; bu çok yanlış. Bana göre, sık sık bir ortam kullanıyor gibi görünüyor, ama bayesian mantık yürütüyor (ki bu oldukça yaygındır).

Bir CI bağlı tek şey hepimizin bildiği gibi, eğer, klasik anlamlılık testleri vardır ama { ikinci el sigara ve koroner kalp hastalığı arasındaki bağlantı bulunmuyor , onlar size vermek} nerede ( "belirtmektedir en azından gözlemlediğimiz kadar aşırı veri "), (burada , verilerdir), iddia ettiği şeydir ve tam olarak işaret ettiğiniz şeyle bağlantılıdır; söz konusu bağlantı hakkında önceden bilgi eklemeniz gerekir! Bu durum geldiğini: Bayes teoremi ile üzerine önceden olasılığıdır .p ( D e | H 0 ) D e p ( H 0 | D ) D p ( H 0 | D ) p ( D | H 0 ) p ( H 0 ) , p ( H 0 ) H 0H0:p(De|H0)Dep(H0|D)D

p(H0|D)p(D|H0)p(H0),
p(H0)H0

H0 olmaz mı? Pasif sigara içme ile KKH arasında bir bağlantı yok mu? Sıfır hipotezi genellikle hiçbir etkisinin olmadığı hipotezi olduğundan. Bunun dışında bu cevap için teşekkürler!
BYS2

Evet haklısın! Sen dikkat çekene kadar fark etmedim :-). Cevabımı düzenleyeceğim.
Néstor

3

Bu Bayesci akıl yürütme çizgisinde bir şey olsa da (Erik tarafından çok iyi bir şekilde yapılandırılmıştır!) Ve aslında bu düşünce hattı birçok tıbbi bulgunun neden yeniden üretilemediğini açıklasa da, bu özel argüman bir balyoz gibi düşünmeyi uygular.

Yazar, kanıt sağlamadan iki şeyi varsayar: dumana maruz kalmanın rastgele seçilmesi ve dünyada neredeyse hiçbir şeyin kalp hastalığına neden olmaması. Bu gevşek akıl yürütme standartları uyarınca, yazar HERHANGİ bir şeyin kalp hastalığına neden olduğu sonucunu reddedebilir. Tek yapmanız gereken iddia etmek:

  1. Hipotezin rastgele seçildiğini ve
  2. Bu kalp hastalığının sıfıra yakın nedenleri vardır.

Bu iddiaların her ikisi de tartışmalıdır (ve genel bilgime dayanarak büyük olasılıkla yanlıştır). Ancak, bu varsayımlar uygulandığında, ikinci el dumanına maruz kalan insanların% 100'ünün bir yıl içinde kalp krizinden öldüğünü gözlemleyerek bile, bağlantının sadece gizli, tekil, "gerçek" nedenle tesadüfi bir ilişki olduğunu iddia edebilirsiniz. .


Tamam, düşüncelerin için teşekkürler! Evet, yazar kesinlikle hipotezin 'rastgele seçildiğini' varsayıyordu ki bu doğru değildir.
BYS2

-1

Alıntılarda paragrafta açıkça yanlış bir şey görmüyorum, ancak verileri görmedim ve sayıları kontrol edemiyorum. Ancak, onu izleyen iki paragraf çok belirsizdir.

Diyelim ki, "Genel olarak, morbid obez olan sigara içmeyenlerin, normal vücut ağırlığına sahip sigara içmeyenlere kıyasla, koroner kalp hastalığı riski 1.25 (yüzde 95 güven aralığı, 1.17 ila 1.32) idi." Kimsenin ondan şüphe etmek için bir nedeni var mı?


Alıntılardaki ilk paragraf sadece bir epidemiyolojik çalışmanın sonuçlarını alıntılayan yazardı, bu yüzden yanlış bir şey yok. Sonraki birkaç paragraf, şüpheli ifadeler yaptığı çalışmayı itibarsızlaştırmaya çalışıyor.
BYS2
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.