Anlamlı olmayan sonuçların “trendler” olarak yorumlanması


16

Son zamanlarda, iki farklı iş arkadaşım benim için yanlış görünen koşullar arasındaki farklılıklar hakkında bir tür argüman kullanmışlardır. Bu iş arkadaşlarının her ikisi de istatistik kullanır, ancak bunlar istatistikçi değildir. İstatistikte bir acemiyim.

Her iki durumda da, bir deneydeki iki durum arasında anlamlı bir fark olmadığı için, manipülasyon konusunda bu gruplar hakkında genel bir iddiada bulunmanın yanlış olduğunu iddia ettim. "Genel bir iddiada bulunmak" yazmak gibi bir şey anlamına gelir: "A Grubu X'i B grubundan daha sık kullandı".

İş arkadaşlarım, "önemli bir fark olmasa da, eğilim hala orada" ve "önemli bir fark olmamasına rağmen, hala bir fark var" diye karşılık verdi. Bana göre, her ikisi de bir kınama gibi geliyor, yani, "farkın" anlamını şu şekilde değiştirdiler: "şanstan başka bir şeyin sonucu olması muhtemel bir fark" (yani, istatistiksel önem) msgstr "Gruplar arası sıfır ölçüm farkı".

İş arkadaşlarımın tepkisi doğru muydu? Onları almadım çünkü beni geride bıraktılar.


Bu makaleleri yararlı buldum Hala Önemli Değil ve Marjinal Olarak Anlamlı
user20637

Yanıtlar:


26

Bu harika bir soru; cevap büyük ölçüde bağlama bağlıdır.

Genel olarak haklı olduğunu söyleyebilirim : "A grubu X'i B grubundan daha sık kullandı" gibi niteliksiz bir genel iddiada bulunmak yanıltıcıdır. Gibi bir şey söylemek daha iyi olurdu

deney grubumuz A'da X'i B grubundan daha sık kullandık, ancak bunun genel popülasyonda nasıl oynayacağından emin değiliz.

veya

deneyimizde A grubu X, B grubundan% 13 daha sık kullanılmasına rağmen , genel popülasyondaki fark tahminimiz net değil : makul değerler A kullanan X'ten B grubu A'dan % 5 daha az X% 21'e kadar değişiyor B grubundan daha sık

veya

A grubu X'i B grubuna göre% 13 daha sık kullandı, ancak fark istatistiksel olarak anlamlı değildi (% 95 CI -% 5 ila% 21; p = 0,75)

Öte yandan: çalışma arkadaşlarınız bu özel deneyde A grubunun X'i B grubundan daha sık kullandıkları konusunda haklılar . Ancak, insanlar belirli bir deneydeki katılımcıları nadiren önemsiyorlar; sonuçlarınızın daha büyük bir nüfusa nasıl genelleştirileceğini bilmek istiyorlar ve bu durumda genel cevap, rastgele seçilen bir A grubunun X'i rastgele seçilen bir B grubundan daha fazla veya daha az kullanıp kullanmayacağını güvenle söyleyemeyeceğinizdir.

Bugün, X'in kullanımını arttırmak için A tedavisini mi yoksa B tedavisini mi kullanacağınız konusunda başka bir bilgi veya maliyet farkı vb. Olmadan bir seçim yapmanız gerekiyorsa, A'yı seçmek en iyi seçim olacaktır. Ancak, muhtemelen doğru seçimi yaptığınızdan emin olmak istiyorsanız, daha fazla bilgiye ihtiyacınız olacaktır.

Eğer gerektiği Not değil "Orada X onların kullanımında grup A ve grup B arasında hiçbir fark yoktur" veya "grup A ve B grubu kullanımı X aynı miktar" derler. Bu, denemenizdeki katılımcıların (A'nın X% 13 daha fazla kullandığı yerlerde) veya genel popülasyonda geçerli değildir; çoğu gerçek dünya bağlamında, A'ya ve B'ye gerçekten bir etki (ne kadar hafif olursa olsun) olması gerektiğini bilirsiniz ; sadece hangi yöne gittiğini bilmiyorsun.


5
Güzel cevap, Ben! İkinci örnek ifadenizin, ilk örnek ifadenin özünü yansıtacak şekilde anlaşılır olması için değiştirilip değiştirilemeyeceğini merak ediyorum: "A grubu, DENEYİMİZDE X grubunun B grubundan% 13 daha sık kullanılmasına rağmen, GENEL GRUPLAR ARASINDA X KULLANIMI arasındaki fark NÜFUS açık değildi : BU FARKIN makul aralığı A grubundan B grubuna göre % 5 daha az kullanarak A'dan X grubuna% 21 B grubundan daha sık kullanıldı. "
Isabella Ghement

3
teşekkürler, kısmen dahil (kısalık / netlik ve doğruluğu dengelemeye çalışıyor ...)
Ben Bolker

8
+1 Bence birçok insan istatistiksel kanıtların yokluğunda, gözlemlenen farklılıkların nüfusla olanların tam tersi olabileceğini fark etmiyor!
Dave

@Dave: "istatistiksel kanıt" (istatistiksel olarak anlamlı p-değeri?) Varlığı olsa bile, "gözlemlenen farklılıklar nüfusla olanların tam tersi olabilir"
boscovich

@boscovich Tabii, istatistik yaparken mutlak olarak konuşuyordum, ama bunu önemsiz bir p-değeri olarak düşünüyorum, yani nüfusla olanları gerçekten bilmiyorsunuz. En azından önemli bir p değeriyle, bir şey bildiğinizi önermek için belirlenmiş bir kanıt eşiğine ulaştınız. Ancak yönün yanlış anlaşılması durumunda önemli bir p değeri elde etmek kesinlikle mümkündür. Bu hata zaman zaman gerçekleşmelidir.
Dave

3

Bu zor bir soru!

5% p

H0ABXY H0ppH0 gerçek olmak (yani eğilim yok).

pH0H0pH0

p23%23%23%H0:=0.5% p

XβH0: β=0β0

β=0

4%

Umarım bu çok garip açıklama fikirlerinizi sıralamanıza yardımcı olur. Özet kesinlikle haklısın! Araştırma, iş ya da her neyse, raporlarımızı küçük kanıtlarla desteklenen vahşi iddialarla doldurmamalıyız. Gerçekten bir eğilim olduğunu düşünüyorsanız, ancak istatistiksel anlamlılığa ulaşmadıysanız, deneyi daha fazla veriyle tekrarlayın!


1
Herhangi bir önem eşiğinin keyfi olduğunu belirtmek için +1 (ve ima yoluyla, genel popülasyon hakkında mutlak iddiaları bir örnekteki sonuçlardan çıkarmak mümkün değildir - elde ettiğiniz tek şey daha iyi olasılıklardır).
Peter - Monica'yı geri

0

Önemli etki sadece beklenmedik bir anomaliyi ölçtüğünüz anlamına gelir (sıfır hipotezinin, etki yokluğu doğru olması muhtemel değildir). Ve sonuç olarak, yüksek olasılıkla şüphe duyulmalıdır (bu olasılık p değerine eşit olmasa da önceki inançlara da bağlıdır).

Deneyin kalitesine bağlı olarak aynı etki boyutunu ölçebilirsiniz , ancak bir anormallik olmayabilir (boş hipotezin doğru olması olası bir sonuç değildir).

Bir etki gözlemlediğinizde ancak önemli olmadığında gerçekten de (etki) hala orada olabilir, ancak sadece önemli değildir (ölçümler, sıfır hipotezinin yüksek olasılıkla şüphe / reddedilmesi gerektiğini göstermez). Bu, denemenizi geliştirmeniz, daha fazla veri toplamanız ve daha emin olmanız gerektiği anlamına gelir.

Dolayısıyla, ikiye karşı etkisizlik yerine, aşağıdaki dört kategoriye gitmelisiniz :

dört kategori

İki tek taraflı t-test prosedürünü (TOST) açıklayan https://en.wikipedia.org/wiki/Equivalence_test adresinden görüntü

D kategorisinde görünüyorsunuz, test sonuçsuz. İş arkadaşlarınız bir etki olduğunu söylemek yanlış olabilir. Ancak, bir etkisi olmadığını söylemek de aynı derecede yanlış!


p

@David, p-değerinin ' sıfır hipotezinin doğru olması koşuluyla bir hata yapma olasılığımız ' (veya bu tür aşırı sonuçları görme olasılığı) için daha kesin bir ölçü olduğunu tamamen kabul ediyorum. 'sıfır hipotezinin yanlış olma olasılığını' doğrudan ifade eder. Bununla birlikte, p-değerinin bu 'resmi' anlamda kullanılmak üzere tasarlanmadığını hissediyorum. P-değeri, sıfır hipotezinde şüphe ifade etmek, sonuçların bir anomali olduğunu ve anomalilerin bizi
sıfırdan

.... sizin durumunuzda, nadir bir durum sağlayarak (tıpkı çay tadımı yapan bayan gibi) null etkiye meydan okumak (paraları tahmin edemediği fikrine meydan okumak) gösterdiğinizde, aslında boşta şüphe duymalıyız hipotez. Pratikte, bunun için uygun bir p değeri belirlememiz gerekir (çünkü aslında boş olana sadece şansla meydan okuyabilir) ve% 1 seviyesini kullanmam. Sıfırdan şüphe duyma olasılığının yüksek olması, bire bir, p-değeri ile eşitlenmemelidir (çünkü bu olasılık daha çok Bayesci bir kavramdır).
Sextus Empiricus

Metni, bu yanlış yorumu ortadan kaldırmak için uyarladım.
Sextus Empiricus

0

Görünüşe göre "Trend" tanımına karşılık p-değerini savunuyorlar.

Verileri bir çalışma grafiğine çizerseniz, bir eğilim görebilirsiniz ... zaman içinde yukarı veya aşağı bir eğilim gösteren bir çizim noktası noktası.

Ancak, bununla ilgili istatistikleri yaptığınızda, p-değeri bunun önemli olmadığını gösterir.

P-değerinin çok az önem göstermesi, ancak veri serilerinde bir eğilim / çalışma görmeleri için ... bu çok hafif bir eğilim olmalıdır.

Yani, durum böyleyse, p-değerine geri düşecektim .. IE: tamam, evet, verilerde bir trend / çalışma var .. ama o kadar hafif ve önemsiz ki, istatistiklerin daha fazla ilerlemeye değmeyeceğini gösteriyor analizi.

Önemsiz bir eğilim, araştırmadaki bir tür önyargıya atfedilebilecek bir şeydir ... belki çok küçük bir şey ... deneyde hafif bir eğilim yaratan bir kerelik bir şey olabilir.

Grubun yöneticisi olsaydım, onlara önemsiz eğilimler için zaman ve para harcamayı bırakmayı ve daha önemli olanları aramayı söylerdim.


0

Bu durumda iddiaları için çok az gerekçeleri var ve zaten sahip oldukları sonuca ulaşmak için istatistikleri kötüye kullanıyorlar. Ancak, p-val kesintileri ile bu kadar katı olmanın uygun olmadığı zamanlar vardır. Fisher (Neyman ve Pearson ilk olarak istatistiksel testin temellerini attığı için bu, (istatistiksel anlamlılık ve pval eşik değerlerin nasıl kullanılacağı) tartışılan bir tartışmadır.

Diyelim ki bir model oluşturuyorsunuz ve hangi değişkenleri dahil edeceğinize karar veriyorsunuz. Potansiyel değişkenlerle ilgili ön araştırma yapmak için biraz veri toplarsınız. Şimdi iş ekibinin gerçekten ilgilendiği bir değişken var, ancak ön araştırmanız değişkenin istatistiksel olarak anlamlı olmadığını gösteriyor. Bununla birlikte, değişkenin 'yönü', iş ekibinin beklediğini karşılaştırır ve önem eşiğini karşılamamasına rağmen, yakındı. Belki de sonuçla pozitif korelasyonu olduğundan şüpheleniliyordu ve pozitif bir beta katsayısı elde ettiniz, ancak pval .05 kesiminin biraz üstünde.

Bu durumda, devam edip dahil edebilirsiniz. Bu bir tür gayri resmi bayes istatistikleri - bunun yararlı bir değişken olduğuna dair güçlü bir ön inanç vardı ve ilk araştırması bu yönde bazı kanıtlar gösterdi (ancak istatistiksel olarak önemli kanıtlar değil!) ve modelde kalsın. Belki daha fazla veriyle, ilginin sonucu ile ne gibi bir ilişkisi olduğu daha açık olacaktır.

Başka bir örnek, yeni bir model oluşturduğunuz ve önceki modelde kullanılan değişkenlere baktığınız yer olabilir - modelden bir miktar süreklilik sağlamak için marjinal bir değişken (önem eşiğinde olan) eklemeye devam edebilirsiniz. modellemek.

Temel olarak, ne yaptığınıza bağlı olarak, bu tür şeyler hakkında gittikçe daha katı olmanın nedenleri vardır.

Öte yandan, istatistiksel anlamlılığın pratik bir önem ifade etmek zorunda olmadığını da unutmamak gerekir! Tüm bunların kalbinde örneklem büyüklüğü olduğunu unutmayın. Yeterli veri toplayın ve tahminin standart hatası 0'a düşer. Bu fark, ne kadar küçük olursa olsun, 'istatistiksel olarak anlamlı' olsa da, bu fark gerçek dünyadaki herhangi bir şeyle sınırlı olmasa bile. Örneğin, belirli bir madalyonun kafalara iniş olasılığının .500000000000001 olduğunu varsayalım. Bu, teorik olarak, madalyonun adil olmadığı sonucuna varılan bir deney tasarlayabileceğiniz anlamına gelir, ancak tüm niyet ve amaçlar için madalyonun adil bir para olarak kabul edilebileceği anlamına gelir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.