Yaygın istatistiksel günahlar nelerdir?


227

Psikolojide çok iyi bir öğrenciyim ve istatistiklerle daha fazla bağımsız çalışmalara devam ettikçe, örgün eğitimimin yetersizliğinden dolayı şaşırıyorum. Hem kişisel hem de ikinci el tecrübesi, lisans ve lisansüstü eğitimdeki istatistiksel titizliğin yetersizliğinin psikoloji içinde her yerde bulunmadığını göstermektedir. Bu nedenle, kendim gibi bağımsız öğrencilerin, daha üstün (daha güçlü veya esnek ya da daha esnek ya da esnek olanların yerine geçtikleri standart bir pratik olarak göstermeleri için öğretilen istatistiksel uygulamaları ortaya koyan bir “İstatistiksel Günah” listesi oluşturmanın faydalı olacağını düşündüm. sağlam, vb.) modern yöntemler ya da açıkça geçersiz olduğu gösterildi. Diğer alanların da benzer bir durum yaşayabileceğini tahmin ederek, disiplinler arası istatistiksel günahların bir listesini toplayabileceğimiz bir topluluk wiki öneriyorum.


5
“Günahın” muhtemelen iltihaplı olduğunun ve istatistiksel analizin bazı yönlerinin siyah-beyaz olmadığını biliyorum. Niyetim, verilen ve genelde öğretilen bir uygulamanın açıkça açıkça uygunsuz olduğu durumları ortaya çıkarmak.
Mike Lawrence,

5
Ayrıca isterseniz biyoloji / yaşam bilimleri öğrencilerini karışıma ekleyebilirsiniz;)
nico

1
belki hayat bilgisi bunu adlandırmayınız istatistiksel günahlar ... ya da başka daha özel bir şey ...?
John

1
@whuber Bazı iyi cevaplar oldu, bu yüzden ikisini de birleştirdim.

1
Merhaba @Amanda, burada konuşmanın ne olduğuna dair bir işaret verebilir misiniz? Kimse rick-roll olma olasılığını sevmez.
naught101

Yanıtlar:



115

P değerlerinin çoğu yorumu günahkar! P-değerlerinin geleneksel kullanımı kötü şekilde kusurludur; Bence, hipotez testlerinin ve önem testlerinin öğretilmesinde standart yaklaşımları sorguya çekiyor.

Haller ve Krause, istatistik öğretmenlerinin öğrencilerin p-değerlerini yanlış anlama olasılıkları kadar muhtemel olduğunu bulmuşlardır. (Testte kendi makalelerini alın ve nasıl yaptığınızı görün.) Steve Goodman, p-değerinin geleneksel (yanlış) kullanımının ihtimaller lehine atılması için iyi bir durum gösterir. Hubbard makalesi de görülmeye değer.

Haller ve Krauss. Önemle ilgili yanlış yorumlar: Öğrencilerin öğretmenleriyle paylaştığı bir sorun . Psikolojik Araştırma Yöntemleri (2002) vol. 7 (1) sayfa 1-20 ( PDF )

Hubbard ve Bayarri. Kanıt Ölçüleri (p'ler) ve Klasik İstatistiksel Test'teki Hatalar (α) ile ilgili Karışıklık . Amerikan İstatistiği (2003) vol. 57 (3)

İyi adam. Kanıta dayalı tıbbi istatistiklere doğru. 1: P değeri yanlışlığı. Ann Intern Med (1999) vol. 130 (12) sayfa 995-1004 ( PDF )

Ayrıca bakınız:

Wagen yapımcıları, EJ. P değerlerinin yaygın sorunlarına pratik bir çözüm. Psychonomic Bülten ve İnceleme, 14 (5), 779-804.

deneysel tarafından yapılan seçimler nedeniyle, bir p değerinin nominal olarak "doğru" yorumunun bile yanlış yapıldığı bazı kesin durumlar için.

Güncelleme (2016) : 2016'da Amerikan İstatistik Kurumu p-değerleri hakkında bir bildiri yayınladı, buraya bakınız . Bu, bir anlamda, bir yıl önce bir psikoloji dergisi tarafından yayınlanan "p-değer yasağı" na bir cevaptı .


2
@Michael (+1) Özetlere ve açılmış PDF'lere bağlantılar ekledim. Umarım sakıncası yoktur.
chl

7
+1, ancak bazı eleştirel yorumlar yapmak istiyorum. Açılış çizgisi ile ilgili olarak, herhangi bir iyi tanımlanmış kavramın “neredeyse hepsinin” (ölçü teorik anlamda) yorumlarının yanlış olduğu söylenebilir, çünkü yalnızca bir tanesi doğrudur. İkincisi, “geleneksel kullanım” ve “standart yaklaşımlar” derken neleri kastediyorsunuz? Bu belirsiz referanslar saman adam gibi görünüyor. Örneğin, istatistik eğitimi ile ilgili literatürde ne bulabileceklerini anlamıyorlar.
whuber

4
@Whuber Goodman gazetesine bir göz atın. Farmakoloji alanındaki deneyimlerime çok iyi uyuyor. Metotlar "P <0.05'in istatistiksel olarak anlamlı olduğu yerler" ve ardından sonuçlar p <0.05 için +, p <0.01 için ++ ve p <0.0001 için +++ ile sunuldu. Bu ifade, a la Neyman ve Pearson'daki hata oranlarının kontrolünü ifade eder, ancak farklı p seviyelerinin kullanılması, Fisher'ın p değerinin sıfır hipotezine karşı kanıtların gücünün bir endeksi olduğu yaklaşımını önerir. Goodman'ın işaret ettiği gibi, aynı anda hata oranlarını kontrol edemez ve kanıtların gücünü değerlendiremezsiniz.
Michael Lew

8
@Michael Bu tür raporlamanın alternatif, daha cömert yorumları var. Örneğin, yazar, okuyucuların kendi anlamlılık eşiklerini uygulamak isteyebileceklerinin farkında olabilir ve bu nedenle p-değerlerini işaretlemek için onlara yardımcı olur. Alternatif olarak, yazar olası çoklu karşılaştırma problemlerinin farkında olabilir ve farklı seviyeleri Bonferroni benzeri bir düzenlemede kullanabilir. Belki de p-değerlerini kötüye kullanma suçunun bir kısmı yazarın değil okuyucunun ayağına atılmalıdır.
whuber

4
@Whuber Tamamen katılıyorum, ancak sadece önerdiğiniz şeylerin bazı küçük kesimlerinde doğru olduğunu ('tamamen' sınırlı bir sürümü). P değerlerinin kesin değerlerden ziyade bir, iki veya üç yıldız düzeyinde raporlanması gerektiğini belirten bazı dergiler vardır, bu nedenle bu dergiler sonuç için bazı sorumlulukları paylaşır. Bununla birlikte, hem bu kötü düşünülmüş gereklilik hem de p değerlerinin görünüşte saf kullanımı, raflarımdaki bazı giriş istatistik metinlerinde hata oranları ve kanıtlar arasındaki farkların net bir şekilde açıklanmamasının bir sonucu olabilir.
Michael Lew

73

Tahmine dayalı bir model üzerinde çalışırken karşılaştığım en tehlikeli tuzak, erken bir performans verisi değerlendirmesi yapmak için erken bir test veri seti ayırmak değil.

Parametreleri düzenlerken, önceki seçimi, öğrenme algoritmasını durdurma kriterini seçerken test verilerini bir şekilde kullanma şansınız varsa, modelinizin öngörüsel doğruluğunu abartmak gerçekten çok kolay ...

Bu sorunu önlemek için, çalışmanıza yeni bir veri setinde başlamadan önce verilerinizi şu şekilde ayırmalısınız:

  • geliştirme seti
  • değerlendirme seti

Ardından, geliştirme setinizi "eğitim geliştirme seti" ve "test geliştirme seti" olarak ayırın; burada farklı modelleri farklı parametrelerle eğitmek için eğitim geliştirme setini kullanın ve test geliştirme setindeki performansa göre en iyisini seçin. Ayrıca, ızgara doğrulamasını çapraz doğrulama ile ancak geliştirme setinde yapabilirsiniz. Model seçimi% 100 yapılmadığında değerlendirme setini asla kullanmayın.

Model seçiminden ve parametrelerinden emin olduğunuzda, seçilen modelin "gerçek" tahminin doğruluğu hakkında bir fikre sahip olmak için değerlendirme setinde 10 kat çapraz doğrulama yapın.

Ayrıca, verileriniz geçici ise, bir zaman kodunda geliştirme / değerlendirme bölümünü seçmek en iyisidir: "Öngörü yapmak zor - özellikle gelecekle ilgili."


5
Prensipte buna katılıyorum, ancak küçük bir veri setinde (genellikle sadece 20-40 vakam var) ayrı bir değerlendirme setinin kullanılması pratik değildir. İç içe çapraz doğrulama bu
sorunu çözebilir

11
Genel olarak, veri bölüşümünün güvenilir olması için çok büyük bir veri kümesi alır. Bu yüzden bootstrap ile yapılan sıkı dahili doğrulama çok çekici.
Frank Harrell

Özellikle geliştirme seti geçmiş veriler ve değerlendirme ise gelecekteki verileri belirler. Niçin olmasın, tüm model ayarlamalarından sonra, son modeli tüm geliştirme seti üzerinde sabit parametrelerle eğitin ve onunla yapılan tüm değerlendirme kümesini tahmin edin. Gerçek bir senaryoda, gelecekteki verilerde zaten tanımladığınız şekilde çapraz doğrulama yapamazsınız, böylece geçmiş tüm verileri kullanırsınız.
David Ernst

64

İstatistikler yerine veri madenciliği (hipotez keşfi) yaptığınızda p-değerlerini bildirme (hipotez testi).


2
Siz (ya da birileri) detaylandırabilir misiniz?
antoin kesesi


Çoklu hipotez testleri için düzeltilmiş p-değerleri (Bonferroni yönteminin biraz tadı veya daha gelişmiş bir düzeltme ile)? Veri madenciliği bağlamında bile, bunun iyi olduğunu düşünmeye meyilli miyim?
antoine kesesi

Genel fikri sevdim, ancak birincisinin alt kümesi olduğunda, istatistikleri hipotez testi ile eşitlemek bir çarpıtma.
rolando2

46

ve hipotezlerinin test edilmesi (örneğin bir Gauss ayarında)H 1 : μ 0H0:μ=0H1:μ0

O haklı (yani mix "bir modelde " vazgeçmiş değiliz "ve doğrudur").H 0 H 0μ=0H0H0

Bu tür (çok kötü) akıl yürütmenin çok iyi bir örneği, ortalamaları eşit sapma varsayımına eşit olup olmadıklarını test etmeden önce iki Gaussian'ın varyanslarının eşit olup olmadığını test etmenizdir.

Normallik haklı çıkarmak için normallik (normallik değil) test ederken başka bir örnek ortaya çıkar. Her istatistikçi bunu yaşamda mı yaptı? baaad :) (ve insanları Gaussianlığa karşı sağlamlığını kontrol etmeye zorlamalıdır)


6
Aynı mantık (“H1 lehine delil yokluğu” ile “H1 yokluğunun delili” olarak) esas olarak tüm uyumluluk testlerinin temelini oluşturmaktadır. Muhakeme ayrıca, insanlar “testin önemsiz olduğunu, bu nedenle faktör X'in etkisinin / Y değişkeninin etkisinin olmadığı” sonucunu çıkardıklarında ortaya çıkar. Sanırım, testin gücüne (örneğin, belirli bir ilgili etki büyüklüğü verilen belirli bir güce ulaşmak için örneklem büyüklüğünün önceden tahmin edilmesi gibi) akıl yürütme eşlik ediyorsa, günahın daha ağır olduğunu düşünüyorum.
caracal

ilgili herhangi bir şey , reddedilmesi durumunda çok kötü bir olduğunu söylerken doğru olduğunu, reddedilmesinin sadece biraz yanlış olduğunu . H 1 H 0H0H1H0
Robin Girard

Harika!! Evet, bu beni deli ediyor ..
jpillow

3
İstatistiksel olarak okuryazar olmaya çalışıyorum ve zaman zaman buna hala düşüyorum. Alternatifler neler? Modelini değiştir, böylece eski boş, mi ? Aklıma gelen tek seçenek, boşluğun reddedilmediği bir başarısızlığın pratikte boşluğu onaylamaya yetecek kadar yakın olması için çalışmanıza güç vermektir. Örneğin, hücrelerinize bir reaktif eklemenin, bunların% 2'sinden fazlasını öldürmeyeceğinden emin olmak istiyorsanız, tatmin edici bir yanlış negatif hıza güç verin. H1
DocBuckets

@DocBuckets iki tek taraflı testlerle denklik testi, güç tabanlı yaklaşımdan daha zordur. Ancak, pratik eşdeğerlikten bahsedebileceğiniz minimum ilgili etki büyüklüğü ayarlamanız gerekir.
David Ernst

46

Beni rahatsız eden birkaç hata:

  1. Tarafsız tahmin edicilerin her zaman önyargılı tahmincilerden daha iyi olduğunu varsayarsak.

  2. Yüksek bir iyi bir model olduğunu varsayarsak , düşük kötü bir model anlamına gelir.R 2R2R2

  3. Yanlış yorumlama / korelasyon uygulama.

  4. Standart hata olmadan raporlama noktası tahminleri.

  5. Daha sağlam, daha iyi performans gösteren / semiparametrik olmayan yöntemler mevcut olduğunda, bir çeşit Çok Değişkenli Normallik varsayan (Doğrusal Ayırma Analizi gibi) yöntemlerin kullanılması.

  6. Bir göstergesi ve yerine orada ne kadar kanıt bir ölçüsü olarak yanıt arasında mukavemetine ilişkin bir ölçü olarak p-değeri kullanarak bir ilişki.


5
Bunları ayrı seçeneklere ayırır mısın?
russellpierce

41

Sürekli kestirici değişkeninin analizi "basitleştirmek" veya sürekli kestiricinin etkisinde doğrusal olmayan "problemi" için çözmek için ikilemi.


18
Elde edilen sonuçlar yanlış olmadığı için bunun gerçekten bir "günah" olduğunu sanmıyorum. Ancak, pek çok yararlı bilgiyi ortadan kaldırır, bu yüzden iyi bir uygulama değildir.
Rob Hyndman,

2
Bu satırlar boyunca, aşırı gruplar kullanmak, etki boyutlarını aşırı tahmin eder, oysa ortalama ya da orta dereceli bir bölünmenin kullanımı etki boyutlarını tahmin eder.
russellpierce

2
İki veya daha fazla farklı popülasyon varsa, bu bir günah bile değildir. Ayrılabilir sınıflar veya alt popülasyonlar olduğunu varsayalım, sonra ayrıklaştırmanın anlamı olabilir. Çok önemsiz bir örnek: Site / yer / şehir / ülke veya en / boy için göstergeleri kullanmayı tercih eder miyim?
Yineleyici

3
+1 ve ikileme farkını seçmeye başladıklarında ciddi bir günah haline gelir, böylece daha sonra test edilen bir çeşit farkı optimize eder.
Erik

5
@Iterator sen (iki veya daha fazla kategoride kadar) bir araya getirmek için gerçek nedeni, intikam almak başlamak biri olduğundan önsel o varyans anlamlı bu kategorilerde bölümlere ayrılan inanmak teorik nedenleri . Örneğin, bunu bir trilyon ya da öylesine hücre koleksiyonunun bir birey içerdiğini ya da Dünyadaki 24 saatlik bitişik bir sürenin anlamlı olarak bir birim olarak yorumlandığını varsayarak bunu her zaman yapıyoruz . Ancak keyfi bir şekilde bir araya getirme, bilgiyi sadece “atmak” (örneğin istatistiksel güç) değildir, aynı zamanda fenomenler arasındaki ilişkiler hakkında (ciddi) önyargılara da yol açabilir.
Alexis

41

Soruyu cevaplamıyorum ama bu konuyla ilgili bir kitap var:

Phillip I. Güzel, James William Hardin (2003). İstatistiklerdeki genel hatalar (ve bunlardan nasıl kaçınılacağı). Wiley. ISBN 9780471460688


6
+1 Çıktıktan kısa bir süre sonra bu kitabı okudumdan emin oldum. İstatistiksel hatalar yapma konusunda birçok fırsat alıyorum, bu yüzden onları yapmadan önce bunları işaret etmeleri için her zaman minnettarım !
whuber


41

Ritüelleştirilmiş İstatistikler.

Bu "günah" ne öğretildiyse uygulayın, uygunluğundan bağımsız olarak, çünkü işler böyle yapılır. Makinenin sizin için istatistiklerini seçmesine izin veren bir seviye üstte, ezbere göre istatistikler.

Örnekler, her şeyi mütevazı t-testine ve ANOVA araç setine sığdırmaya çalışan İstatistik seviyesindeki öğrencilere Giriş, ya da herhangi biri istediği zaman "Ah, kategorik verilere sahibim, X'i kullanmalıyım" ifadesine bakmadan durmak. veri veya sorulan soruyu düşünün.

Bu günahtaki bir çeşitlilik, yalnızca sizin anladığınız çıktı üretmek için anlamadığınız kodları kullanmayı içerir, ancak "beşinci sütun, yaklaşık 8 satır aşağı" ya da aramanız gereken cevabın ne olduğunu öğrenin.


6
Ne yazık ki, istatistiksel çıkarımla ilgilenmiyorsanız veya zaman ve / veya kaynaklar konusunda kıtsanız, ritüel çok çekici görünüyor ...
olasılık

Bana göre, Epigrad'ın açıklaması, çıkarım konusunda haksız yere önem veren ve yansıma, keşif ve nedensellik değerlendirmesi gibi şeyleri ihmal eden biridir.
rolando2

35

Belki model seçiminden sonra kademeli regresyon ve diğer test yöntemleri.

Mevcut ilişkilerin ardında önceden yapılan bir hipotezi olmadan modelleme için bağımsız değişkenler seçmek , diğer hataların yanı sıra mantıksal hatalara veya sahte korelasyonlara neden olabilir.

Yararlı referanslar (biyolojik / biyolojik açıdan)

  1. Kozak, M., ve Azevedo, R. (2011). Sıralı yol analizi modelleri oluşturmak için kademeli değişken seçimi kullanmak mantıklı mıdır? Physiologia plantarum, 141 (3), 197–200. doi: 10.1111 / j.1399-3054.2010.01431.x

  2. Whittingham, MJ, Stephens, P., Bradbury, RB, ve Freckleton, RP (2006). Neden hala ekoloji ve davranışta adım adım modelleme kullanıyoruz? Hayvan ekolojisi Dergisi, 75 (5), 1182–9. doi: 10.1111 / j.1365-2656.2006.01141.x

  3. Frank Harrell, Regresyon Modelleme Stratejileri , Springer 2001.


32

Konferans raporlarında ve hatta dergilerde şaşırtıcı bir miktar gördüğüm bir şey, çoklu karşılaştırmalar yapmak (örneğin iki değişkenli korelasyonlar) ve daha sonra tüm p <.05'leri "anlamlı" (şu an için doğruluğunu veya yanlışlığını göz ardı ederek) olarak bildirmektir.

Psikoloji mezunları için ne demek istediğinizi de biliyorum - ben de psikoloji dalında doktora yaptım ve hala sadece gerçekten öğreniyorum. Oldukça kötü, bence psikoloji kullanacaksak kantitatif veri analizini daha ciddiye alması gerektiğini (ki bu açıkça söylemeliyiz)


9
Bu özellikle önemlidir. Annesinin oruç tutan bebekler için Ramazan'ın kötü olup olmadığı üzerine bir çalışma okuduğumu hatırlıyorum. Mantıklı görünüyordu (daha az yiyecek, daha düşük doğum ağırlığı), ama sonra eke baktım. Binlerce hipotez ve bunların birkaçı "önemli" aralıktaydı. Ramazan 2., 4. veya 6. ay ise "çocuklar için kötü" gibi garip "sonuçlar" alıyorsunuz.
Carlos

29

Açıklayıcı olmak ama doğrulayıcı gibi davranmak. Bu olabilir bir analiz stratejisini (vb yani model oturtma, değişken seçimi ve) tahrik veri değiştirerek zaman gerçekleşmesi veya sonuca odaklı ama sadece "en iyi" (yani en küçük p değerleri ile) sonuçlarının raporlanması bu açıkça ve ardından belirten değil sanki tek analiz olmuştu. Bu aynı zamanda, Chris Beeley’in yaptığı çok sayıda testin yapılması ve bilimsel raporlarda yanlış pozitif oranın yüksek olmasıyla da ilgilidir.


26

Çok sık gördüğüm ve dişlerimi her zaman öğütdüğüm, bir grupta istatistiksel olarak anlamlı bir ana etkinin ve başka bir grupta istatistiksel olarak önemli olmayan bir ana etkinin önemli bir etki x grup etkileşimi anlamına geldiği varsayımıdır.


24

Özellikle epidemiyoloji ve halk sağlığında - göreceli ilişki ölçütlerinin grafiklerini bildirirken logaritmik ölçek yerine aritmetik kullanma (tehlike oranı, oran oranı veya risk oranı).

Daha fazla bilgi burada .


5
Onları hiç etiketlememekten bahsetmiyorum bile xkcd.com/833
radek

23

Korelasyon, Boş Hipotezi kabul etmek kadar kötü olmayan nedensellik anlamına gelir.


ama bazen ... bazen potansiyel nedensellik yönleri oldukça farklı olasılıklara sahiptir. Kesinlikle yaş ve boy arasındaki bir korelasyonun boydan kaynaklanabileceğini düşünmeyeceğim ... ya da bazı müdahale değişkenleri. Ayrıca, bunun davranış bilimi eğitiminin genelde oldukça hassas olduğu bir konu olduğunu düşünüyorum.
John

Gerçekten, A and B are correlatedgenellikle sadece görmekten A causes Bdeğil , bir şeyden çıkarım yapmak B causes A... (ve Cnedenlerini Ave unutmak B)
Andre Holzner

12
google yılda 65 milyar dolar kazanıyor ve aradaki farkı ...
Neil McGuigan

5
Puanlarına katılıyorum ve hepsi geçerlidir. Ancak Google'ın karı şu anlama gelir: korelasyon => nedensellik?
suncoolsu

3
Google tüm bu parayı nedensellik hakkında hiç umursamayan şekilde yapar. Gerçekten, neden olsun ki? Tahmin şeydir ...
eşlenikçi

23

ANOVA kullanılarak hız verilerinin (doğruluk vb.) Analizi, bu nedenle, hız verilerinin gerçekte binom olarak dağıtıldığında Gauss dağınık hatası olduğunu varsayar. Dixon (2008) bu günahın sonuçlarının tartışılmasını ve daha uygun analiz yaklaşımlarının araştırılmasını sağlar.


4
Bu, analizin gücünü ne kadar azaltır? Hangi koşullarda en problemlidir? Çoğu durumda, ANOVA'nın varsayımlarından sapmalar sonuçları önemli ölçüde etkilemez.
Michael Lew,

ANOVA prosedürünün alternatifi nedir?
Henrik,

@Michael Lew & Henrik: Sadece Dixon bir bağlantı (2008) içerecek şekilde bu girdiyi güncellenen
Mike Lawrence

2
Ancak, kısacası, değerler aralığı daraldığı ve Gaussian varsayımlarını karşılayamadığı için gözlenen olasılıkların düşük veya yüksek olması en problemlidir.
russellpierce

Bu sadece binomun normal yaklaşımı kadar kötü - her bir durumda oranı hesaplamakta kullanılan payda tarafından ağırlıklandırılması şartıyla iyi olmalıdır. % 10'un altındaki ve% 90'ın üzerindeki oranlar için düşük performans göstermesini beklerdim.
probabilityislogic

18

Günümüzdeki popüler olanı, tekrarlanan ölçüm tasarımlarında, sadece bir etkinin varyansı ile ilgili olduğunda, ham performans değerleri etrafındaki% 95'lik güven aralıklarını çiziyor. Örneğin, tekrarlanan ölçümlerde reaksiyon sürelerinin bir grafiği, hata teriminin tekrarlanan ölçümlerin MSE'sinden ANOVA türetildiği güven aralıklarla tasarlanır. Bu güven aralıkları anlamlı bir şeyi temsil etmiyor. Mutlak tepki süresi hakkında kesinlikle hiçbir şey ifade etmiyorlar. Hata terimini etkinin etrafında güven aralıkları oluşturmak için kullanabilirsiniz, ancak bu nadiren yapılır.


Gözden geçirenlerin bu kadar yaygın olan bir uygulamayı talep etmekten caydırması için atıfta bulunabilecek standart bir makale var mı?
russellpierce

Bildiğim tek eleştiri Blouin ve Riopelle (2005), ancak konunun özüne inemiyorlar. Onları göstermemek için ısrar etmiyorum ama Masson & Loftus'un efekt grafikleri gibi doğru bir şeyler yapmakta ısrar ediyorum (2003, bkz. Şekil 4, sağ panel ... eğer soldan kaldırılmışlarsa, doğru yapardınız) ).
John

Açıkça söylemek gerekirse, bu CI'ların problemi, koşullar arasındaki farklılıklar açısından yalnızca çıkarımsal nedenlerle kullanılmaları ve dolayısıyla PLSD'den bile daha kötü olmalarıdır ... aslında ben onları tercih ediyorum. En azından dürüstler.
John

17

Michael Lew'in söylediklerinin çoğuyla ilişki kurabilsem de, p-değerlerini olasılık oranları lehine terk etmek hala daha genel bir sorunu özlüyor - sonuçta anlamlı bir anlam vermek için gereken etki büyüklükleri üzerindeki olasılıksal sonuçları aşırı vurgulamak. Bu tür hata tüm şekil ve boyutlarda gelir ve en sinsi istatistiksel hata olarak buluyorum. J. Cohen ve M. Oakes ve diğerleri üzerine çizim yaparken, bunun üzerine http://integrativestatistics.com/insidious.htm adresinde bir parça yazdım .


3
Olumlu bir oranın (LR) etki büyüklüğünün elde ettiği her şeyi nasıl elde edebileceğini ve aynı zamanda kolayca yorumlanabilen bir ölçeği (veri Z'den ziyade Y için X kat daha fazla kanıt içeriyor) hakkında aslında belirsizim. Bir etki büyüklüğü genellikle açıklanamayan değişkenliğe açıklanmış bir oran oranıdır ve (iç içe geçmiş durumda) LR, etkisi olan ve olmayan bir model arasındaki açıklanamayan değişkenliğin oranıdır. En azından etki büyüklüğü ile LR arasında güçlü bir korelasyon olmamalı mı ve öyleyse, olasılık oranı ölçeğine geçerek ne kaybolur?
Mike Lawrence

Mike - Beni ilgilendirdiniz, ancak puanlarınız gruplar arasındaki ortalama farklar kadar basit bir etki yaratıyor mu? Bunlar düzenli bir kişi tarafından kolayca yorumlanabilir ve ayrıca güven aralıklarıyla atanabilir.
rolando2

Ah, yani etki büyüklüğüne göre, mutlak etki büyüklüğünü, kendine anlamsız olan, ancak göreceli etki büyüklüğüne dönüştürerek anlamlı hale getirilebilecek bir değer (yani, bahsettiğim gibi bir miktar değişkenlik ölçüsüne bölerek) ya da hesaplama yoluyla mutlak etki büyüklüğü için bir güven aralığı. Yukarıdaki argümanım, LR'lerin ve göreceli etki büyüklüklerinin esası için geçerlidir. Efektin gerçek değerinin ilgi çekici olduğu durumlarda (örn. Tahmin) hesaplama etkisi CI'leri kullanılabilir, ancak yine de LR'nin etkilere karşı / kanıtlarla ilgili konuşmak için daha sezgisel bir ölçek olarak duruyorum.
Mike Lawrence

Sanırım LR'lerin vs CI'lerin kullanımı, aşağıdaki şekilde faydalı bir şekilde özetlenebilecek bağlama göre değişiklik gösterecektir: Teorilerin fenomenlerin varlığı / yokluğu ile kabaca nitelendirildiği teorinin daha açıklayıcı aşamaları, kanıtları ölçmek için LR'leri tercih edebilir. Öte yandan, CI'ler, beklenen etki aralıkları dahil olmak üzere nüansal tahminlere izin vermek için yeterince rafine edildiğinde veya bunun tersine, farklı etki büyüklüklerinin farklı teorileri desteklediğinde, bilimin daha ileri aşamalarında tercih edilebilir. Son olarak, herhangi bir modelden üretilen tahminler CI'lere ihtiyaç duyar.
Mike Lawrence

0|β|=1|β|>1|β|1β=0β0

15

Bu hatanın normal olarak dağıldığı ve tedaviler arasında sabit bir varyansa sahip olduğu varsayımını test edememek. Bu varsayımlar her zaman test edilmez, bu nedenle en küçük kareler model armatürü muhtemelen uygun olmadığı zaman kullanılır.


11
Veriler normal olmadığında veya heteroskedastik olduğunda en küçük kareler kestirimi ne uygunsuzdur? Tamamen verimli değil, ancak yine de tarafsız ve tutarlı.
Rob Hyndman,

3
Veriler heteroscedastik ise, örnek tahminlerinden çok yanlış sonuç alabilirsiniz, çünkü regresyon modeli, yüksek değişkenliği olan bölgelerdeki örneklerdeki hatayı en aza indirmek için çok çalışacaktır ve düşük değişkenlikteki bölgelerdeki örnekler için yeterince zor değildir. Bu, çok kötü niyetli bir modelle sonuçlanabileceği anlamına gelir. Ayrıca, tahminlerdeki hata çubuklarının yanlış olacağı anlamına gelir.
Dikran Marsupial

6
Hayır, tarafsız, ancak varyans açıklamanızın nedenlerinden dolayı daha verimli bir yöntem kullanmanıza göre daha büyük. Evet, tahmin aralıkları yanlıştır.
Rob Hyndman,

4
Evet (modelin, alan özelliğinin yüksek değişkenlikli bölgelerinde gözlemlere karşı sistematik olarak önyargılı olduğu anlamına gelmek için istatistiksel bir anlamdan ziyade bir yanlılığı kullanmıştım - mea culpa!) - daha yüksek varyans araçlarının sonlu bir veri kümesi kullanarak kötü bir model alma şansı artmıştır. Sorunuza makul bir cevap gibi görünüyor. Tarafsızlığı gerçekten bu kadar rahat bir şey olarak görmüyorum - önemli olan modelin sahip olduğum veriler üzerinde iyi tahminler yapması gerektiği ve genellikle varyansın daha önemli olduğu.
Dikran Marsupial

14

Lisans seviyesindeki giriş psikometri dersim, adım adım regresyon yapmayı öğretmek için en az iki hafta geçirdi. Kademeli regresyonun iyi bir fikir olduğu durumlar var mı?


6
"İyi fikir" duruma göre değişir. Tahmini en üst düzeye çıkarmak istediğinizde bu korkunç bir fikir değil - aşırı uydurmalara yol açabilir. Kaçınılmaz olduğu bazı nadir durumlar vardır - model seçimini yönlendirecek bir teori yoktur. Kademeli regresyonu "günah" olarak saymazdım ama teoriyi model seçimini sürdürmek için yeterli olduğunda kullanmak.
russellpierce

20
Belki de günah, adım adım regresyon ile elde edilen bir model üzerinde istatistiksel testler yapıyor.
Rob Hyndman,

3
Çapraz doğrulama kullanıyorsanız ve fazladan hesaplamayın. P-değerlerini, anlamsız oldukları gibi yayınlamayın.
Neil McGuigan

Kademeli regresyon kullanan bir proje üzerinde çalışıyorum. Bunun nedeni, D >> N'ye sahip olduğum, D'nin boyutluluk olduğu ve N'nin örneklem büyüklüğü olduğu (bu nedenle tüm değişkenlerle bir model kullanarak karar kıldığı için), özelliklerin alt kümeleri birbiriyle son derece ilişkili, istatistiksel olarak ilkeli bir yol istiyorum. belki 2-3 "en iyi" özellik seçmeye ve P-değerlerini, en azından bir çeşit sakıncalı düzeltme olmadan bildirmeye niyetli değilim.
dsimcha

12

Eski istatistiklerim prof, outliers ile başa çıkmak için bir "başparmak kuralı" na sahipti: Dağılım grafiğinizde bir aykırı görürseniz, baş parmağınızla örtün :)


Bu Winsorization'a benziyor, bu çok korkunç değil.
Ari B. Friedman,

12

Bu, aradığınızdan fazla pop-istatistik bir cevap olabilir, ancak:

Veriler oldukça çarpık olduğunda ortalamanın konum göstergesi olarak kullanılması .

Siz ve izleyiciniz ne hakkında konuştuğunuzu biliyorsa , bu mutlaka bir sorun değildir , ancak genel olarak durum böyle değildir ve medyan genellikle neler olup bittiğiyle ilgili daha iyi bir fikir vermesi muhtemeldir.

En sevdiğim örnek, genellikle "ortalama ücret" olarak bildirilen ortalama ücretlerdir. Bir ülkedeki gelir / servet eşitsizliğine bağlı olarak, bu, medyan ücretten çok farklı olabilir; bu, insanların gerçek hayatta nerede olduklarına dair çok daha iyi bir gösterge sunar. Örneğin, nispeten düşük eşitsizliğe sahip olduğumuz Avustralya'da, medyan ortalamanın % 10-15 altındadır . ABD'de fark çok daha fazla başlangıçtır , medyan ortalamanın% 70'inden azdır ve fark artmaktadır.

"Ortalama" (ortalama) ücret hakkında raporlama, garanti edilenden daha gülünç bir resimle sonuçlanır ve ayrıca çok sayıda insana "normal" insanlar kadar kazanmadıkları gibi yanlış bir izlenim verebilir.


Buradaki trend analizi için geçerli olduğu için bununla ilgili yarı bir tartışma var: tamino.wordpress.com/2012/03/29/…
naught101

2
Bu sadece çarpıklık ile ilgili değil, aynı zamanda ortalamanın ya da diğer herhangi bir merkezi eğilim ölçüsünün dağılma düşünülmeden yeterli olmadığı genel bir sorundur. Örneğin, iki grubun ortancaları eşit ise, ancak çeyrekler arası aralık bir popülasyon için 100 kat daha büyükse. Sadece medyanı inceleyerek, onların “aynı nüfus dağılımı” olduğunu söylersiniz, gerçekte çok farklı olurlardı.
olasılıklar

Ama bazı amaçlar anlamına için olan ilgili: ücret bir olan geniş ücretlerin toplamları anlamlı, yani değişken. Bazı (alt) grupların toplam ücret gelirlerinin ilgili olduğu sorular için, araçlar doğru şeydir: Toplam, medyandan değil, ortalamadan geri kazanılabilir.
kjetil b halvorsen

@kjetilbhalvorsen: Neden sadece toplamı kullanmıyorsunuz?
naught101

n

10

P-değerinin boş hipotezin doğru olma olasılığı olduğu ve (1-p), alternatif hipotezin doğru olma olasılığı olduğu, boş hipotezi reddetmede başarısız olmanın alternatif hipotezi yanlış olduğu anlamına geldiğidir.


1
1

İlginç, bu konuda okumam için bana referans verebilir misiniz?
Dikran Marsupial

2
(işte burda) [ ece.uvic.ca/~bctill/papers/mocap/Aitkin_1997.pdf] şahsen, bunu ilginç bulurken, olasılık oranının posterior dağılımının neden olduğu sorusu ile mücadele ediyorum. faiz.
Olasılık 0

10

@Dirkan'a benzeyen damarda - p-değerlerinin boş hipotezi kanıtının resmi bir ölçüsü olarak kullanılması doğru. Bazı iyi sezgisel ve sezgisel olarak iyi özelliklere sahiptir, ancak temel olarak eksik bir kanıt ölçütüdür, çünkü alternatif hipoteze atıfta bulunmaz. Verilerin boş olması muhtemel olmasa da (küçük bir p-değere yol açar), alternatif hipotez altında veriler daha düşük olabilir .


Cevap vermiyorum çünkü birini düşünme zorluğuna gitmek istemiyorum ve bu konuda, birisini tekrarlamadığımdan emin olmak için verilmiş olanların arasında dolaşıp durmak istemiyorum! Ama sanırım yardımcı olabilirim. Good ve Hardin tarafından "İstatistikte Sık Karşılaşılan Hatalar ve Onlardan Nasıl Kaçınılacağı" adlı bir kitap var. Orada birçok harika örnek bulabilirsiniz. Dördüncü basımına giren popüler bir kitap.
Michael Chernick

Ayrıca Altman'ın Chapman & Hall / CRC adlı kitabında "Tıbbi Araştırmalarda Pratik İstatistikler" adlı kitabında, yayınlanmış makalelerde ortaya çıkmış olan birçok istatistiksel günahın açığa çıkarıldığı tıbbi literatür üzerine bir bölüm bulunmaktadır.
Michael Chernick

9

Göreceli frekansları göstermek için pasta grafiklerin kullanılması. Daha burada .


2
Yerinde bazı sebepleri dahil etmek iyi olurdu.
naught101

9

"Mutlak gerçeği" ölçmek için hipotez testinde istatistik / olasılık kullanma. İstatistikler basitçe bunu yapamaz, yalnızca istatistiksel paradigmanın "dışından" belirtilmesi gereken alternatifler arasında karar vermede kullanılabilirler . "Boş hipotezin istatistiklerle doğrulandığı kanıtlandı" gibi ifadeler yanlıştır; istatistikler sadece "alternatif hipoteze kıyasla boş hipotezin tercih edildiğini" söyleyebilir. Sonra ise farz sıfır hipotezi ve alternatif birinin doğru olması gerektiğini, siz "boş gerçek kanıtladı" diyebilirsiniz, ama bu varsayım, veri gösterdiği şey değil sadece cüzi bir sonucudur.


9

α=0.05

Ve benzer şekilde (veya neredeyse aynı) @ ogrisel'in cevabı , Grid araması yaparak yalnızca en iyi sonucu rapor eder.


Bence bu ölümsüz bir şey olsa da, farklı bir çizgi romanla bağlantı kurmak istedin.
rolando2

Muhtemelen, aklımdakileri yeterince iyi hatırlıyorsam, o zaman: xkcd.com/882
Andrew

8

(Biraz şansla bu tartışmalı olacak.)

Bilimsel deneylerin istatistiksel analizinde Neyman-Pearson yaklaşımının kullanılması. Ya da daha kötüsü, Neyman-Pearson ve Fisher'ın kötü tanımlanmış bir melezini kullanarak.


cahil olduğum için özür dilerim, ancak bir Neyman-Pearson yapısında bilimsel deneylerin (sonuçların) analizi için yanlış olan ne?
Andre Holzner

@Andre, bu notun bu konunun başka bir yerinde @Michael Lew tarafından sunulan bir başkası ile yakından ilgili olabileceğini düşünüyorum ( stats.stackexchange.com/questions/4551/… ).
whuber

8

Akış Şeması'nı istemek ve belki de elde etmek : Değişkenlerinizin seviyesini ve ne tür bir ilişkiyi aradığınızı söylediğiniz grafiksel şey ve bir Marka Adı Testi veya Marka İstatistiği almak için okları takip edin. . Bazen gizemli 'parametrik' ve 'parametrik olmayan' yollarla sunulur.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.