Kavraması en zor istatistiksel kavram nedir?


32

Bu, buradaki soruya benzer bir sorudur , ancak sormaya değeceğini düşünüyorum.

Başlangıç ​​olarak koyacağımı düşündüm, kavraması en zor olanın bence.

Maden olasılık ve frekans arasındaki farktır . Biri "gerçeklik bilgisi" (olasılık), diğeri "gerçekliğin kendisi" (frekans) düzeyindedir. Çok fazla düşünürsem, bu beni hemen hemen her zaman şaşırtıyor.

Edwin Jaynes Bu şeyleri karıştırmak için "zihin yansıtma yanıltısı" adı verilen bir terim.

Kavraması gereken zor kavramlar hakkında herhangi bir düşüncen var mı?


(Bunu bir cevap olarak koyacak kadar bilgim yok, bu yüzden bir yorum ekledim.) PI'nin istatistiksel denklemlerde ortaya çıkmasının garip olduğunu her zaman düşündüm. Yani - PI'nin istatistiklerle ne alakası var? :)
Monica'yı eski durumuna getirme - Güle güle SE

2
Hak verirdim (Benim içinde surprisal) - O düşünmesine birçok matematiksel analizde açılır. Sadece bir not yazabilir olarak Lateks komutlarla tarafından $ işaretleri içine konulabilir. Wiki sayfasını en.wikibooks.org/wiki/LaTeX/Mathematics sözdizimini elde etmek için kullanıyorum . Diğer bir püf noktası, bu sitede gördüğünüz bir denklemde "sağ tıklamak" ve kullanılan komutları almak için "kaynağı göster" i seçmektir. ππ\pi
Olasılık

@Wiki Eğer düz bir çizgi parçasının uzunluğunu ölçmekten bir daire parçasının uzunluğuna kadar ölçtüğünüzde kesildiğini kabul ederseniz , düşme olasılığını ölçerken neden görünmeyeceğini anlamıyorum bir daire parçası içinde düşme olasılığını ölçmek için bir parça aşağı? π
Robin Girard

Eğer (sinüs, kosinüs, tanjant vs.) trigonometrik funcions yaşadığımızda size sahip riski @Wiki açılır. Ve ne zaman bir fonksiyon türetirseniz, aslında bir teğet bulduğunuzu unutmayın. Asıl şaşırtıcı olmasıdır π görünmüyor daha sık. ππ
Carlos Accioly

I yaygınlığını şüpheli @Carlos kullanımına bağlı olarak çoğunlukla 2 , n-küreler yol metriği. Aynı şekilde, onun 'için beklediğiniz e olan prevalans analizi kaynaklanmaktadır. 2π2e
sesqu

Yanıtlar:


31

Bazı nedenlerden dolayı insanlar bir p değerinin gerçekte ne olduğunu kavramakta zorlanıyorlar.


3
@shabbychef: İnsanların çoğu onu en kötü şekilde yakaladılar, yani Tip I hata yapma olasılığı.
suncoolsu

2
Bunun çoğunlukla p-değerlerinin sınıflarda nasıl açıklandığı ile ilgili olduğunu düşünüyorum (yani: sadece hızlı bir tanım vererek ve hangi p-değerlerinin NOT olmadığını belirtmeden)
nico

Bunun esasen nasıl tanıtıldığı ile ilgili olduğunu düşünüyorum. Benim için, klasik hipotez testine bir "ek" oldu - yani bir hipotez testi yapmanın başka bir yolu gibi görünüyor. Başka bir sorun genellikle sadece her şeyi "güzel çalışıyor" normal dağılıma, göre öğretilmiştir olmasıdır (örneğin p-değeri olan normal bir ortalama test delil bir ölçüsüdür). P-değerinin genelleştirilmesi, genelleştirmeyi yönlendirecek spesifik ilkeler olmadığı için kolay değildir (örneğin, bir p-değerinin örneklem büyüklüğü ve çoklu karşılaştırmalar ile nasıl değişmesi gerektiği konusunda genel bir anlaşma yoktur)
olasılık

@shabbychef +1 öğrenci p-değerleri konusunda sık sık zorluk çekse de (kabaca testte kullanılan kavram ikili bir karar sürecinden biraz daha ince olduğundan ve "bir fonksiyonu tersine çevirmenin" kolay anlaşılması kolay olmadığından). "Nedense" derken, insanların neden bu kadar zorlandıklarının sizin için belirsiz olduğu anlamına mı geliyorsunuz? Not: Yapabilseydim, bu sitede "en iyi cevap olmak" ve "p-değeri hakkında konuşmak" arasındaki ilişki hakkında istatistikler yapmaya çalışırdım :). Ayrıca, kavraması en zor olan istatistiksel kavramın en fazla oy hakkına sahip olup olmadığını bile kendime soruyorum (eğer kavraması zorsa ... :))
robin girard

1
@ eduardo - evet, boş hipotezi hakkında şüphe uyandırmak için yeterince küçük bir p değeri yeterlidir: ancak bir alternatife tamamen izole edilerek hesaplanır . Sadece p-değerleri kullanarak , alternatif olarak belirtilmediğinden resmen "reddedemezsin" . Eğer resmen reddederseniz H 0 , o zaman da varsayımına dayanıyordu hesaplamalar reddetmek gerekir H 0 gerçek varlık, bu varsayımı altında elde edilmiştir p-değerinin hesaplanmasını reddetmek zorunda olduğu araçlar (o kafanın uğraşamaz , ama tutarlı bir şekilde akla getirmenin tek yolu budur ). H0H0H0
Olasılık

23

Shabbychef'in cevabına benzer şekilde, sık aralıklı istatistiklerde güven aralığının anlamını anlamak zordur. Bence en büyük engel, güven aralığının cevaplamak istediğimiz soruyu cevaplamamasıdır. "Gerçek değerin bu belirli aralık içinde olma şansı nedir?" Bilmek isteriz. Bunun yerine, "Bu şekilde yaratılan rastgele seçilen bir aralığın gerçek parametreyi içerme şansı nedir?" İkincisi açıkça daha az tatmin edicidir.


1
Güven aralıkları hakkında ne kadar çok düşünürsem, gerçek bir değerin belirli bir zaman diliminde verilme şansını sorduğumda, "gerçek bir değerin belirli bir zaman aralığında olma şansını isteyerek" cevaplanamayacak bir kavramsal düzeyde ne tür bir soruya cevap verebileceklerini düşünmek benim için zor. bilgi". “2010'daki ortalama gelirin 10.000 ile 50.000 arasında olması ihtimali nedir (bilgilerime bağlı olarak)? Güven aralıkları teorisinin bu soruya cevap verebileceğini sanmıyorum.
Olasılık

21

"Serbestlik dereceleri" nin anlamı nedir? Tam sayı olmayan df'ye ne dersiniz?


13

Koşullu olasılık, muhtemelen günlük deneyimde çoğu hataya yol açar . Elbette kavraması gereken daha zor kavramlar var, ama insanlar genellikle onlar için endişelenmek zorunda değiller - bu ondan kaçamazlar ve çok büyük bir talihsizlik kaynağı.


+ 1; Bir veya iki örnek, favori veya güncel ekleyebilir misiniz?
denis,

1
Yeni başlayanlar için: P (hastalık var | test olumlu)! = P (test olumlu | hastalığınız var).
xmjx

9

Çok az sayıda bilim insanının bu temel noktayı anladığını düşünüyorum: İstatistiksel analizlerin sonuçlarını her adımda önceden planlanmışsa, yüz değerinde yorumlamak mümkündür. özellikle:

  • Örneklem büyüklüğü önceden seçilmelidir. Verileri daha fazla konu eklendikçe analiz etmeye devam etmek uygun değildir, sonuçlar iyi göründüğünde durur.
  • Verileri normalleştirmek veya aykırı değerleri dışlamak için kullanılan yöntemlere de önceden karar verilmelidir. İstediğiniz sonuçları bulana kadar verilerin alt kümelerini analiz etmek doğru değildir.
  • Ve son olarak, elbette, istatistiksel yöntemlere önceden karar verilmelidir. Verileri parametrik ve parametrik olmayan yöntemlerle analiz etmek ve istediğiniz sonuçları seçmek uygun değil mi?

Keşif yöntemleri, keşfetmek için yararlı olabilir. Ancak daha sonra arkanı dönüp düzenli istatistiksel testler yapamaz ve sonuçları her zamanki gibi yorumlayamazsınız.


5
Ben John Tukey en.wikipedia.org/wiki/Exploratory_data_analysis ; o) katılmıyorum düşünüyorum ; o)
Dikran Marsupial

3
Burada kısmen katılmıyorum. İnsanların özlediği uyarı, bu tür durumlar için uygun şartlandırma işlemlerinin göz ardı edilmesinin kolay olduğunu düşünüyorum . Bu işlemlerin her biri çıkarım koşullarını değiştirir ve bu nedenle uygulanabilirlik koşullarını (ve dolayısıyla genelliğine) değiştirirler. Bunlar kesinlikle sadece iyi tanımlanmış bir model ve sorunun inşa edildiği “doğrulayıcı analiz” e uygulanabilir. Keşif aşamasında, kesin soruları cevaplamaya çalışmak değil - daha çok veri modeli için bir model oluşturmak ve hipotezler bulmak isteyen.
Olasılık

Cevabımı biraz Dikran ve olasılıklı yorumlardan yola çıkarak düzeltdim. Teşekkürler.
Harvey Motulsky

1
Benim için, "aykırı değerlerin hariç tutulması", cevabınızın ima ettiği şekilde açıkça yanlış değildir . Örneğin, yalnızca belirli bir yanıt aralığındaki ilişkilerle ilgilenebilirsiniz ve aykırı değerlerin hariç tutulması bu tür analizlere gerçekten yardımcı olur. Örneğin, "orta sınıf" geliri modellemek istiyorsanız, süper zengin ve yoksul outliers hariç olmak iyi bir fikirdir. Bu, sadece sizin çıkarımınız çerçevesinde (örneğin, "garip" orta sınıf gözlemler ") aykırı görüşlerinizdeydi
olasılıklar,

2
Sonuçta, ilk cevapta ortaya konan sorunların asıl sorunu, (en azından kısmen) p-değerlerini geçersiz kılmasıdır. Gözlemlenen bir etkiyi ölçmekle ilgileniyorsanız, yukarıdakilerden herhangi birini ve tümünü cezasızlıkla yapabilmelisiniz.
russellpierce

9

Sıkıca yanağında dil: Sıklık yapanlar için Bayesçi olasılık kavramı; Bayezliler için sık sık olasılık kavramı. ;O)

Her ikisinin de elbette yararı vardır, ancak bir çerçevenin neden diğerini kavramanız çok sağlamsa, bir çerçevenin neden ilginç / yararlı / geçerli olduğunu anlamak çok zor olabilir. Çapraz onaylanmış, soru sormak ve cevapları dinlemek iyi bir yoldur, çünkü öğrenmek iyi bir çözümdür.


2
Hatırlamak için kullanıyorum kuralları: Frekansları tahmin etmek için olasılıkları kullanın. Frekanslar gözlemlendikten sonra, atadığınız olasılıkları değerlendirmek için bunları kullanın. Maalesef kafa karıştırıcı olan şey şu ki, atadığınız olasılığın , gözlemlediğiniz bir frekansa eşit olmasıdır . Hep garip bulduk Bir şey neden do frequentists bile kelime olasılığı kullanan? “bir olayın olasılığı” yerine “bir olayın sıklığı” ifadesinin kullanılıp kullanılmadığını kavramlarının anlaşılmasını kolaylaştırmaz mıydı?
Olasılık

p(x)L(xn,x)dxi=1i=nL(x[ni],xi)xnx[ni]xi

8

Kişisel tecrübelerime göre, olasılık kavramı , özellikle istatistikçi olmayanlar için oldukça fazla karıştırmaya neden olabilir. Vikipedi'nin dediği gibi, çoğu zaman doğru olmayan olasılık kavramı ile karıştırılıyor.



6

Farklı dağılımlar gerçekte neyi temsil ediyorlar, nasıl kullanıldıkları dışında.


3
İstatistik 101'den sonra en çok dikkat dağıtıcı bulduğum soru buydu. Elimizdeki konularla ilgili olan "özelliklerin" ötesinde onlar için hiçbir motivasyon olmadan birçok dağıtımla karşılaşacaktım. Herhangi birinin neyi temsil ettiğini bulmak kabul edilemez derecede uzun sürdü.
sesqu

1
Maksimum entropi "düşünme", bir dağılımın ne olduğunu, yani bir bilgi durumunu (veya bir şey hakkındaki belirsizliğin tanımını) anlamaya yardımcı olan bir yöntemdir. Bu tüm durumlarda bana anlamlı geldi tek tanımıdır
probabilityislogic

Ben Bolker bölümünde 'dağılımları beastiary' bu iyi bir bakış sağlar Ar Ekolojik Modeller ve Veri
David LeBauer

5

Bence sorunun çok farklı cevaplar verecek iki şekilde yorumlanabilir olduğunu düşünüyorum:

1) İstatistik eğitimi alan insanlar için, özellikle nispeten ileri düzeyde, kavraması en zor olan kavram nedir?

2) Hangi istatistiksel kavram çoğu insan tarafından yanlış anlaşılıyor?

1) Cevabı hiç bilmiyorum. Ölçüm teorisinden bir şey, belki? Bir tür entegrasyon mu? Bilmiyorum.

2) p değeri için eller aşağı.


Ölçüm teorisi ne bir istatistik alanı ne de zor değildir. Bazı entegrasyon türleri zordur, ancak bir kez daha, bu istatistik değildir.
pyon

5

Bayesian olmayan geleneklerde güven aralığı zor olanıdır.


5

I think people miss the boat on pretty much everything the first time around. I think what most students don't understand is that they're usually estimating parameters based on samples. They don't know the difference between a sample statistic and a population parameter. If you beat these ideas into their head, the other stuff should follow a little bit easier. I'm sure most students don't understand the crux of the CLT either.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.