Temel hipotez testleri neden medyana değil de ortalamaya odaklanıyor?


32

Temel düşük lisans istatistik derslerinde, öğrencilere (genellikle?) Bir popülasyon ortalaması için hipotez testi verilmektedir.
Odak noktası medyan değil neden ortadadır? Tahminim, merkezi limit teoremi nedeniyle ortalamayı test etmenin daha kolay olduğu, ancak bazı eğitimli açıklamaları okumayı çok isterim.


3
Ortalama, benzersizlik, hesaplama ve hesap için yararlı özelliklere sahiptir. Genellikle yeterli istatistiklerle ilgilidir.
Henry

Yanıtlar:


40

Çünkü Alan Turing, Ronald Fisher'dan sonra doğdu.

Eski günlerde, bilgisayarlardan önce, bütün bunlar elle ya da en iyi ihtimalle hesap makinesi dediğimiz şeyle yapılmak zorundaydı. Karşılaştırma araçları için testler bu şekilde yapılabilir - zahmetli, ancak mümkün. Kuantiller için testler (medyan gibi) bu şekilde yapılması imkansız olacaktır.

Örneğin, kuantil regresyon göreceli olarak karmaşık bir işlevi en aza indirmeye dayanır. Bu elle mümkün olmazdı. Programlama ile mümkündür. Bakınız örneğin Koenker veya Wikipedia .

Kuantil regresyonda OLS regresyonundan daha az varsayım vardır ve daha fazla bilgi sağlar.


6
O zamanlar bilgisayarlar vardı , ancak şu an kastettiğimizden çok farklı bir şey ifade ediyordu.
Maarten Buis

6
Aslında! Bilgisayarlar hesaplamaları yapan insanlardı.
Peter Flom - Monica'yı yeniden konumlandırın

2
@ nafrtiti İzlence değişiyor, fakat yavaşça. Aşılması gereken çok fazla momentum var ve istatistik dışındaki insanlar yeni fikirlere alışık olmadıklarından bunları reddedebiliyorlar.
Peter Flom - Eski Monica

3
@SunQingyao Sıralama, eklemekten çok daha pahalıdır. Ekleme O (n) 'dir ve donanımın en temel işlemlerinden biridir ve sadece bir tane kayıt gerektirir. Buna ek olarak, bilmem gereken tek şey daha fazla veriye ve yeni ortalamayı hesaplamak için toplam ve madde sayısıdır.
Ortancayı

3
Quick select ile (ve eğer kötü pivotlar rastgele seçilmişse pivot seçmek için median-of-5 kullanarak) O (N) 'de bir nicelik bulabilir, ortanca ile ortalama arasındaki boşluğu azaltabilirsiniz. Elbette, bu tür yöntemlerin var olduğunu bilmeniz gerekir (ki bu, Turings zamanında bile bilinmiyordu).
Surt

22

Harrell ve Flom tarafından verilen doğru sebeplere üçüncü bir neden eklemek istiyorum. Bunun nedeni, standart yakınlık veya hata ölçütü olarak Manhattan mesafesini (veya L1) değil, Öklid mesafesini (veya L2) kullanmamızdır. Bir veri noktalarının bir numarası varsa ve bir tek sayı istiyor İçeride ISTV melerin RWMAIWi'nin bunu tahmin etmek, açık bir kavram numarasını bulmak için olduğunu aza indirir sayı seçilen sayısı arasındaki en küçük fark yarattığını 'hatası' ve Verileri oluşturan sayılar. Matematiksel gösterimde, belirli bir hata fonksiyonu E, tek bir bulmak isteyen m ı n θ R ( E ( θ ,x1,xnθ . Eğer biri E (x, y) L2 normunu veya mesafesini alırsa, bu E ( x , y ) = ( x - y ) 2 olur, o zaman tüm θ R'nin minimize edicisi , ortalamadır. Biri L1 veya Manhattan mesafesini alırsa, küçültücü her yereminθR(E(θ,x1,xn)=minθR(i=1i=nE(θ,xi))E(x,y)=(xy)2θR , medyandır. Dolayısıyla ortalama doğal matematiksel seçimdir - eğer biri L2 mesafesini kullanıyorsa!θR


6
Yana geniş anlamında olabildikleri için kullanılan beklenti , ben yerine önermek E , diyelim ki, birlikte Err . EEErr
Richard Hardy,

3
Belki de dikkati çekiyor noktasında türevli x = 0 iken | x | değil. Benim düşünceme göre, bu matematiksel istatistik arenasında MAE'den daha yaygın olan MSE'nin neden yaygın olduğunu belirten temel bir anahtardır. x2x=0|x|
Just_to_Yanıt

1
@Just_to_Answer - Bunun bir başka sebep olduğunu düşünüyorum. Bunu yıllar boyunca çok düşündüm. Benim için söylediklerinizin genelde neden
Öklid'i

19

Genelde, medyan üzerinden ortalama seçilir, çünkü daha temsili, sağlam veya anlamlı değildir, ancak tahmin ediciyle tahmin edicinin kafasını karıştırdığı için. Başka bir deyişle, bazıları, popülasyon ortalamasını ilgi miktarı olarak seçer, çünkü normal bir dağılımla, örnek ortalama, örnek medyandan daha kesindir. Bunun yerine, yaptığınız gibi, gerçek ilgi miktarı hakkında daha fazla düşünmelidirler.

Bir kenar çubuğu: Nüfus medyanı için parametrik olmayan bir güven aralığımız var, ancak nüfus ortalaması için bir güven aralığı elde etmek için parametrik olmayan bir yöntem (belki de sayısal olarak yoğun olan ampirik olabilirlik yöntemi dışında) yoktur. Dağıtımdan uzak kalmak istiyorsanız, ortancaya konsantre olabilirsiniz.

Merkezi limit teoreminin bu sitede başka bir yerde tartışıldığı gibi göründüğünden çok daha az kullanışlı olmadığını unutmayın. Varyansın bilindiğini veya dağılımın simetrik olduğunu ve numune varyansının rekabetçi bir dağılım tahmincisi olacağı şekilde bir şekle sahip olduğunu etkin bir şekilde kabul eder.


2
Ortalama için parametrik olmayan bir güven aralığı inşa etmenin mümkün olduğuna inanıyorum - örneğin bir permütasyon testi ile (bu, örneğin herhangi bir özel fonksiyonel formu varsaymadan simetri varsayımı altında yapılabilir). Bu biraz kısıtlı bir durum olsa da, simetriden başka bazı varsayımlar altında da mümkün. Önyükleme ile gelen yaklaşık kapsama alanıyla ilgilenmeye hazırsanız, simetri gibi varsayımlar olmadan parametrik olmayan aralıklar elde edebilirsiniz.
Glen_b -Reinstate Monica

2
Simetri varsayarsa parametriktir. Bunun simetrik olmayan durumlara uzandığını görmedim. Önyükleme (belki de studentized t yöntemi hariç tüm değişkenler) şiddetli asimetri altında son derece yanlış. Bkz stats.stackexchange.com/questions/186957
Frank Harrell

5
Simetri sonlu parametrik değildir. Wilcoxon işaretli bir sıralama testi null değerinin altında simetri (işaretlerin değişebilirliğini sağlamak için) varsaymaktadır. Buna parametrik mi diyorsun?
Glen_b -Reinstate Monica


2
@Glen_b'de simetri hakkında soru - bu mükemmel bir soru. Wilcoxon işaretli sıralama testi ilginç bir durumdur, çünkü WIlcoxon 2-sample testinin aksine, ağır bir simetri varsayımı yapar. Sanırım simetri gibi bazı genel varsayımlara ihtiyaç duyurken parametrik olamayacağınızı söyleyebilirsiniz. Belki terminoloji "kısıtlamalarla parametrik olmayan" olmalıdır? Öte yandan, parametrik olmayan 2 örneklemli testte, tip II hatasını neyin optimize ettiği ile ilgili kısıtlamalar vardır (ancak tip I hatasını değil).
Frank Harrell,
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.