Numunenin dağılımından bağımsız olmayan bir istatistik örneği?


14

Bu wikipedia'da istatistiğin tanımıdır

Daha resmi olarak, istatistiksel teori, istatistiğin örneğin fonksiyonunun numunenin dağılımından bağımsız olduğu bir numunenin fonksiyonu olarak tanımlar; yani işlev, verilerin gerçekleştirilmesinden önce belirtilebilir. İstatistik terimi, belirli bir örnekteki hem işlev hem de işlevin değeri için kullanılır.

Sanırım bu tanımın çoğunu anlıyorum, ancak fonksiyonun numunenin dağılımından bağımsız olduğu kısım sıralayamadım.

Şu ana kadar istatistik anlayışım

Bir örnek , F dağılımı ile bazı bağımsız, aynı şekilde dağıtılmış (iid) rasgele değişkenlerin birtakım gerçekleştirmeleridir (20 taraflı bir adil zarın bir rulosunun 10 gerçekleşmesi, 6 taraflı bir adil zarın 5 rulosunun 100 gerçekleşmesi, bir popülasyondan rastgele 100 kişi çeker).

Etki alanı bu küme olan ve aralığı gerçek sayılar olan (veya belki bir vektör veya başka bir matematik nesnesi gibi başka şeyler üretebilir ...) bir istatistik olarak kabul edilir .

Örnekleri düşündüğümde, ortalama, medyan, varyans bu bağlamda anlamlıdır. Bunlar, gerçekleşmeler kümesinin bir fonksiyonudur (rastgele bir örnekten kan basıncı ölçümleri). Ayrıca doğrusal regresyon modeli bir istatistik olarak kabul edilebilir görebilirsiniz yi=α+βxi - bu gerçekleşmeleri bir dizi sadece bir fonksiyonudur?

Kafam karıştı

Yukarıdaki anlayışımın doğru olduğunu varsayarsak, bir fonksiyonun numunenin dağılımından bağımsız olmayabileceğini anlayamadım. Anlamak için bir örnek düşünmeye çalışıyordum, ama şans yok. Herhangi bir fikir çok takdir edilecektir!

Yanıtlar:


45

Bu tanım, bunu ifade etmenin biraz garip bir yoludur. Bir "istatistik", gözlemlenebilir değerlerin herhangi bir işlevidir. Bu tanımın anlamı, bir istatistiğin, dağılımın veya parametrelerinden herhangi birinin değil, sadece gözlemlenebilir değerlerin bir işlevi olduğudur. Örneğin, X1,X2,...,XnN(μ,1) daha sonra, bir istatistik bir fonksiyonu olacaktır T(X1,...,Xn) bir fonksiyonu ise H(X1,....,Xn,μ)μ bağlı olduğu için istatistik olmaz. İşte bazı örnekler:

StatisticX¯n=1ni=1nXi,StatisticSn2=1ni=1n(XiX¯n)2,Not a statisticDn=X¯nμ,Not a statisticpi=N(xi|μ,1),Not a statisticQ=10μ.

Her istatistik, dağılımlarının veya parametrelerinin değil, sadece gözlemlenebilir değerlerin bir işlevidir. Dolayısıyla, dağılımın veya parametrelerinin bir işlevi olan bir istatistik örneği yoktur (böyle bir işlev bir istatistik olmaz). Bununla birlikte, bir istatistiğin dağılımının (istatistiğin kendisinin aksine) genellikle değerlerin altında yatan dağılımına bağlı olacağını belirtmek önemlidir . (Bu, yardımcı istatistikler dışındaki tüm istatistikler için geçerlidir .)


n(x¯μ)μ=μ0μ0RH0:RnRH0(x1,...,xn)=n(x¯μ0)H:Rn+1RH(x1,...,xn,μ)=n(x¯μ)


1
Çok yararlı cevap, altta yatan istatistiksel parametrenin istatistiğin bir parçası olarak düşünülmesinde özellikle yardımcı olmuştur.
YetiMountainButter

4
1010(X1+X2++X1000)/1000(X1++Xn/2)/(n/2)(Xn/2+1++Xn)/(n/2)

4
Bu örnekler benim için tamamen geçerli görünüyor. Verileri bir eğitim setine bölme fikrini mi söylüyorsunuz ve bir doğrulama seti geçerli değil mi?
James Martin

2
Biraz da kafam karıştı. @CarlWitthoft noktasını tanımlamaya çalışayım. Matematiksel tanım açısından hala bir istatistik olurdu, ancak bir danışmanın gözlemlerin 'istatistikini' aldığı, ancak keyfi olarak birkaç sonucu kaldırmaya karar verdiği bir durum görebiliyordum (danışmanlar bunu her zaman doğru mu yapıyor?). Bu hala gözlemler üzerinde bir işlev olduğu için 'geçerli' olacaktır, ancak istatistiğin sunulma ve yorumlanma şekli muhtemelen geçerli olmayacaktır.
YetiMountainButter

2
@Carl Withhoft: Yaptığınız noktaya ilişkin olarak, bir istatistik (tüm verileri içermesi gerekmeyen ve örnekteki tüm bilgileri içermeyebilecek) ile yeterli bir istatistik (tümünü kapsayacak ) arasında ayrım yapmak önemlidir. bazı parametrelere ilişkin bilgiler). İstatistik teorisi, bir istatistiğin örneklemdeki tüm ilgili bilgileri içerdiği fikrini yakalayan yeterlilik gibi iyi geliştirilmiş kavramlara sahiptir. Bu gereksinimi bir "istatistik" tanımına oturtmaya çalışmak gerekli değildir ya da istenmez.
Ben - Monica

4

Verileri görmeden önce hangi istatistiği hesaplayacağınıza karar vermeniz gerektiğini söyleyerek yorumluyorum. Yani, örneğin, aykırı değerlere gidecekseniz, bir "aykırı değer" teşkil eden verileri görmeden önce karar vermelisiniz. Verileri gördükten sonra karar verirseniz, işleviniz verilere bağlıdır.


bu da yardımcı olur! Bu nedenle, hangi gözlemlerin mevcut olduğunu bildikten sonra hangi gözlemlerin işleve dahil edileceğine karar vermek, bu da önceki cevap hakkındaki yorumumda az çok tarif ettiğim şey.
YetiMountainButter

2
(+1) Bunun önemli olduğunu belirtmek gerekir, çünkü veri noktasını neyin oluşturduğuna dair bir kural tanımlarsanız, istatistik (yani, kesilmiş ortalama, vb.) İçin bir dağılım türetmek (nispeten) kolaydır. .). Önceden temiz olarak tanımlanmayan nedenlerle veri noktalarının düşürülmesini içeren bir hesaplama için dağıtım yapmak gerçekten zordur.
Cliff AB
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.