Sonlu varyans testi?


29

Bir örnek verilen rastgele değişkenin varyansının doğruluğunu (veya varlığını) test etmek mümkün müdür? Boş değer olarak, {varyans var ve sonludur} veya {varyans yoktur / sonsuzdur} kabul edilebilir. Felsefi olarak (ve hesaplamalı olarak), bu çok garip görünüyor çünkü sonlu değişkenliği olmayan bir popülasyon arasında bir fark olmamalı ve çok çok büyük bir varyansa sahip (biri> 10400 ) arasında bir fark olmamalı , bu yüzden bu sorunun çözülebileceğini ummuyorum.

Bana önerilmiş olan bir yaklaşım, Merkezi Limit Teoremi ile yapıldı: örneklerin kimliğini varsayarak ve popülasyonun sonlu ortalamaları varsayalım, bir şekilde örnek ortalamanın artan örneklem büyüklüğü ile doğru standart hataya sahip olup olmadığını kontrol edebilir. Yine de bu yöntemin işe yarayacağına inandığımdan emin değilim. (Özellikle, nasıl uygun bir test haline getirileceğini görmüyorum.)


1
İlgili: stats.stackexchange.com/questions/94402/… Varyansın bulunmaması için en küçük olasılık varsa, sonlu varyansı almayan bir model kullanarak daha iyi olursunuz. Test etmeyi bile düşünmeyin.
kjetil b halvorsen

Yanıtlar:


13

Boyutta bir sonlu örneklem Hayır, çünkü bu, mümkün değildir güvenilir normal popülasyonda ve kirlenmiş normal popülasyonda, diyelim ki, ayırt edemez 1 / N bir Cauchy dağılımı miktarı N >> n . (Elbette, eski sonlu varyansa sahiptir ve ikincisi sonsuz varyansa sahiptir.) Bu nedenle, herhangi bir tamamen parametrik olmayan test, bu gibi alternatiflere karşı keyfi olarak düşük güce sahip olacaktır.n1/NNn


4
Bu çok iyi bir nokta. Ancak, hipotez testlerinin çoğu bazı alternatiflere karşı keyfi olarak düşük güce sahip değil mi? örneğin ortalama bir popülasyon bir örnek verildiğinde sıfır ortalama için bir test çok düşük güce sahip olacak için 0 < | ϵ | küçük. Hala böyle bir testin yapılıp yapılmadığını, bazı durumlarda düşük güce sahip olup olmadığını merak ediyorum. ϵ0<|ϵ|
shabbychef

2
Ayrıca, alıntı yaptığınız gibi 'kirli' dağılımlar her zaman 'aynı şekilde dağılma' fikrine karşı tuhaf görünüyordu. Belki katılıyorum. Örneklerin, dağılım belirtilmeden bazı dağılımlardan çıkarıldığını söylemek, dağılımın anlamsız olduğunu (yani, 'bağımsız olarak' kısmının anlamlı olduğu anlamına gelir) görünmektedir.
shabbychef

2
(1) Düşük güç konusunda haklısın, ama buradaki sorun (bana öyle geliyor ki) "sonlu" dan "sonsuz" a aşamalı bir adım atılmaması: sorunun bize söyleyecek doğal bir ölçeğe sahip olmadığı görünüyor "büyük" bir kalkışa kıyasla, sıfırdan "küçük" bir çıkış oluşturan şey. (2) Dağıtım şekli, kimliğe ilişkin düşüncelerden bağımsızdır. Yani, verilerin% 1'i bir Cauchy'den ve% 99'u bir Normal'den gelecektir demek istemiyorum. Demek istediğim, verilerin% 100'ü neredeyse normal fakat Cauchy yazılarına sahip bir dağıtımdan geliyor. Bu anlamda veriler kirli bir dağılım için tanımlanabilir.
whuber


3
Her gözlem, her biri karşılık gelen karışım dağılımından bir çekme olarak, aynı şekilde dağıtıldıkları aynı karışım işleminden kaynaklanıyorsa. Bazı gözlemler mutlaka bir işlemden farklıysa ve diğerleri mutlaka farklı bir işlemden geliyorsa (gözlemler 1 ila 990 normal ve gözlemler 991 ila 1000 Cauchy'dir), o zaman aynı dağılmazlar (birleştirilmiş örnek ayırt edilemese bile) % 99 -% 1 karışımından). Bu, esas olarak kullandığınız işlemin modeline iner.
Glen_b

16

Dağıtımı bilmeden emin olamazsın. Ama böyle sen büyüklüğü bir örneğini varsa yani "kısmi varyans" olarak adlandırılabilecek bakarak olarak yapabileceğiniz bazı şeyler vardır , ilk tahmin varyansını çizmek n ile, terimler n 2 ila çalışan N .NnnN

Sınırlı bir popülasyon varyansı ile, kısmi varyansın kısa sürede popülasyon varyansına yaklaştığını umarsınız.

Sonsuz bir popülasyon varyasyonu ile, kısmi varyansta atlar, ardından numunede bir sonraki çok büyük değer görünene kadar yavaş düşüşler görürsünüz.

Bu Normal ve Cauchy rastgele değişkenleri (ve bir log ölçeği) olan bir örnektir. Kısmi Varyans

Bu, dağıtımınızın şeklinin, yeterli bir güvenle tanımlamak için sizden çok daha büyük bir örneklem büyüklüğünün olması durumunda, yani sonlu varyansa sahip bir dağıtım için çok büyük değerlerin oldukça (ancak çok fazla değil) nadir olduğu durumlarda yardımcı olmayabilir, veya sonsuz değişkenlikteki bir dağılım için son derece nadirdir. Belirli bir dağıtım için, niteliğini açıklamazdan daha muhtemel olan örneklem büyüklükleri olacaktır; tersine, belirli bir örneklem büyüklüğü için, bu örnek büyüklüğü için doğalarını gizlememekten daha muhtemel dağılımlar vardır.


4
+1 Bunu beğendim çünkü (a) grafik genellikle bir testten çok daha fazlasını ortaya çıkarır ve (b) pratiktir. İsteğe bağlı bir yönü olduğundan biraz endişeliyim: görünüşü verinin veriliş sırasına bağlı (muhtemelen güçlü bir şekilde). "Kısmi varyans", bir veya iki aşırı değerden kaynaklandığı ve başlangıcına yaklaştığı zaman, bu grafik aldatıcı olabilir. Bu soruna iyi bir çözüm olup olmadığını merak ediyorum.
whuber

1
Harika grafik için +1. Cauchy dağılımında “varyans yok” kavramını gerçekten pekiştiriyor. @whuber: Verileri mümkün olan tüm izinlerde sıralamak, her biri için test yapmak ve bir tür ortalama almak? Çok hesaplamalı olarak verimli değil, size vereceğim :) ama belki sadece bir avuç rastgele permütasyon seçtiniz?
naught101

2
@ naught101 Tüm permütasyonların ortalaması, size hiçbir şey söylemez, çünkü mükemmel bir yatay çizgi elde edersiniz. Belki de ne demek istediğini yanlış anlıyorum?
whuber

1
@whuber: Aslında yakınsama için bir çeşit testin ortalamasını almak istedim, grafiğin kendisi değil. Ama bu oldukça belirsiz bir fikir vereceğim ve bu büyük ölçüde çünkü neden bahsettiğim hakkında hiçbir fikrim yok :)
naught101

7

İşte başka bir cevap. Sorunu parametreleştirebileceğinizi varsayalım, bunun gibi bir şey:

H0: Xt(df=3) versus H1: Xt(df=1).

H0H1H1H0 t

f(x|ν)=Γ(ν+12)νπΓ(ν2)(1+x2ν)ν+12,

<x<x1,x2,,xnH0

Λ(x)=i=1nf(xi|ν=1)i=1nf(xi|ν=3)>k,
k0
P(Λ(X)>k|ν=3)=α.

Λ(x)=(32)ni=1n(1+xi2/3)21+xi2.

Λ(x)H0Λ(x)α=0.05n=13

H0Λ

set.seed(1)
x <- matrix(rt(1000000*13, df = 3), ncol = 13)
y <- apply(x, 1, function(z) prod((1 + z^2/3)^2)/prod(1 + z^2))
quantile(y, probs = 0.95)

12.8842(3/2)13k1.9859

H0H1α

Feragatname: Bu oyuncak örneğidir. Verilerimin Cauchy'den gelip gelmediğini 3 df olan Öğrenci t’nin aksine olmadığını merak ettiğim gerçek dünyadan bir durumum yok. Ve asıl soru parametreleştirilmiş problemler hakkında bir şey söylemedi, diğerleri tarafından iyi ele alındığını düşündüğüm parametrik olmayan bir yaklaşım daha görünüyordu. Bu cevabın amacı, sorunun başlığı ile karşılaşan ve klasik tozlu ders kitabı yaklaşımını arayan gelecekteki okuyucular içindir.

H1:ν1


2
α

1
H1:ν2ν>2

2
α

1
αα=2

6

DY1,Y2,,YN

  1. H0:YiNormal(μ,σ)
  2. HA:YiCauchy(ν,τ)

Bir hipotezin sonlu varyansı, birinin sonsuz varyansı vardır. Sadece oranları hesapla:

P(H0|D,I)P(HA|D,I)=P(H0|I)P(HA|I)P(D,μ,σ|H0,I)dμdσP(D,ν,τ|HA,I)dνdτ

P(H0|I)P(HA|I)

P(D,μ,σ|H0,I)=P(μ,σ|H0,I)P(D|μ,σ,H0,I)
P(D,ν,τ|HA,I)=P(ν,τ|HA,I)P(D|ν,τ,HA,I)

L1<μ,τ<U1L2<σ,τ<U2

(2π)N2(U1L1)log(U2L2)L2U2σ(N+1)L1U1exp(N[s2(Y¯μ)2]2σ2)dμdσ

s2=N1i=1N(YiY¯)2Y¯=N1i=1NYi

πN(U1L1)log(U2L2)L2U2τ(N+1)L1U1i=1N(1+[Yiντ]2)1dνdτ

Ve şimdi oranı alarak normalize edici sabitlerin önemli kısımlarının iptal olduğunu görüyoruz:

P(D|H0,I)P(D|HA,I)=(π2)N2L2U2σ(N+1)L1U1exp(N[s2(Y¯μ)2]2σ2)dμdσL2U2τ(N+1)L1U1i=1N(1+[Yiντ]2)1dνdτ

Ve tüm integraller sınırda hala uygundur, böylece şunları yapabiliriz:

P(D|H0,I)P(D|HA,I)=(2π)N20σ(N+1)exp(N[s2(Y¯μ)2]2σ2)dμdσ0τ(N+1)i=1N(1+[Yiντ]2)1dνdτ

0σ(N+1)exp(N[s2(Y¯μ)2]2σ2)dμdσ=2Nπ0σNexp(Ns22σ2)dσ

λ=σ2dσ=12λ32dλ

2Nπ0λN121exp(λNs22)dλ=2Nπ(2Ns2)N12Γ(N12)

Sayısal çalışma ihtimaline karşı son bir analitik form olarak alıyoruz:

P(H0|D,I)P(HA|D,I)=P(H0|I)P(HA|I)×πN+12NN2s(N1)Γ(N12)0τ(N+1)i=1N(1+[Yiντ]2)1dνdτ

Dolayısıyla bu, sonluya karşı sonsuz varyansın spesifik bir testi olarak düşünülebilir. Başka bir test almak için bu çerçeveye bir T dağılımı da yapabiliriz (serbestlik derecelerinin 2'den büyük olduğu hipotezini test edin).


1
s2

2
ss2=N1i=1N(YiY¯)2Y¯x¯

5

Karşı örnek, sorulan soru ile ilgili değil. Boş bir hipotez örneğini, belirli bir anlamlılık düzeyinde, bir sınırlı rasgele değişken örneğinin sonlu varyansa sahip bir dağılımdan alındığını test etmek istiyorsunuz . Kullanım ve hipotez testinin sınırlarını anlamak için Casella tarafından "İstatistiksel Çıkarım" gibi iyi bir referans metni öneririm. Sonlu varyanstaki ht ile ilgili olarak, kullanışlı bir referansım yok, ancak aşağıdaki yazıda benzer, ancak daha güçlü bir sürüm var, yani eğer dağıtım kuyrukları bir güç yasasına uyuyorsa.

EMPIRICAL DATA SIAM'DA GÜÇ HUKUKU DAĞILIMLARI İnceleme 51 (2009): 661 - 703.


1

Bana önerilen bir yaklaşım, Merkezi Limit Teoremi ile oldu.

Bu eski bir soru, ancak büyük kuyrukları test etmek için CLT kullanmanın bir yolunu önermek istiyorum.

X={X1,,Xn}Y={Y1,,Yn}X

Z=n×mean(Y)mean(X)sd(Y),

N (0,1) dağılım fonksiyonuna da yakındır.

Şimdi tek yapmamız gereken çok sayıda önyükleme yapmak ve gözlenen Z'lerin ampirik dağılım fonksiyonunu bir N (0,1) parçası ile karşılaştırmak. Bu karşılaştırmayı yapmanın doğal bir yolu Kolmogorov Smirnov testidir .

Aşağıdaki resimler ana fikri göstermektedir. Her iki resimde de, her bir renkli çizgi, belirli bir dağılımdan 1000 gözlemin bir gerçekleştirilmesinden, ardından Z ecdf'in yaklaştırılması için 500 boyutunda 200 önyükleme örneği ile oluşturulmuştur. Siyah sürekli çizgi N (0,1) cdf'dir.

görüntü tanımını buraya girin görüntü tanımını buraya girin


2
Hiçbir önyükleme, cevabımda ortaya attığım soruna karşı seni hiçbir yere götüremez. Bunun nedeni, örneklerin büyük çoğunluğunun ağır bir kuyruk kanıtı sağlamayacağından - ve önyükleme sırasında, tanım gereği, yalnızca örneğin kendisinden gelen verileri kullanır.
whuber

1
@whuber Eğer X değerleri simetrik bir güç yasasından alınırsa, genelleştirilmiş CLT uygulanır ve KS testi farkı tespit eder. Gözleminizin söylediklerinizi doğru bir şekilde nitelendirmediğine inanıyorum "sonlu" ile "sonsuz" arasında "kademeli bir adım"
Mur1lo

1
CLT, hiçbir sonlu numuneye asla "uygulanmaz". Limit hakkında bir teorem.
whuber

1
Bunun "geçerli" olduğunu söylediğimde, eğer büyük bir örneğimiz varsa, sadece iyi bir yaklaşım sağladığını söylüyorum.
Mur1lo

1
“İyi yaklaşım” ve “büyük” gibi belirsizlikler maalesef hipotez testlerinin mantığını yakalayamamaktadır. İfadenizde örtük olan, ağır kuyruklu olma özelliğini algılayana kadar daha büyük bir örnek toplama olasılığıdır: ancak hipotez testlerinin genellikle işe yaramadığı durum bu değildir. Standart ayarda verilen bir örneğe sahipsiniz ve göreviniz boş hipotezdeki bir dağılımdan gelip gelmediğini test etmektir. Bu durumda, önyükleme işlemi bunu basit testlerden daha iyi yapmaz.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.