Bu tek değer dağıtımla eşleşiyor mu?


10

bu çok naif bir soru gibi geliyor ama cevabı görmekte zorlanıyorum.

30 değerden oluşan bir setim var. Bağımsız olarak 31. bir değer elde ettim. Boş hipotez, 31'inci değerin aynı dağılımın bir parçası olduğudur. Alternatif, farklı olmasıdır. Bir çeşit p-değeri veya olabilirlik ölçüsü istiyorum.

Bazı düşüncelerim vardı:

  • Bu, iki örnekli bir t-testi yapmak istemekle aynıdır - ancak ikinci örnek için sadece tek bir değere sahibim ve 30 değerlerin normal olarak dağılması gerekmez.
  • 30 ölçüm yerine 10000 ölçüm yapsaydım, tek ölçümün sırası bazı yararlı bilgiler sağlayabilirdi.

Bu olasılığı veya p değerini nasıl hesaplayabilirim?

Teşekkürler! Yannick


4
Bir tahmin aralığı istiyorsunuz . İkinci düşünceniz parametrik olmayan tahmin aralıklarına yol açar (ki bu sitede daha önce bahsedilmediğine inanıyorum).
whuber

Bize nüfusunuz hakkında başka neler söyleyebilirsiniz? Tüm değerler pozitif mi? Simetrik olmasını bekler misiniz? Tek modlu?
soakley

Teşekkürler ve özür dilerim daha fazla bilgi sağlamalıydım. Tahmin aralıklarına bir göz atıyoruz. Temel olarak fokal bir gen tahmini uzunluğuna sahibiz. Ve veritabanlarında bulunan benzer genlerin uzunlukları. Yani tüm sayılar pozitif tamsayılardır. Kolay bir durumda, uzunlukların dağılımı tekdüzedir. Gerçekte sıklıkla öyle olmazlar; bu aşamada olduklarını varsayabiliriz. Bazı dağıtım grafikleri burada gösterilmiştir: github.com/monicadragan/gene_prediction/tree/master/…
Yannick Wurm

"Tahmin aralığı" istediğimize ikna olmadım Tahmin etmek istemiyoruz ... ve bir aralık istemiyoruz ...?
Yannick Wurm

1
Teknik terimleri çok fazla yorumlamayın. Tanım olarak, değerinden bir "tahmin aralığı" , değerin hepsinin varsayılan ortak dağılımı altında , 31'inci değerin içinde yer alması olasılığı % 95 gibi belirli bir hedefe eşit olacak şekilde oluşturulur. Aslında, 31 değeri yoksa değil içinde yer , ya (i) başka veya (yalnızca veri topladı önce oluyor% 5 şansım olan) şanssız olduklarını sonucuna varabilir (ii) değil aslında 31'inci değerin yaptığınız varsayımdaki dağılımı olduğu durumda: ve bunu test etmek istersiniz. I3031II
whuber

Yanıtlar:


7

Unimodal durumda Vysochanskij-Petunin eşitsizliği size kaba bir tahmin aralığı verebilir. İşte wikipedia sitesi: http://en.wikipedia.org/wiki/Vysochanski%C3%AF%E2%80%93Petunin_inequality

Kullanma , yaklaşık% 95 tahmin aralığında sonuçlanır.λ=3

Böylece popülasyonunuzun ortalama ve standart sapmasını tahmin edersiniz ve aralığınız olarak sadece örnek ortalama artı veya eksi .x¯3s

Bu yaklaşımla ilgili birkaç sorun var. Ortalama veya standart sapmayı gerçekten bilmiyorsunuz; tahminler kullanıyorsunuz. Ve genel olarak, tekdüze dağılımınız olmayacak, yani Chebyshev eşitsizliğinin özel sürümlerini kullanmanız gerekecek. Ama en azından bir başlangıç ​​noktan var.

Genel durum için Konijn (Amerikan İstatistikçisi, Şubat 1987) sipariş istatistiklerinin bir tahmin aralığı olarak kullanılabileceğini belirtmektedir. Böylece , Konijn'in boyutunda çağırdığı için bir tahmin aralığıdırBoyut, aralığın alacağı değeri kapsama olasılığının en büyük alt sınırı (kabul edilen ortak dağılım kümesine göre) olarak tanımlanır. Bu yaklaşımla% 93,6 tahmin aralığı[x(i),x(j)]Xjin+1.X[x(1),x(30)].

Ayrıca Saw, Yang ve Mo ile ilişkilendirilen bir yaklaşım verir: makalede verilen kapsamla ilgili ayrıntılar.

[x¯λ(1+1n)1/2s , x¯+λ(1+1n)1/2s],

Örneğin kullanmak % 90'ın üzerinde kapsama alanı sağlar.n=30,λ=3.2


Bu eşitsizliğin yanlış bir uygulaması gibi görünmektedir: ortalamanın ve varyansın bilindiği varsayılmaktadır , burada varyans sadece bu bağlamdaki verilerden tahmin edilebilir. Fark, özellikle küçük veri kümelerinde çok büyük olabilir. Chebyshev'in eşitsizliğiyle benzer tekliflerle ilgili simülasyon çalışmalarında, şaşırtıcı derecede kötü bir performans buldum. Sezgisel olarak, bu, CI'leri oluşturmak için Normal dağılım yerine t dağılımının kullanılması gerektiğine dair Öğrenci görüşüne benzer; çünkü kuyruklarda PI çok daha "dışarıda" olduğu için fark büyür.
whuber

2
Düzenleme (+1): Parametrik olmayan tahmin aralığı, boş sıfır hipotezi altında bir permütasyon testi olarak anlaşılabilir. Bu durumda, 31. değerin 31 değerin en büyüğü veya en küçüğü olma olasılığı yalnızca% % . İlişkili test , 31. değerin, en küçük veya en büyük olduğunda diğer 30 ile tutarsız olduğu sonucuna varır. Bu testin boyutu ( normal anlamda ) % . 30 veri değerine sahip (iki taraflı) bir test için elde edilebilecek en küçük boyuttur. 2/316.456.45
whuber

1

Bazı düşüncelerim vardı:

Bu, iki örnekli bir t-testi yapmak istemekle aynıdır - ancak ikinci örnek için sadece tek bir değere sahibim ve 30 değerlerin normal olarak dağılması gerekmez.

Doğru. Fikir, tek bir değeri olan bir t-testi gibidir. Dağılım bilinmediği ve yalnızca 30 veri noktası olan normalliğin yutulması biraz zor olabileceğinden, bu bir tür parametrik olmayan test gerektirir.

30 ölçüm yerine 10000 ölçüm yapsaydım, tek ölçümün sırası bazı yararlı bilgiler sağlayabilirdi.

30 ölçümde bile sıralama bilgi verici olabilir.

@Whuber'ın işaret ettiği gibi, bir tür tahmin aralığı istiyorsunuz. Parametrik olmayan durum için, temel olarak sorduğunuz şey şudur: Belirli bir veri noktasının 31. ölçümünüz için gözlemlediğimiz sıralamaya sahip olma olasılığı nedir?

Bu basit bir permütasyon testi ile ele alınabilir. İşte 15 değere sahip bir örnek ve aslında öncekilerden daha büyük bir roman (16. gözlem):

932
915
865
998
521
462
688
1228
746
433
662
404
301
473
647

new value: 1374

Listedeki öğelerin sırasının karıştırıldığı N permütasyonları gerçekleştiriyoruz , sonra şu soruyu sorun: (karıştırılmış) listedeki ilk öğenin değeri için sıralama nedir?

N = 1.000 permütasyon yapmak bize, listedeki ilk elemanın sırasının yeni değerin sırasına eşit veya daha iyi olduğu (aslında yeni değer en iyisi olduğu için eşittir) 608 durum verir. Simülasyonu 1000 permütasyon için tekrar çalıştırarak 658 vaka, sonra 663 ...

N = 1.000.000 permütasyon yaparsak, listedeki ilk elementin sırasının yeni değerin sırasına eşit veya daha iyi olduğu 62825 vaka elde ederiz (daha fazla simülasyon 62871 vaka verir, sonra 62840 ...). Durumun karşılandığı durumlar ile toplam permütasyon sayısı arasındaki oranı alırsanız, 0.062825, 0.062871, 0.06284 ...

Bu değerlerin, @whuber'ın belirttiği gibi, rasgele çizilen belirli bir değerin (16'dan) aralarında mümkün olan en iyi sıraya sahip olma olasılığı olduğu 1/16 = 0,0625'e (% 6,25) yaklaştığını görebilirsiniz.

Yeni değerin ikinci en iyi değer olduğu yeni bir veri kümesi için (örneğin, 2. sıra):

6423
8552
6341
6410
6589
6134
6500
6746
8176
6264
6365
5930
6331
6012
5594

new value: 8202

(N = 1.000.000 permütasyon için): 125235, 124883 ... yine, rastgele verilen belirli bir değerin (16'dan) aralarında en iyi ikinci sıraya sahip olma olasılığına yaklaşan olumlu durumlar: 2/16 = 0.125 (% 12.5).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.