Aynı popülasyondan iki örneğin alındığını gösteren istatistiksel test?


30

Diyelim ki iki örneğim var. Farklı topluluklardan çekilip çekilmediklerini söylemek istersem, bir t testi yapabilirim. Ama diyelim ki numunelerin aynı popülasyondan olup olmadığını test etmek istiyorum. İnsan bunu nasıl yapar? Yani, bu iki numunenin aynı popülasyondan alınma ihtimalini istatistiksel olarak nasıl hesaplayabilirim?


1
Lütfen - mümkün olduğunca nicel olarak - "aynı" derken ne demek istediğinizi açıklayın. Bu da "koşul" ile ne demek istediğinizi netleştirmeye yardımcı olacaktır.
whuber

İki örneklemli bir Kolmogorov-Smirnov gibi bir test (tek olasılık değil; olağan varsayımlarla, t-testi dediğin gibi aynı şeyi test ediyor) popülasyon dağılımlarının farklı olup olmadığını test edebilir (ancak reddetme başarısızlığı yok ' demek ki onlar aslında aynıdır). Bununla birlikte, hiçbir test size benzer olmayan iki dağılımın benzer dağılımlara sahip iki farklı popülasyondan ziyade aslında aynı popülasyondan olup olmadığını söyleyemez . Bu, varsayımlardan veya başka bir soruşturmadan gelmek zorunda kalacaktı. ...
ctd

3
ctd ... Benzer şekilde, testler bile size önemsiz şekillerde farklılık gösterebileceğinden dağıtımların aynı olduğunu söyleyemez. Burada birkaç sonuç almanız gereken 'denklik testi' veya 'denklik testi' veya google'da arama yapmak isteyebilirsiniz.
Glen_b

Yanıtlar:


20

Dağılımları karşılaştıran testler kural dışı testlerdir. İki popülasyonun aynı olduğu gibi sıfır hipotezi ile başlarlar, sonra bu hipotezi reddetmeye çalışırlar. Boş değerin asla doğru olmadığını ispatlayamayız, sadece reddedin, bu yüzden bu testler gerçekten aynı popülasyondan (veya aynı popülasyonlardan) 2 örneğin geldiğini göstermek için kullanılamaz.

Bunun nedeni, dağılımlarda küçük farklılıklar olabileceği (aynı olmadıkları anlamına gelir), ancak testlerin farkı bulamayacağı kadar küçüktür.

2 dağılım göz önüne alındığında, birincisi 0 dan 1 e kadardır, ikincisi 2 üniformanın bir karışımıdır, yani 1 0 ila 0,999 arasında ve ayrıca 1 9,999 ila 10 arasındadır (başka yerde 0). Açıkça, bu dağılımlar farklıdır (farkın anlamlı olup olmadığı başka bir sorudur), ancak her birinden 50 (örneğin 100) bir örneklem büyüklüğü alırsanız, yalnızca% 0'dan 0.999 ve Herhangi bir gerçek farkı görememek.

2 dağılımın / popülasyonun eşdeğer olup olmadığını sorduğunuzda denklik testi olarak adlandırılanları yapmanın yolları vardır, ancak eşdeğer olduğunu düşündüğünüzü tanımlamanız gerekir. Genellikle, belirli bir fark ölçüsünün belirli bir aralıkta olduğu, yani 2 araçtaki fark, 2 araç ortalamasının% 5'inden az veya KS istatistiği verilen bir kesinti altındadır. daha sonra fark istatistiği için bir güven aralığı hesaplayabilir (araçların farkı sadece güven aralığı olabilir, önyükleme, simülasyon veya diğer istatistikler için gerekli olabilir). Tüm güven aralığı "denklik bölgesi" ne düşerse, o zaman 2 popülasyon / dağılımın "eşdeğer" olduğunu düşünüyoruz.

Zor kısım, denklik bölgesinin ne olması gerektiğini bulmaktır.


2
Boş bir hipotez testi hiçbir zaman boş hipotez için kanıt sağlayamaz, doğru. Bununla birlikte, Bayesian veya bazı "kriterler" e (AIC, BIC) dayalı model seçimi, boş bir modelin (aynı dağılımlar) verilerin alternatif bir modelden (farklı dağıtım) daha iyi bir açıklaması olduğunu gösterebilir. Bütün bunlar elbette bir sürü varsayım altında.
A. Donda

6

http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

Örnek değerlerin sürekli dağılımlardan geldiğini varsayarak, Kolmogorov-Smirnov testini öneririm. İlişkili ampirik dağılımlara dayanarak iki örneğin farklı dağılımlardan gelip gelmediğini test etmek için kullanılır (bu, popülasyon kullanımınızı nasıl yorumluyorum).

Doğrudan Vikipedi'den:

Bu istatistiğin null dağılımı, numunelerin aynı dağılımdan çıkarıldığı null hipotezi altında hesaplanır (iki örneklemli durumda)

R'deki ks.test işlevi bu test için kullanılabilir.

En kestestin homojenliği test etmediği doğru olsa da, yeterince büyük bir örneklem büyüklüğü (yüksek güçlü bir test) ile reddetmemeniz durumunda, farklılıkların pratik olarak önemli olmadığını iddia edebileceğinizi iddia ediyorum. Farklılıklar varsa, muhtemelen anlamlı olmadıklarını (yine büyük örneklem büyüklüğü varsayılarak) çıkartabilirsiniz. Diğerlerinin doğru olarak söylediği gibi aynı popülasyondan olduklarını söyleyemezsiniz. Bütün bunlar söyleniyor, tipik olarak iki örneği benzerlik açısından sadece grafik olarak incelerdim.


6
KS testinin dağılım eşitliği göstermek için kullanılabileceğinden şüpheliyim.
Michael M

@MichaelMayer tam olarak doğru. OP, pek çok temel metodolojik sorunu olan bir homojenlik testi ile ilgileniyor. Heterojenlik KS ayrıca sorunları vardır: pratik olarak, bu olacak bakılmaksızın popülasyonları tüm yönleriyle pratik olarak aynı olup olmadığını büyük örneklerinde reddetmek. Sadece testlerin ve sonuç olarak p değerlerinin, istatistiksel büyüklükten ziyade örneklem büyüklüğü ölçüleri olarak algılandığını göstermektedir.
AdamO

@AdamO Evet, ancak büyük örnekleriniz varsa ve reddetmediğiniz takdirde, popülasyonların hemen hemen aynı olduklarından emin olabilirim. Bildiğim kadarıyla, bunu destekleyecek bir teori yok, ancak deneyime göre, heterojenlik için KS'nin büyük örneklem büyüklüğüyle dakika farklarını tespit edebileceğini bilmek, pratik olarak fiili bir fiil beyanı olarak başarısız bir büyük örnek testini kullanmanıza izin verebilir aynı topluluklar. Benim cevabım, "bu iki örneğin aynı popülasyondan alındığı istatistiksel olasılığı hesapla" sorusuna cevap veriyor mu? Kesinlikle değil.
Underminer

Puanlarım iki boyutlu ise ne yapabilirim ? Yani, iki boyutlu noktalardan iki örneğim var ve farklı dağılımlardan gelip gelmediklerini bilmek istiyorum.
becko

KS testi sadece önceden tanımlanmış bir dağıtıma karşı çalışır, verilerden hesaplanan parametrelerle yapılan bir dağılımdan değil.
qwr

2

Her dekilitede 2 dağılımın farklı olup olmadığını kontrol eden bir 'shift fonksiyonu' kullanabilirsiniz. Teknik olarak aynı değil, farklı popülasyonlardan olup olmadıklarının bir testi olsa da, dağılımlar herhangi bir dekar için farklılık göstermiyorsa, aynı zamanda özellikle grup büyüklükleri büyükse, aynı popülasyondan olduklarından emin olabilirsiniz.

Onların dağılımlarını bindirme ve birbirlerini benzerler görmek veya daha iyisi her gruptan bin önyükleme örneklerinin birkaç çizip çizmek: Ben de 2 gruplarını görselleştirmek ediyorum o bu size aynı gelen olmadığı hakkında bir fikir verecek şekilde, Özellikle söz konusu popülasyon size verilen değişken için normal dağılıma sahip değilse.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.