Dağılımlardaki farklılıkların önemini değerlendirme


22

İki veri grubum var. Her biri farklı değişkenlere sahip farklı dağılımlara sahip. Bu iki grubun dağılımının istatistiksel olarak anlamlı bir şekilde farklı olup olmadığını belirlemeye çalışıyorum. Veriler hem ham formda, hem de her birinde frekans sayıları olan ayrık kategorilerle uğraşmak için daha kolay toplandım.

Bu iki grubun önemli ölçüde farklı olup olmadığını belirlemek için hangi testleri / prosedürleri / yöntemleri kullanmalıyım ve bunu SAS veya R'de (veya Turuncu) nasıl yapabilirim?


2
Dağılımların farklı bir formda mı (ör. Normal, poisson vb.) Veya parametrelerin farklı mı (ör. Normal dağılımın ortalama veya sd) mi yoksa her ikisinde mi mi ilgilendiğiniz?
Jeromy Anglim

Yanıtlar:


15

Bunun iki örneklemli bir Kolmogorov Smirnov testi veya benzerini gerektirdiğine inanıyorum . İki örneklemli Kolmogorov-Smirnov testi, iki örneğin ampirik dağılım fonksiyonlarındaki (ECDF) farklılıkları karşılaştırmaya dayanmaktadır, bu iki numunenin hem konumuna hem de şekline duyarlı olduğu anlamına gelir. Aynı zamanda çok değişkenli bir forma genelleştirir.

Bu test R'de farklı paketlerde çeşitli formlarda bulunur, bu nedenle temel olarak yetkinseniz , yapmanız gereken tek şey bunlardan birini (örneğin fBasics ) yüklemek ve örnek verileriniz üzerinde çalıştırmaktır.


5
R ks.test için varsayılan "istatistik" paketini kullanarak KS testlerini ek paketler kurmadan gerçekleştirebilirsiniz.
russellpierce

SAS'ta KS testi mevcuttur proc npar1way. R'de, ek olarak ks.test(), nortestbirkaç başka ayarlama testi sağlayan bir paket vardır.
chl

8

Danışmanın aptal sorusunu soracağım. Bu dağılımların istatistiksel olarak anlamlı bir şekilde farklı olup olmadığını neden bilmek istiyorsunuz?

Kullanmakta olduğunuz verilerin popülasyonlardan veya işlemlerden temsili örnekler olduğu ve bu popülasyonların veya işlemlerin farklılık gösterdiğine dair kanıtları değerlendirmek istediğiniz mi? Eğer öyleyse, o zaman istatistiksel bir test sizin için doğru. Ama bu bana garip bir soru gibi görünüyor.

Yoksa, gerçeklerden bağımsız olarak, bu topluluklar veya süreçler farklıymış gibi davranmanız gerekip gerekmediğiyle ilgileniyor musunuz? O zaman, ideal olarak sizin için anlamlı olan birimleri döndüren ve (a) popülasyonları farklı olarak ele aldığınızda beklenen zararı öngören ve (b) aynı şekilde davrandığınızda, bir kayıp fonksiyonunu belirlemekten daha iyi olacaksınız. Veya az ya da çok muhafazakar bir pozisyon almak istiyorsanız, kayıp dağılımının bir miktarını seçebilirsiniz.


Ses tonunuz biraz garip ve küçümseyici ... ama haklısınız, sanırım gerçekte neyin peşindeyim, iki dağılımın aynı olduğunu varsayabileceğimin makul olup olmadığını düşündüm.
Jay Stevens,

3
Üzgünüm tonumu beğenmedin. İki dağıtımın aynı olduğunu makul bir şekilde kabul edebileceğinizi bilmek isteyip istemediğinizi bilmek istiyorsanız, KS sizi yanlış yönlendirecektir, çünkü iki dağılımın aynı olduğuna dair sıfır hipotezini test eder.
Andrew Robinson

5

Göreceli dağıtım yöntemlerini uygulamak ilginizi çekebilir. Bir gruba referans grubunu, diğer grubunu karşılaştırma grubunu arayın. Bir olasılık-olasılık grafiği oluşturmaya benzer bir şekilde, yoğunlukların bir oranı olan göreceli bir CDF / PDF oluşturabilirsiniz. Bu göreceli yoğunluk, çıkarım için kullanılabilir. Dağılımlar aynıysa, düzgün bir bağıl dağılım beklersiniz. Tekdüzelikten ayrılmaları keşfetmek ve incelemek için grafiksel ve istatistiksel araçlar vardır.

Daha iyi bir anlam elde etmek için iyi bir başlangıç ​​noktası R'de Göreceli Dağılma Yöntemleri ve R'de reldist paketi uygulamaktır. Ayrıntılar için , Handcock ve Morris'in Sosyal Bilimlerdeki Göreli Dağılım Yöntemleri kitabına bakmanız gerekir . İlgili teknikleri kapsayan yazarların bir makalesi de var .


2

İki dağıtım arasındaki farkın bir ölçüsü, bir Üreme Kernel Hilbert Uzayındaki (RKHS) iki dağıtımdan gelen numunelerin ampirik araçları arasındaki farkı temelde ölçen "maksimum ortalama tutarsızlık" kriterleridir. Bu makaleye bakınız "İki örnek problemi için bir çekirdek metodu" .


Bu yöntem, bence en sağlamdır ancak dağıtımınız için sonlu bir numuneye sahipseniz (ve dolayısıyla örnek dağılımlarınız tamamen sürekli değilse) eşit derecede iyi çalıştığı için iyi bilinmemektedir. Aynı zamanda KS testi için farkında olduğum kadar aktif bir araştırma olan multinom dağılımları ile de çalışıyor
www3

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.