“Tüm bu veri noktaları aynı dağıtımdan geliyor.” Nasıl test edilir?


16

Bu konunun daha önce burada tartışıldığını gördüm ama özel bir şey bulamadım. Sonra tekrar, ne arayacağından da emin değilim.

Bir boyutlu sıralı veri setim var. Kümedeki tüm noktaların aynı dağılımdan çekildiğini varsayıyorum.

Bu hipotezi nasıl test edebilirim? "Bu veri setindeki gözlemler iki farklı dağılımdan alınmıştır" genel bir alternatifine karşı test etmek mantıklı mıdır?

İdeal olarak, "diğer" dağılımdan hangi noktaların geldiğini belirlemek istiyorum. Verilerim sipariş edildiğinden, bir şekilde verileri kesmek için "geçerli" olup olmadığını test ettikten sonra bir kesme noktası tanımlamaktan kurtulabilir miyim?

Düzenleme: Glen_b'in cevabına göre, kesinlikle olumlu, unimodal dağılımlarla ilgilenirim. Ayrıca bir dağıtım varsaymak ve daha sonra farklı parametreler için test özel durumla ilgilenirim .


"Aynı dağıtım" ile ne demek istiyorsun? Gama gözlemleri aynı dağılımdan mı geliyor yoksa üstel dağılımların toplamı mı olarak kabul ediliyor?
Metariat

+1 bu kendinize sormanız için gerçekten iyi bir soru.
user541686

@Metallica, her gözlem üstel bir toplam olduğu sürece , aynı dağıtımdan olduklarını söyleyebilirim
shadowtalker

@Mehrdad Lisans derecemin ötesinde resmi istatistik eğitimim yok ve ustalarımda birkaç çeşitli ders var. Cevap geçmişime bakarsanız, doğrusal regresyon hakkında çok şey bildiğim ve başka bir şey hakkında çok şey bilmediğim açıktır 🤐
shadowtalker

2
Bu soruya yaklaşmanın olası bir yolu, örneğin bazı dağıtım sınıflarının sonlu bir karışımını düşünmek ve verilerinizi iyi tanımlamak için 1'den fazla karışım bileşenine ihtiyacınız olup olmadığını görmek. Bununla birlikte, soru, "sıfır hipotezinizi" tek bir karışım bileşeniyle tanımlamak için yeterince esnek bir dağılım sınıfı olup olmadığıdır (örneğin, gama dağılımlarının sonlu bir karışımını kullanırsanız, bunlar çarpıklık veya kuyruk açısından esnek olmayabilir ne yapmaya çalıştığınıza bağlı olarak davranış), çok bileşenli bir karışım olarak potansiyel alternatifi içerir.
Björn

Yanıtlar:


29

İki senaryo düşünün:

  1. veri noktalarının hepsi aynı dağılımdan alınmıştır - bir tanesi tek tip olan (16,36)

  2. veri noktaları iki popülasyondan oluşan 50-50'lik bir karışımdan alınmıştır:

    a. bu şekilde şekillenen A nüfusu:

resim açıklamasını buraya girin

b. nüfus B, şu şekilde şekillendirilir:

resim açıklamasını buraya girin

... ikisinin karışımı tam olarak 1'deki gibi görünür.

Nasıl ayrılabilirlerdi?

İki popülasyon için hangi şekli seçerseniz seçin, her zaman aynı şekle sahip tek bir nüfus dağılımı olacaktır. Bu argüman, genel dava için bunu yapamayacağınızı açıkça göstermektedir . Farklılaşmanın olası bir yolu yok.

Popülasyonlar hakkında bilgi verirseniz (etkili bir şekilde varsayımlar), genellikle devam etmenin yolları olabilir *, ancak genel durum öldü.

* örneğin, popülasyonların sabit olmadığını ve yeterince farklı araçlara sahip olduğunuzu varsayarsanız, bir yere gidebilirsiniz

[Soruya eklenen kısıtlamalar, yukarıda tarif ettiğim sorunun türünün farklı bir versiyonundan kaçınmak için yeterli değil - yine de pozitif yarım çizgiye, iki unimodal dağılımın 50-50 karışımı olarak unimodal null yazabiliriz. pozitif yarı yolda. Elbette daha spesifik bir null değeriniz varsa, bu çok daha az sorun haline gelir. Alternatif olarak, bazı karışım alternatiflerine karşı test edene kadar alternatif sınıfını daha da kısıtlamak mümkün olmalıdır. Veya null ve alternatiflere, onları ayırt edilebilir kılacak bazı ek kısıtlamalar uygulanabilir.]


1
Teşekkürler, çok iyi örnek. Yani alternatif hipotezi uygun şekilde kısıtlamak doğru değil mi?
shadowtalker

@ssdecontrol evet, özünde; (varsayımlar dikkate alındığında) alternatifin sıfırdan ayırt edilebilir olması durumunda, önem seviyenizden daha yüksek bir güce sahip bir test umudunuz vardır.
Glen_b

0

Açıkçası dağıtım (lar) ve test etmek için hipotezler hakkında konuşmak için bazı teorilere sahip olmanız gerekir. Bir veya daha fazla gruptaki özneleri gruplayan bir şey ve ayrılacak ölçümleri yapan bir şey.

Oraya nasıl gidebilirsin? Üç seçenek görüyorum:

  • Eğer konunuzdan zaten biliyorsanız, o zaman sadece istatistiksel hipotez diline çevirmeniz gerekir
  • Grafikleri çizin ve test etmek için hipotez olmak için kalıpları tanımak
  • Sığabileceğiniz dağıtımların bir listesi ile gelin ve matematiksel bir deney yapın. Olasılıksal programlama burada anahtar kelimedir

Bu alıştırma, numunenizde temsil edilen bir veya daha fazla grup veya sadece bir tane olduğu sonucuna varmanızı sağlar. Ya da hiç grup yok.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.