IID örnekleme testi


16

Örneklemenin IID (Bağımsız ve Özdeş Dağıtılmış) olup olmadığını nasıl test eder veya kontrol edersiniz? Gauss ve Özdeşçe Dağıtılmış demek istemiyorum, sadece IID.

Ve aklıma gelen fikir, numuneyi tekrar tekrar eşit büyüklükte iki alt numuneye ayırmak, Kolmogorov-Smirnov testini yapmak ve p-değerlerinin dağılımının düzgün olup olmadığını kontrol etmektir.

Bu yaklaşım hakkında herhangi bir yorum ve herhangi bir öneri bekliyoruz.

Ödül başladıktan sonra açıklama: Zaman serisi olmayan verilere uygulanabilecek genel bir test arıyorum.


Zaman serisi verileri mi?
danas.zuokas

@ gui11aume "göz küresi" testini denediniz mi? Yani, verileri çizin ve IID görünüp görünmediğine bakın.
Makro

Yapmadım. Ne demek istediğinizden emin değilim: değerleri geldikleri sırayla çizin (muhtemelen rastgele)? Ve sonra çarpıcı paternin olmadığını kontrol edin?
gui11aume


1
Afedersiniz. Aşağıdaki çalışma testini aklımdaydım : apprendre-en-ligne.net/random/run.html (ama bu Fransızca olarak yazılmıştır)
Stéphane Laurent

Yanıtlar:


15

Verilerin IID olup olmadığı hakkında sonuçlandırdığınız şey, verilerin kendisinden değil, dış bilgilerden gelir. Bilim insanı olarak, verilerin nasıl toplandığına ve diğer dış bilgilere dayanarak veri IID'yi almanın makul olup olmadığını belirlemeniz gerekir.

Bazı örnekleri ele alalım.

Senaryo 1: 2 normalin bir karışımı olan tek bir dağılımdan bağımsız olarak bir veri kümesi üretiriz.

Senaryo 2: Önce bir binom dağılımından bir cinsiyet değişkeni üretiyoruz, daha sonra erkekler ve kadınlar içinde bağımsız bir şekilde normal bir dağılımdan veri üretiyoruz (ancak normaller erkekler ve kadınlar için farklıdır), sonra cinsiyet bilgilerini siler veya kaybederiz.

Senaryo 1'de veriler IID'dir ve senaryo 2'de veriler açıkça aynı şekilde dağıtılmamıştır (erkekler ve kadınlar için farklı dağılımlar), ancak 2 senaryo için 2 dağılımlar verilerden ayırt edilemez, verilerin nasıl olduğu hakkında bilgi sahibi olmalısınız farkı belirlemek için oluşturuldu.

Senaryo 3: Şehrimde yaşayan insanların basit rastgele örneklerini alıp bir anket yürütüyorum ve sonuçları şehirdeki tüm insanlar hakkında çıkarımlarda bulunmak için analiz ediyorum.

Senaryo 4: Şehrimde yaşayan insanların basit bir rastgele örneğini alıp bir anket yürütüyorum ve sonuçları ülkedeki tüm insanlar hakkında çıkarımlarda bulunmak için analiz ediyorum.

Senaryo 3'te denekler bağımsız kabul edilir (ilgilenilen nüfusun basit rastgele örneği), ancak 4. senaryoda bağımsız olarak kabul edilmezler çünkü ilgilenilen nüfusun küçük bir alt kümesinden seçildiler ve coğrafi yakınlık büyük olasılıkla bağımlılık. Ancak 2 veri kümesi aynıdır, bu durumda bağımsız veya bağımlı olup olmadıklarını belirleyen verileri kullanmak niyetindedir.

Bu nedenle, verilerin IID olduğunu, grafiklerin ve diğer teşhislerin bazı IID olmayan türleri gösterebileceğini göstermek için sadece verileri kullanarak test etmenin bir yolu yoktur, ancak bunların olmaması verilerin IID olduğunu garanti etmez. Belirli varsayımlarla da karşılaştırabilirsiniz (normal IID'nin çözülmesi sadece IID'den daha kolaydır). Herhangi bir test hala sadece bir kural dışıdır, ancak testlerin reddedilmemesi, bunun IID olduğunu asla kanıtlamaz.

IID koşullarının geçerli olduğunu varsaymak isteyip istemediğinize ilişkin kararlar, verilerin nasıl toplandığı, diğer bilgilerle nasıl ilişkili olduğu ve nasıl kullanılacağı bilimi temelinde yapılmalıdır.

Düzenlemeler:

İşte özdeş olmayanlar için başka bir örnek set.

Senaryo 5: Veriler, heteroscedastisitenin olduğu (varyanslar eşit değildir) bir gerilemeden kalıntılardır.

Senaryo 6: Veriler, ortalama 0, ancak farklı varyanslar içeren bir normal karışımından alınmıştır.

Senaryo 5'te, artıkları uygun değerlere veya diğer değişkenlere (öngörücüler veya potansiyel öngörücüler) karşı koyarsak artıkların aynı şekilde dağıtılmadığını açıkça görebiliriz, ancak artıkların kendileri (dış bilgi olmadan) senaryo 6'dan ayırt edilemez olacaktır.


Özellikle bu cevabın ilk kısmı bana biraz karışık (ya da kafa karıştırıcı) geliyor. IID olmak iyi tanımlanmış olan matematiksel özelliği a rastgele değişkenlerin sonlu grubu . İkinci durumda rastgele değişkenler "cinsiyet bilgilerini kaybettikten sonra" elde edilirse senaryo 1 ve 2 aynıdır . Her iki durumda da iid!
kardinal

GregSnow İddianıza tamamen katılmıyorum. Verilerin, aynı şekilde dağıtılmış rastgele değişkenler dizisinden geldiğini biliyor olabilirsiniz. Hangi modeli ürettiğini tam olarak bilmiyorsunuz. Bağımsız olarak üretilebilirler veya dönüşümlü olarak sabit bir zaman serisinden gelebilirler. Durumun hangisi olduğuna karar vermek için, aynı dağılımın normal olduğunu bildiğinizi varsayalım. Sonra iki olabilirlik sabit bir dizinin kategoriye giren ve sadece tüm sıfırdan farklı gecikme otokorelasyonlar Görmek teste mükemmel makul 0'a ise o iid olacaksa korelasyon
Michael R. Chernick

2
@cardinal, yani senaryo 2'deki verilerin cinsiyet bilgilerini kaybetmeden önce aynı şekilde dağıtılmadığını kabul ediyor musunuz? Dolayısıyla, aynı olmadıkları bir durumumuz olurdu, ancak farkı anlatmanın tek yolu, bakılan değişkenin dışındaki bilgileri kullanmaktır (bu durumda cinsiyet). Evet, IID olmak iyi tanımlanmış bir matematiksel özelliktir, ancak bir tamsayıdır, veri noktası 3'ün kayan nokta numarası olarak depolanan bir tam sayı mı yoksa geldiği yer hakkında dış bilgiler olmadan yuvarlanmış bir sürekli değer mi olduğunu test edebilirsiniz. dan.
Greg Snow

2
Yani söylediğiniz şey, değişkenlerde bazı ek bilgiler olabileceğidir ZXiXj,ijXi|ZXj|ZZZ

Ancak yukarıda söylediklerinizin tümü, sadece verilerin kendisi değil, verilerin nasıl toplandığı / üretildiği ile ilgili bilgileri kullanır. Ve bize, uzamsal korelasyon veya diğer bağımsızlık türleri hakkında hiçbir şey söylemeyen zaman serisi otokorelasyon olmadığını destekleyen verilerimiz olsa bile. Mümkün olan her türlü bağımlılığı gerçekten test edebilir ve anlamlı sonuçlar alabilir miyiz? veya hangi testlerin anlamlı olma olasılığının yüksek olduğunu belirlemek için verilerin nasıl toplandığı hakkında bilgi mi kullanmalıyız?
Greg Snow

5

Verilerin bir dizin sıralaması varsa, zaman serileri için beyaz gürültü testlerini kullanabilirsiniz. Aslında bu, sıfır olmayan tüm gecikmelerdeki otokorelasyonların 0 olduğunu test etmek anlamına gelir. Bu, bağımsızlık bölümünü ele alır. Bence yaklaşımınız esas olarak varsayımın aynı şekilde dağıtılmış kısmına değinmeye çalışıyor. Sanırım yaklaşımınızla ilgili bazı sorunlar var. Tekdüzeliği test etmek için yeterli p-değeri elde etmek için çok sayıda bölünmeye ihtiyacınız olduğunu düşünüyorum. Sonra her KS testi güç kaybeder. Veri kümesinin bölümlerinde çakışan bölünmeler kullanıyorsanız, testler ilişkilendirilecektir. Az sayıda bölünme ile tekdüzelik testi güçten yoksundur. Ancak birçok bölünmede üniformite testi güçlü olabilir, ancak KS testleri olmaz. Ayrıca bu yaklaşımın değişkenler arasındaki bağımlılığın tespit edilmesine yardımcı olmadığı görülmektedir.

@ gu11aume Zaman dışındaki seriler için genel bir testle ne istediğinden emin değilim. Uzamsal veriler, bir tür zaman dışı seri veri sağlar. Orada variogram adı verilen işleve bakılabilir. Tek boyutlu sekanslar için, zamana göre sıralanmış sekanslar ile veri siparişi vermenin başka herhangi bir yolu arasında pek bir fark görmüyorum. Bir otokorelasyon fonksiyonu hala tanımlanabilir ve test edilebilir. Örneklemede bağımsızlığı test etmek istediğinizi söylediğinizde, örneklerin toplandığı bir siparişiniz olduğunu düşünüyorum. Bence tüm 1 boyutlu vakalar aynı şekilde çalışıyor.


2
(+1) bu düşündüğüm şeydi ama Re: "Verilerin bir dizin sırası varsa zaman serisi için beyaz gürültü testlerini kullanabilirsiniz. Aslında bu, sıfır olmayan tüm gecikmelerdeki otokorelasyonların 0 olduğunu test etmek demektir." - bu mantık yalnızca sabit bir zaman serisiyle uğraşırken geçerlidir, değil mi? Aksi takdirde, gecikmeli korelasyonlar hakkında yanıltıcı sonuçlar alabilirsiniz. Örneğin, zaman serisinin yalnızca "daha sonra" kısmı otomatik olarak ilişkilendirilseydi ne olur?
Makro

1
@ Makro Bu OP ile ilgili sorunuza dayanarak aklınızda olan şey olduğunu düşündüm. Ama buna işaret etmesini beklemenin gerekli olduğunu düşünmüyordum. Bağımsızlık ararken geçerlidir. Ama ne demek istediğini anlıyorum. Uygulamada sadece ilk k gecikmelerini kontrol edersiniz. Eğer seri sabit olsaydı, korelasyonlar k ile düşecekti fakat durağan olmayan seriler için böyle olmayacaktı. En azından teoride durağan olmayan bir seri için büyük gecikmelerdeki korelasyonu kaçırırsınız.
Michael R.Chernick

2
sabit olmayan bir zaman serisi için otokorelasyona gecikmenin bir fonksiyonu olarak bakmak bile mantıklı olmayabilir. EğercÖr(yt,ys)=f(s,t) ve f(s,t) sadece bir fonksiyonu değil |s-t|öyleyse her türlü tuhaf şey, öyle davranarak gerçekleşebilir. Gerçekten sadece zaman serisinin sabit olmadığını bildiğiniz dava için herhangi bir fikriniz olup olmadığını soruyorum
Macro

Cevabınız için teşekkürler Michael! Haklısınız: verinin bir zaman serisi olması durumunda, otomatik korelasyonu kontrol etmek en iyi yaklaşımdır. Bölünmüş KS yaklaşımını eleştirmene gelince, bir noktan da var. Yani, hala (zaman serisi olmayan) genel durumda hiçbir test yapılmadan kaldı.
gui11aume

2
İlk sıfır olmayan otokorelasyon 60 gecikme ve sadece 60'ın diğer katlarındadır. Zaman serisinin uzunluğu 55 ise, iki nokta 60 gecikmeyi bile gözlemleyemeyiz. Sowe, lag 60 korelasyonunun 0 olup olmadığını kontrol edemez. Serinin uzunluğu 65 ise, gecikme 60 korelasyonunu tahmin edebiliriz, ancak sadece 5 gecikme 60 çiftine dayanabiliriz. Dolayısıyla, tahminin varyansı büyüktür ve bu sıfır olmayan korelasyonu tespit etme gücümüz olmayacaktır.
Michael R.Chernick
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.