Verilerin IID olup olmadığı hakkında sonuçlandırdığınız şey, verilerin kendisinden değil, dış bilgilerden gelir. Bilim insanı olarak, verilerin nasıl toplandığına ve diğer dış bilgilere dayanarak veri IID'yi almanın makul olup olmadığını belirlemeniz gerekir.
Bazı örnekleri ele alalım.
Senaryo 1: 2 normalin bir karışımı olan tek bir dağılımdan bağımsız olarak bir veri kümesi üretiriz.
Senaryo 2: Önce bir binom dağılımından bir cinsiyet değişkeni üretiyoruz, daha sonra erkekler ve kadınlar içinde bağımsız bir şekilde normal bir dağılımdan veri üretiyoruz (ancak normaller erkekler ve kadınlar için farklıdır), sonra cinsiyet bilgilerini siler veya kaybederiz.
Senaryo 1'de veriler IID'dir ve senaryo 2'de veriler açıkça aynı şekilde dağıtılmamıştır (erkekler ve kadınlar için farklı dağılımlar), ancak 2 senaryo için 2 dağılımlar verilerden ayırt edilemez, verilerin nasıl olduğu hakkında bilgi sahibi olmalısınız farkı belirlemek için oluşturuldu.
Senaryo 3: Şehrimde yaşayan insanların basit rastgele örneklerini alıp bir anket yürütüyorum ve sonuçları şehirdeki tüm insanlar hakkında çıkarımlarda bulunmak için analiz ediyorum.
Senaryo 4: Şehrimde yaşayan insanların basit bir rastgele örneğini alıp bir anket yürütüyorum ve sonuçları ülkedeki tüm insanlar hakkında çıkarımlarda bulunmak için analiz ediyorum.
Senaryo 3'te denekler bağımsız kabul edilir (ilgilenilen nüfusun basit rastgele örneği), ancak 4. senaryoda bağımsız olarak kabul edilmezler çünkü ilgilenilen nüfusun küçük bir alt kümesinden seçildiler ve coğrafi yakınlık büyük olasılıkla bağımlılık. Ancak 2 veri kümesi aynıdır, bu durumda bağımsız veya bağımlı olup olmadıklarını belirleyen verileri kullanmak niyetindedir.
Bu nedenle, verilerin IID olduğunu, grafiklerin ve diğer teşhislerin bazı IID olmayan türleri gösterebileceğini göstermek için sadece verileri kullanarak test etmenin bir yolu yoktur, ancak bunların olmaması verilerin IID olduğunu garanti etmez. Belirli varsayımlarla da karşılaştırabilirsiniz (normal IID'nin çözülmesi sadece IID'den daha kolaydır). Herhangi bir test hala sadece bir kural dışıdır, ancak testlerin reddedilmemesi, bunun IID olduğunu asla kanıtlamaz.
IID koşullarının geçerli olduğunu varsaymak isteyip istemediğinize ilişkin kararlar, verilerin nasıl toplandığı, diğer bilgilerle nasıl ilişkili olduğu ve nasıl kullanılacağı bilimi temelinde yapılmalıdır.
Düzenlemeler:
İşte özdeş olmayanlar için başka bir örnek set.
Senaryo 5: Veriler, heteroscedastisitenin olduğu (varyanslar eşit değildir) bir gerilemeden kalıntılardır.
Senaryo 6: Veriler, ortalama 0, ancak farklı varyanslar içeren bir normal karışımından alınmıştır.
Senaryo 5'te, artıkları uygun değerlere veya diğer değişkenlere (öngörücüler veya potansiyel öngörücüler) karşı koyarsak artıkların aynı şekilde dağıtılmadığını açıkça görebiliriz, ancak artıkların kendileri (dış bilgi olmadan) senaryo 6'dan ayırt edilemez olacaktır.