Büyük bir genel veri kümesinden temsili örnek seti nasıl yapılır?

10

Tüm popülasyonu temsil eden (bilinen bir güven düzeyi ile) örnek bir set oluşturmak için istatistiksel teknikler nelerdir?

Ayrıca,

Örnek genel veri kümesine uyuyorsa nasıl doğrulanır?
Tüm veri kümesini ayrıştırmadan (milyarlarca kayıt olabilir) mümkün müdür?

sampling sample-size validation

— Mohit Ranka
kaynak

8

Tüm veri kümesini ayrıştırmak istemiyorsanız, muhtemelen katmanlı örnekleme kullanamazsınız , bu yüzden büyük bir basit rastgele örnek almanızı öneririm . Rastgele bir örnek alarak , numunenin ortalama olarak tüm veri kümesini temsil etmesini ve standart hatalar ve güven aralıkları gibi standart istatistiksel hassasiyet ölçümlerinin örnek tahminlerinizin popülasyon değerlerinin ne kadar uzakta olabileceğini size bildirmesini sağlarsınız. Bu nedenle, rastgele örneklenen bazı endişeleriniz olmadığı sürece bir örneğin popülasyonu temsil ettiğini doğrulamaya gerek yoktur.

Basit bir rastgele örnek ne kadar büyük? Örnek ne kadar büyük olursa, tahminleriniz o kadar kesin olur. Verilere zaten sahip olduğunuzdan, geleneksel örnek boyutu hesaplamaları gerçekten geçerli değildir - veri kümenizin hesaplama için pratik olduğu kadar da kullanabilirsiniz. Hesaplama süresini bir sorun haline getirecek bazı karmaşık analizler yapmayı planlamıyorsanız, basit bir yaklaşım, basit rastgele örneği, disk belleği oluşturmadan PC'nizde analiz edilebilecek kadar büyük hale getirmek olacaktır.veya diğer bellek sorunları. Veri kümenizin boyutunu, bilgisayarınızın RAM'inin yarısından fazlasını sınırlamayacak şekilde ayarlamak için bir kural, böylece işletim sistemi ve işletim sistemi için alan bırakmak ve belki de birkaç küçük uygulama (bir düzenleyici ve bir web tarayıcısı gibi) ). Başka bir sınırlama, 32 bit Windows işletim sistemlerinin herhangi bir uygulamanın adres alanının daha büyük olmasına izin vermemesidir. $2^{31}$ bytes = 2.1GB, yani 32 bit Windows kullanıyorsanız, 1 GB veri kümesinin boyutu için makul bir sınır olabilir.

Bu durumda, her bir gözlem için kaç değişkeniniz ve her bir değişkenin kaç bayt kapladığı göz önüne alındığında, kaç gözlemin örneklenebileceğini hesaplamak basit bir aritmetik meselesidir.

— bir durak
kaynak

Cevabınız için teşekkürler. Sanırım tabakalı örnekleme arıyorum. (Temsili bir set yapmak için tüm popülasyonu ayrıştırmadığı için hesaplama açısından çok pahalı olmayan algoritmalar arıyordum, mantıklı bile değil. :-))

— Mohit Ranka

2

İlk olarak ikinci sorunuzda, "veriler nasıl girildi?" Verilerin nispeten keyfi bir şekilde girildiğini düşünüyorsanız (yani, verileri kullanarak nihai analizinizi etkileyebilecek gözlemlerinizin gözlemlenebilir veya gözlemlenemeyen özelliklerinden bağımsız olarak), o zaman ilk 5 milyonu düşünebilirsiniz. birçoğu, tam numuneyi temsil eden ve çalışabileceğiniz bir örnek oluşturmak için bu gruptan rastgele seçerek rahatça çalışabilirsiniz.

İki ampirik dağılımı karşılaştırmak için qq-plots ve iki örnekli Kolmogorov – Smirnov parametrik olmayan testi kullanarak dağılımlardaki farklılıklar için kullanabilirsiniz (bkz. Örneğin: http://en.wikipedia.org/wiki/Kolmogorov%E2 % 80% 93Smirnov_test ). Bu durumda, numunenizdeki her değişkenin dağılımını "tam" veri kümenizdeki değişkenin dağılımına karşı test edersiniz (yine, tam örneğinizden sadece 5 milyon gözlem olabilir). KS testi düşük güçten muzdarip olabilir (yani, gruplar arasında fark olmayan sıfır hipotezini reddetmek zordur), ancak bu kadar çok gözlemle iyi olmalısınız.

— Charlie
kaynak