Tüm veri kümesini ayrıştırmak istemiyorsanız, muhtemelen katmanlı örnekleme kullanamazsınız , bu yüzden büyük bir basit rastgele örnek almanızı öneririm . Rastgele bir örnek alarak , numunenin ortalama olarak tüm veri kümesini temsil etmesini ve standart hatalar ve güven aralıkları gibi standart istatistiksel hassasiyet ölçümlerinin örnek tahminlerinizin popülasyon değerlerinin ne kadar uzakta olabileceğini size bildirmesini sağlarsınız. Bu nedenle, rastgele örneklenen bazı endişeleriniz olmadığı sürece bir örneğin popülasyonu temsil ettiğini doğrulamaya gerek yoktur.
Basit bir rastgele örnek ne kadar büyük? Örnek ne kadar büyük olursa, tahminleriniz o kadar kesin olur. Verilere zaten sahip olduğunuzdan, geleneksel örnek boyutu hesaplamaları gerçekten geçerli değildir - veri kümenizin hesaplama için pratik olduğu kadar da kullanabilirsiniz. Hesaplama süresini bir sorun haline getirecek bazı karmaşık analizler yapmayı planlamıyorsanız, basit bir yaklaşım, basit rastgele örneği, disk belleği oluşturmadan PC'nizde analiz edilebilecek kadar büyük hale getirmek olacaktır.veya diğer bellek sorunları. Veri kümenizin boyutunu, bilgisayarınızın RAM'inin yarısından fazlasını sınırlamayacak şekilde ayarlamak için bir kural, böylece işletim sistemi ve işletim sistemi için alan bırakmak ve belki de birkaç küçük uygulama (bir düzenleyici ve bir web tarayıcısı gibi) ). Başka bir sınırlama, 32 bit Windows işletim sistemlerinin herhangi bir uygulamanın adres alanının daha büyük olmasına izin vermemesidir.231 bytes = 2.1GB, yani 32 bit Windows kullanıyorsanız, 1 GB veri kümesinin boyutu için makul bir sınır olabilir.
Bu durumda, her bir gözlem için kaç değişkeniniz ve her bir değişkenin kaç bayt kapladığı göz önüne alındığında, kaç gözlemin örneklenebileceğini hesaplamak basit bir aritmetik meselesidir.