Sayısal istatistiklerde rasgele sayı üretmenin bazı önemli kullanım alanları nelerdir?


15

Rasgele sayı üreteçleri (RNG'ler) hesaplama istatistiklerinde nasıl ve neden önemlidir?

Her iki hipoteze karşı önyargıdan kaçınmak için birçok istatistiksel test için örnek seçerken rasgeleliğin önemli olduğunu anlıyorum, ancak rasgele sayı üreticilerinin önemli olduğu diğer hesaplama istatistiklerinin alanları var mı?



1
Ne soruyorsun? Sorunuz gerçekten bir anlam ifade etmiyor.
Carl Witthoft

2
Onların olduğu yerlerde istemek için daha iyi olabilir değil önemli. Muhtemelen daha kısa bir liste olurdu.
John Coleman

2
Soru geniş ama başlık cazip ve Matthew'in cevabı hoş bir genel bakış. Yeniden açmaya oy verdim!
Benoit Sanchez

3
Bu, geleneksel SE standartlarına göre açıkça çok geniştir ve çoğu zaman zaten verilen cevapları çoğaltan çok sayıda küçük, zar zor ayrıntılı cevaplar oluşturabilecek bir 'büyük liste' sorusuna karşılık gelir. Ancak, burada gerçek bir değer var gibi görünüyor. Bunun için bir uzlaşma CW ve korunmalıdır. Gelecekte, ayrıntılı bir şekilde ve / veya daha önce belirtilen yinelenen kullanımlardan bahseden yanıtlar derhal ve yorumsuz olarak silinecektir.
gung - Monica'yı eski

Yanıtlar:


17

Çok, çok örnek var. Listelenecek çok fazla ve muhtemelen herkesin tamamen bilmesi için çok fazla (muhtemelen @whuber dışında, kim asla hafife alınmamalıdır).

Bahsettiğiniz gibi, kontrollü deneylerde , denekleri tedavi ve kontrol gruplarına rastgele ayırarak örneklem yanlılığından kaçınırız.

Gelen önyükleyebilir rastgele sabit bir numuneden değiştirme ile örnekleme yoluyla bir popülasyondan tekrar numune yaklaşmaktadır. Bu, diğer şeylerin yanı sıra tahminlerimizin varyansını tahmin etmemizi sağlar.

Gelen çapraz doğrulama rastgele dilimler halinde verilerimizi bölünmesi ve rastgele eğitim montaj ve setleri test ederek bir tahminin örnek hatasının out tahmin ediyoruz.

Gelen permütasyon test biz durumlarda geniş bir çeşitliliği içinde olmayan hipotez testleri gerçekleştirmek için izin boş hipotezi altında numuneye rastgele permütasyon kullanın.

Gelen torbalama biz defalarca antrenman verilerinin önyükleme numuneler üzerinde tahmini gerçekleştiren ve ardından sonuçlarının ortalaması alınarak bir tahminin değişimini nasıl kontrol.

Olarak rastgele orman daha ayrıntılı da rastgele olarak her karar noktası mevcut belirleyiciler numune bir tahminine varyansını kontrol eder.

Gelen simülasyon rastgele bir modelde geçerli kılmak uyum ve varsayımları yardım, eğitim veya test verilerine karşılaştırabilirsiniz yeni veri setleri oluşturmak için bir uygun modelini istiyoruz.

Gelen Markov zinciri Monte Carlo (Bu örnek için @Ben Bolker sayesinde) Markov zincir ile olası sonuç alan keşfederek, bir dağıtım örneği de.

Bunlar hemen akla gelen yaygın, günlük uygulamalardır. Derin kazmış olsaydım, bu listenin uzunluğunu iki katına çıkarabilirdim. Rasgelelik hem önemli bir çalışma nesnesidir hem de kullanmak için önemli bir araçtır.


Tüm bunlar doğrudur, ancak ana soruna değinmez: sonuçta ortaya çıkan herhangi bir yapıya veya dizideki öngörülebilirliğe sahip bir PRNG, simülasyonların başarısız olmasına neden olur.
Carl Witthoft

3
Bahsetmeyi hak eden şeylerden biri, çok sayıda rastgele veya sözde sayı üretmenin hesaplama ve bellek maliyetleridir. İstatistiklerdeki RNG'lerin bazı uygulamaları yüzlerce ila milyonlarca rastgele sayı gerektirir, ancak bazıları her iki maliyette de daha fazla büyüklük sırası gerektirir.
Alexis

5

Tüm bunlar doğrudur, ancak asıl sorunu ele almaz: sonuçta ortaya çıkan yapıya veya dizideki öngörülebilirliğe , simülasyonların başarısız olmasına neden olur. Carl Witthoft 31 Ocak, 15:51

Endişeniz bu ise, belki de sorunun başlığı "RNG seçiminin Monte Carlo sonuçları üzerindeki etkisi" veya bunun gibi bir şey olarak değiştirilmelidir. Bu durumda, zaten SE çapraz doğrulaması üzerinde düşünülmüş , bazı yönler

  • Kötü şöhretli RANDU gibi kötü tasarlanmış RNG'leri düşünüyorsanız , Monte Carlo yaklaşımını açıkça olumsuz etkileyeceklerdir. RNG'lerin eksikliklerini tespit etmek için Marsaglia's Diehard testleri . (Örneğin Park & ​​Miller (1988) Lehmer uyumlu jeneratörün 16807 faktörü ile kullanımının eksik olduğu , bunun yerine 47271 veya 69621 ile yer değiştirdiği bulunmuştur. Elbette bunun yerini Mersenne Twister PRNG gibi devasa dönem jeneratörleri almıştır .)
  • Bir matematik üzerine GD soru değilse, tahmin ve hassas (veya bunların eksikliği) çok faydalı bir yanıt etkisine ilişkin bir bağlantı sağlar.
  • Jeff Rosenthal (U Toronto) , (Monte Carlo) Markov zincirlerinin yakınsaması üzerinde bir RNG üzerindeki etkisini incelediği bir makaleye sahiptir, ancak bulamıyorum. Son zamanlarda blogumda RNG türünün görünür bir etkisi olmayan küçük bir deneme yaptım .
    • Bir yana, Ontario'da bir piyango düzeni , Kanadalı Toronto'dan bir istatistikçi Mohan Srivastava tarafından tespit edilen ve bu durumdan büyük bir kazanç elde etmek yerine Ontario Piyango ve Oyun Şirketi'ni bilgilendiren rastgele tasarlanmış rastgele nesil kullandı. mazgal.
  • Burada bir örnek klasik ağ simülatörü kötü varsayılan seçenek (yukarıdaki Park ve Miller bağlantılı) etkilenirse davanın.
  • Paralel hesaplamada kullanılan RNG'lerin yapısı ile ilgili belirli sorunlar vardır . Birkaç tohum kullanmak, özellikle doğrusal konjügasyonel jeneratörler için genellikle yeterli değildir. Bilgisayar literatüründe, Michael Mascagni'nin ölçeklenebilir paralel rasgele sayı üretme (SPRNG) paketleri (bir R versiyonu dahil) ve Matsumoto'nun dinamik yaratıcısı da dahil olmak üzere birçok yaklaşım bulunabilir. Mersenne twister kullanırken bağımsız akışlar için başlangıç ​​değerleri sağlayan bir C programı olan . Bu, SE yığını taşmasıyla da giderildi .
  • Geçen yıl bir konuşma gördüm tarafından Paula Whitlock yüksek boyut rastgele yürüyüşler yakınsama üzerine GNU Bilimsel Kütüphanesi etkisi hakkında, ancak olmuyor.
  • Hafif bir not sonuna kadar, orada da bazı literatür ile, yazılım ve donanım RNG'ler arasındaki ayrımı medyumlar sonradan etkileyebilir iddiaları !
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.