İstatistiksel rastgelelik ile ilgili bazı sorular


15

Gönderen Wikipedia'nın istatistik randoness :

Küresel rastgelelik ve yerel rastgelelik farklıdır. Çoğu felsefi rastgelelik kavramı küreseldir çünkü belirli alt sıralar rastgele görünmese bile "uzun vadede" bir sıralamanın gerçekten rastgele göründüğü fikrine dayanırlar. Örneğin, yeterli uzunlukta sayıların "gerçekten" rasgele bir sayı dizisinde, sıfırdan başka hiçbir şeyin uzun dizilerinin olması muhtemeldir, ancak bütün olarak dizi rastgele olabilir. Lokal rasgelelik, rasgele dağılımların yaklaştığı minimum dizi uzunluklarının olabileceği fikrini ifade eder.Aynı basamakların uzun uzantıları, hatta "gerçekten" rasgele süreçler tarafından üretilenler bile, bir numunenin "yerel rasgeleliğini" azaltacaktır (sadece 10.000 basamaklı sekanslar için yerel olarak rasgele olabilir; 1000'den az sekans almak rastgele görünmeyebilir örneğin).

Bir patern sergileyen bir sekansın istatistiksel olarak rastgele olmadığı kanıtlanmamıştır. Ramsey teorisinin ilkelerine göre, yeterince büyük nesneler mutlaka belirli bir alt yapı içermelidir ("tam bozukluk imkansız").

İki cümlenin anlamını kalın harflerle anlamıyorum.

  1. İlk cümle, bir şeyin bir diziyi daha uzun bir uzunlukta yerel rasgele yapar, daha kısa bir sürede yerel rasgele değil mi anlamına gelir?

    Parantez içindeki örnek nasıl çalışır?

  2. İkinci cümle, bir örüntü sergileyen bir dizinin istatistiksel olarak rastgele olmadığı kanıtlanamaz mı? Neden?

Teşekkürler


1
iyi soru. Bu metni kendimi biraz şaşırtan buluyorum. Bir dizinin rastgele olup olmadığı nasıl üretildiğiyle ilgili olduğunu düşünürdüm; sonucun ne olduğu değil. Burada dilsel bir sorun olduğundan şüpheleniyorum - benim için rastgele bunun nasıl oluştuğu anlamına geliyor; sağduyu için (ve muhtemelen daha az açık düşünen filozoflar?) düzensiz görünen bir şeyle mi ilgili?
Peter Ellis

3
@Peter, sadece üretim mekanizmasına atıfta bulunabiliyorsanız rasgeleliği tanımlamakta bile zorlanabilirsiniz . Nihayetinde, rastgele dizilerin tüm faydaları içerdikleri sayılarda olduğu için - ve bu sayıların nasıl üretildiklerinde değil - rasgeleliği sadece diziler açısından tanımlamanın ve test etmenin bir yolu olmalı, değil mi?
whuber

1
Kesinlikle, tesadüfiyeti kanıtlamak istemeden, tesadüfün makul olması için sonuçlarından rastgele test edebileceğinizi kabul ediyorum. Muhtemelen nesle dayalı bir tanımın felsefi zorlukları üzerine biraz daha okuma ve düşünme yapmam gerekiyor.
Peter Ellis

Bence rastgelelik sadece bilinmeyenle eşanlamlıdır. Ben de bu cümleyi buluyoruz
probabilityislogic

Yanıtlar:


15

Kavram, bazı yürütülebilir kodlarla düzgün bir şekilde gösterilebilir. R10.000 sıfır ve bir dizi oluşturmak için iyi bir sözde rastgele sayı üreteci kullanarak başlıyoruz :

set.seed(17)
x <- floor(runif(10000, min=0, max=2))

Bu bazı temel rasgele sayı testlerinden geçer. Örneğin, bir t-testi için ortalama Karşılaştırma olan bir p-değeri vardır 40.09 bize sistem sıfır ve birleri eşit olasılıkla olduğu hipotezini kabul sağlar%.1/240.09

Bu rakamlardan , 5081st değerinden başlayarak ardışık değerin bir alt dizisini çıkarmaya devam ediyoruz :1000

x0 <- x[1:1000 + 5080]

Bunlar rastgele görünecekse, aynı rastgele sayı testlerini de geçmelidirler. Örneğin, ortalamalarının 1/2 olup olmadığını test edelim:

> t.test(x0-1/2)

    One Sample t-test

data:  x0 - 1/2 
t = 2.6005, df = 999, p-value = 0.009445
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 0.01006167 0.07193833 
sample estimates:
mean of x 
    0.041 

Düşük p değeri (% 1'den az), ortalamanın 1 / 2'den önemli ölçüde daha yüksek olduğunu gösterir . Gerçekten de, bu alt dizinin kümülatif toplamının güçlü bir artış eğilimi vardır:1/2

> plot(cumsum(x0-1/2))

Random walk?

Bu rastgele bir davranış değil!

Orijinal dizinin (kümülatif toplam olarak çizilen) bu alt diziyle karşılaştırılması neler olduğunu ortaya çıkarır:

Random walk

Uzun sekans aslında - olması gerektiği gibi - rastgele bir yürüyüş gibi davranır, ancak çıkardığım belirli alt sekans , aynı uzunlukta tüm alt sekanslar arasında en uzun yukarı doğru artışı içerir. Görünüşe göre "rasgele olmayan" davranış sergileyen diğer alt dizileri de çıkartabilirdim, örneğin civarında ortalanmış bir dizide arka arkaya yaklaşık 20 tane ortaya çıktı!9000


Bu basit analizlerin gösterdiği gibi, hiçbir test bir dizinin rastgele göründüğünü "kanıtlayamaz". Tek yapabileceğimiz dizileri olduklarını teklif delil rastgele dizilerinin beklenen davranışlardan yeterince sapma olmadığını testtir değil rastgele. Rastgele sayı testlerinin pilleri şu şekilde çalışır: rastgele sayı dizilerinde ortaya çıkması muhtemel olmayan kalıpları ararlar. Uzun bir süre sonra, gerçekten rastgele bir sayı dizisinin rastgele görünmediği sonucuna varmamıza neden olacaklar: başka bir şeyi denemeyi reddedeceğiz.

Uzun vadede - tıpkı hepimizin öldüğü gibi - herhangi bir gerçekten rasgele sayı üreteci mümkün olan her 1000 basamak dizisini üretecek ve bunu sonsuza kadar defalarca yapacak. Bizi mantıklı bir sorundan kurtaran şey, böyle belirgin bir sapmanın meydana gelmesi için çok uzun bir süre beklemek zorunda olduğumuzdur.


Teşekkürler! İlgili bir soru: bazı yöntemlerle üretilen sahte rasgele sayıların rasgeleliğini test ederken, rasgelelik düzgün dağılım anlamına mı geliyor? Başka bir deyişle, rasgelelik testi sadece tek tip dağılımları test etmek için mi? Bunu sordum, çünkü bu daha önyargılı dağılımlar sezgisel olarak bana daha az rastlantısal geliyor.
Tim

@Tim: hayır, Gauss rastgeleliği için birçok yaygın test vardır ve herhangi bir dağıtım için testler yapmak mümkün olmalıdır.
naught101

1
[0,1)

2
Neredeyse cevap "üst" bakmak ve "Whuber" diyebilirim :) Çok güzel!
Doktora

2

Bu alıntı, rasgele bir değişkenin sınırlı sayıda örneğiyle neler olabileceğini ve rasgele bir değişkenin olasılık dağılımı veya beklentisini ayırt etmek için "yerel rasgelelik" ve "küresel rasgelelik" terimlerini kullanır.

xi{0,1}θθlimn1ni=1nxi=θ

[0,1][a,b]0a<b1θ

Burada yeni bir şey yok.

n

Bu yüzden, bu alıntıyı düşünerek çok fazla beyin hücresi yakmam. Matematiksel olarak o kadar kesin değil ve aslında rastgeleliğin doğası hakkında yanıltıcı.

Yoruma göre düzenleyin: @kjetilbhalvorsen Tarihsel bilgi için yorumunuzu + 1'leyin. Ancak, hala bu terimlerin değerinin sınırlı ve yanıltıcı olduğunu düşünüyorum. Tanımladığınız tablolar, örneğin, örneğe sahip küçük örneklerin gerçek beklenen değerden çok uzak olduğu ya da belki de mümkün olabilen ama kesinlikle olası uzun bir tekrarlanan 0 dizisinin (Bernoulli örneğimde) bir şekilde sergilediği yanıltıcı çıkarımlarda bulunuyor gibi görünüyor. daha az rastgelelik (bu sahte "yerel rastgelelik" sergilemediklerini söyleyerek). Tomurcuklanan istatistikçi için daha yanıltıcı bir şey düşünemiyorum!


"Global rastgelelik" kendine özgü görünse de, "yerel rastgelelik" en az 20 yıllık bir geçmişe sahiptir. Bkz . Örneğin isiweb.ee.ethz.ch/papers/arch/umaure-mass-inspec-1991-1.pdf .
whuber

nn

2
Bazen bunu okuduğumu hatırlıyorum: İnsanların simülasyon, deneme vb. İçin kullanılacak "rastgele sayılar" tabloları olan kitaplar yayınladıkları dönemde, bunların bir kısmı küçük simülasyonlarda (yerel " rastgele ") ve yalnızca daha büyük simülasyonlar için kullanılması gereken diğer bölümler (" küresel rasgelelik "sergiler) Bu yüzden kavramlar değerli bir şeye işaret ediyor gibi görünüyor!
kjetil b halvorsen

1
Üzgünüm, bunu nereden okuduğumu hatırlayamıyorum. Ama neredeyse açıktır: rastgele tanımlamanın felsefi sorunlarından oldukça ayrı, 1000 rastgele sayıya ihtiyacınız olan çok küçük bir simülasyonunuz varsa ve yüksek kaliteli rastgele jeneratörünüz size 1000 sıfır verir, ¿Ne yapıyorsunuz? Bu tür ortaya çıkmaların mümkün ve "gerçekten rasgele" bir sırada gerekli olmasına rağmen, simülasyonunuz mahvolur!
kjetil b halvorsen

1
Teşekkürler çocuklar, belki de kınamda çok sert davrandım. Bunun dilini biraz değiştireceğim.
Chris

-1

Bence Wikipedia yazısının yazarları rastgeleliği yanlış yorumluyorlar. Evet, rastgele görünmeyen uzanımlar olabilir, ancak diziyi oluşturan işlem gerçekten rastgele ise, çıktı olmalıdır. Belirli diziler rastgele görünmüyorsa, bu okuyucunun hatalı algılanmasıdır (yani insanlar kalıpları bulmak için tasarlanmıştır). Gece gökyüzünde Büyük Kepçe ve Orion, vb. Görebilme yeteneğimiz, yıldızların desenlerinin rasgele olmadığını gösteren bir kanıt değildir. Rasgeleliğin sıklıkla rastgele olmayan bir şekilde ortaya çıktığını kabul ediyorum. Bir işlem kısa diziler için gerçekten rasgele olmayan desenler üretirse, bu rastgele bir işlem değildir.

Sürecin farklı örnek boyutlarında değiştiğini düşünmüyorum. Örnek boyutunu arttırırsınız, bize rastgele olmayan bir rasgele dizi görme olasılığınızı artırırsınız. 20 rastgele gözlemde bir örüntü görme şansımız% 10 olursa, toplam gözlem sayısını 10000'e çıkarmak, bir yerlerde rasgele olmama ihtimalini artıracaktır.


2
"Bir süreç kısa diziler için gerçekten rasgele olmayan desenler üretirse, bu rastgele bir süreç değildir", korkarım, tamamen yanlış. Örneğin, adil bir madalyonun herhangi bir 100 flipsinde, üst üste altı kafa veya altı kuyruk gözlemlemeyi bekleriz - ve bu neredeyse herkesin "rastgele" anlamıyla "kısa bir dizi için gerçekten rastgele bir modeldir". " Daha dikkatli bir şekilde nitelendirilmesi gereken bir şey yazmayı düşündüğünüzden şüpheleniyorum, örneğin "tümü" öncesi "kısa diziler" uygulamak.
whuber

Gerçekten mi? Rastgele bir sayı üretecinden kuyrukların kafalarını görmeyi beklediğinden , gördüğümüzde şaşırmamamız gerektiğini düşünürdüm . Neden rasgele olmadığını düşünelim? Eğer bir kişi 100 döndürme yapan bir sayı üretecine sahip olsaydı ve arka arkaya 4 veya daha fazla kafa veya kuyruktan kaçındıysa, gerçekten rastgele bir işlemden daha rastgele görünecekti , ama aslında rasgele olmazdı. Rastlantısallığın naif bir görünümü, tüm kalıpların eksikliğidir - ancak bu rastgele değildir.
P auritus

Yorumunuz doğru, ancak cevabınızdaki açıklama bu noktada belirsiz ve hatta çelişkili. Örneğin "kısa diziler için gerçekten rasgele olmayan kalıplar" oluşturarak veya "rasgele olmamaları görmek" ne anlama geldiğini daha kesin bir şekilde açıklamayı düşünün.
whuber

Hiçbir çelişki görmüyorum. Rastgele üreteçlerin rastgele olmayan kalıplar yarattığını düşünüyor gibisiniz. Bu çelişki. Gerçekten rastgele süreçlerin rastgele olmayan gözlemler üreteceğini savunuyorsunuz. Tanımladığınız, "kümelenme yanılsaması" olarak adlandırılan bazı kümelerdir; bu, kümeleri rasgele dağılımlardan yanlış algılama eğilimi. Söylediğim tek şey bir süreç rasgele olmayan gözlemler yaratırsa, o zaman rastgele değildir. Rastgele olmayan gözlem dizeleri oluşturmak için rastgele bir işlem beklediğinizi iddia edersiniz, ancak buna rastgele olmayan denir. Klasik Apophenia örneği.
P auritus

1
Birinin pozisyonunu kaçıran bir muhatapla konuşma yapmak zor, bu yüzden bundan çıkacağım. Afedersiniz.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.