Örnek olarak, her bir konumun alfabedeki küçük harflerden herhangi biri olma olasılığının eşit olduğu bir sıralı kümeniz olduğunu varsayalım. Bu durumda sipariş edilen seti element içerecek şekilde yapacağım .1000
# generate a possible sequence of letters
s <- sample(x = letters, size = 1000, replace = TRUE)
Sipariş edilen setin pozisyonlarının her biri, alfabenin küçük harfleri üzerinde tekdüze bir dağılım izliyorsa, aynı harfin iki oluşumu arasındaki mesafenin, 1/26 parametresiyle geometrik bir dağılımı izlediği ortaya çıkar . Bu bilgiler ışığında, aynı mektubun ardışık oluşumları arasındaki mesafeyi hesaplayalım.p=1/26
# find the distance between occurences of the same letters
d <- vector(mode = 'list', length = length(unique(letters)))
for(i in 1:length(unique(letters))) {
d[[i]] <- diff(which(s == letters[i]))
}
d.flat <- unlist(x = d)
Aynı mektubun oluşumları arasındaki mesafelerin bir histogramına bakalım ve bunu yukarıda belirtilen geometrik dağılımla ilişkili olasılık kütle fonksiyonu ile karşılaştıralım.
hist(x = d.flat, prob = TRUE, main = 'Histogram of Distances', xlab = 'Distance',
ylab = 'Probability')
x <- range(d.flat)
x <- x[1]:x[2]
y <- dgeom(x = x - 1, prob = 1/26)
points(x = x, y = y, pch = '.', col = 'red', cex = 2)
Kırmızı noktalar, sıralı setin pozisyonlarının her biri harfler üzerinde tekdüze bir dağılım izlediğinde ve histogramın çubukları, sıralı ile ilişkili mesafenin ampirik olasılık kütle fonksiyonunu temsil ederse beklediğimiz mesafenin gerçek olasılık kütle fonksiyonunu temsil eder. Ayarlamak.
Umarım yukarıdaki görüntü geometrik dağılımın uygun olduğuna ikna edicidir.
Yine, sıralı kümenin her pozisyonu harfler üzerinde eşit bir dağılım izlerse, aynı harfin oluşumları arasındaki mesafenin 1/26 parametresiyle geometrik bir dağılım izlemesini bekleriz . Peki, mesafelerin beklenen dağılımı ve farklılıkların ampirik dağılımı ne kadar benzer? Bhattacharyya mesafe , iki ayrı dağılımlar arasındadır dağılımları tam olarak aynıdır ve eğiliminde olduğunda dağılımları artan farklı olmak gibi.p=1/26∞0∞
d.flat
Yukarıdan Bhattacharyya Mesafesi cinsinden beklenen geometrik dağılım ile nasıl karşılaştırılır?
b.dist <- 0
for(i in x) {
b.dist <- b.dist + sqrt((sum(d.flat == i) / length(d.flat)) * dgeom(x = i - 1,
prob = 1/26))
}
b.dist <- -1 * log(x = b.dist)
Beklenen geometrik dağılımı ve mesafeleri emprirical dağılımı arasındaki Bhattacharyya uzaklığı yaklaşık oldukça yakın olan .00.0260
DÜZENLE:
Yukarıda gözlemlenen Bhattacharyya Mesafesinin ( ) oldukça yakın olduğunu belirtmek yerine , simülasyonun ne zaman işe yarayacağına iyi bir örnek olduğunu düşünüyorum. Şimdi soru şudur: Yukarıda gözlemlenen Bhattacharyya Mesafesi, sıralı kümenin her bir pozisyonu harfler üzerinde eşitse gözlemlenen tipik Bhattacharyya Mesafeleri ile nasıl karşılaştırılır? En üretmek edelim böyle sipariş setleri ve beklenen geometrik dağıtımdan onların Bhattacharyya Mesafeler her hesaplamak.0 10 , 0000.026010,000
gen.bhat <- function(set, size) {
new.seq <- sample(x = set, size = size, replace = TRUE)
d <- vector(mode = 'list', length = length(unique(set)))
for(i in 1:length(unique(set))) {
d[[i]] <- diff(which(new.seq == set[i]))
}
d.flat <- unlist(x = d)
x <- range(d.flat)
x <- x[1]:x[2]
b.dist <- 0
for(i in x) {
b.dist <- b.dist + sqrt((sum(d.flat == i) / length(d.flat)) * dgeom(x = i -1,
prob = 1/length(unique(set))))
}
b.dist <- -1 * log(x = b.dist)
return(b.dist)
}
dist.bhat <- replicate(n = 10000, expr = gen.bhat(set = letters, size = 1000))
Şimdi, sıralı küme, konumlarının her birinin harfler üzerinde tekdüze bir dağılımı izleyecek şekilde üretildiyse, yukarıda gözlemlenen Bhattacharyya Mesafesini gözlemleme olasılığını veya bir tane daha uç noktayı gözlemleyebiliriz.
p <- ifelse(b.dist <= mean(dist.bhat), sum(dist.bhat <= b.dist) / length(dist.bhat),
sum(dist.bhat > b.dist) / length(dist.bhat))
Bu durumda, olasılık yaklaşık .0.38
Tamlık için, aşağıdaki görüntü, simüle edilen Bhattacharyya Mesafelerinin bir histogramıdır. Bence asla Bhattacharyya Mesafesi gözlemlemeyeceğinizi fark etmek önemlidir, çünkü sipariş edilen setin sonlu uzunluğu vardır. Yukarıda, bir mektubun herhangi iki örneği arasındaki maksimum mesafe en fazla .9990999