Standart kümelenme ölçüsü mü?


13

Çok fazla veri var ve çok basit görünen bir şey yapmak istiyorum. Bu büyük veri setinde, belirli bir elementin ne kadar topaklandığını merak ediyorum. Verilerimin şu şekilde sıralı bir küme olduğunu varsayalım: {A, C, B, D, A, Z, T, C ...}. Diyelim ki, A'nın set boyunca rastgele (veya daha eşit olarak) dağıtılmasının aksine, yan yana bulunup bulunmadığını bilmek istiyorum. Bu "clumpiness" dediğim özelliktir.

Şimdi, veri "yığın" basit bir ölçüm var mı? Yani, rasgele dağıtılanlardan ne kadar uzak olduğunu söyleyecek bir istatistik mi? Ve bunu yapmanın basit bir yolu yoksa, zor yol ne olurdu? Herhangi bir işaretçiler büyük takdir!

Yanıtlar:


14

Örnek olarak, her bir konumun alfabedeki küçük harflerden herhangi biri olma olasılığının eşit olduğu bir sıralı kümeniz olduğunu varsayalım. Bu durumda sipariş edilen seti element içerecek şekilde yapacağım .1000

# generate a possible sequence of letters
s <- sample(x = letters, size = 1000, replace = TRUE)

Sipariş edilen setin pozisyonlarının her biri, alfabenin küçük harfleri üzerinde tekdüze bir dağılım izliyorsa, aynı harfin iki oluşumu arasındaki mesafenin, 1/26 parametresiyle geometrik bir dağılımı izlediği ortaya çıkar . Bu bilgiler ışığında, aynı mektubun ardışık oluşumları arasındaki mesafeyi hesaplayalım.p=1/26

# find the distance between occurences of the same letters
d <- vector(mode = 'list', length = length(unique(letters)))
for(i in 1:length(unique(letters))) {
    d[[i]] <- diff(which(s == letters[i]))
}
d.flat <- unlist(x = d)

Aynı mektubun oluşumları arasındaki mesafelerin bir histogramına bakalım ve bunu yukarıda belirtilen geometrik dağılımla ilişkili olasılık kütle fonksiyonu ile karşılaştıralım.

hist(x = d.flat, prob = TRUE, main = 'Histogram of Distances', xlab = 'Distance',
     ylab = 'Probability')
x <- range(d.flat)
x <- x[1]:x[2]
y <- dgeom(x = x - 1, prob = 1/26)
points(x = x, y = y, pch = '.', col = 'red', cex = 2)

Kırmızı noktalar, sıralı setin pozisyonlarının her biri harfler üzerinde tekdüze bir dağılım izlediğinde ve histogramın çubukları, sıralı ile ilişkili mesafenin ampirik olasılık kütle fonksiyonunu temsil ederse beklediğimiz mesafenin gerçek olasılık kütle fonksiyonunu temsil eder. Ayarlamak.

resim açıklamasını buraya girin

Umarım yukarıdaki görüntü geometrik dağılımın uygun olduğuna ikna edicidir.

Yine, sıralı kümenin her pozisyonu harfler üzerinde eşit bir dağılım izlerse, aynı harfin oluşumları arasındaki mesafenin 1/26 parametresiyle geometrik bir dağılım izlemesini bekleriz . Peki, mesafelerin beklenen dağılımı ve farklılıkların ampirik dağılımı ne kadar benzer? Bhattacharyya mesafe , iki ayrı dağılımlar arasındadır dağılımları tam olarak aynıdır ve eğiliminde olduğunda dağılımları artan farklı olmak gibi.p=1/260

d.flatYukarıdan Bhattacharyya Mesafesi cinsinden beklenen geometrik dağılım ile nasıl karşılaştırılır?

b.dist <- 0
for(i in x) {
    b.dist <- b.dist + sqrt((sum(d.flat == i) / length(d.flat)) * dgeom(x = i - 1,
              prob = 1/26))
}
b.dist <- -1 * log(x = b.dist)

Beklenen geometrik dağılımı ve mesafeleri emprirical dağılımı arasındaki Bhattacharyya uzaklığı yaklaşık oldukça yakın olan .00.0260

DÜZENLE:

Yukarıda gözlemlenen Bhattacharyya Mesafesinin ( ) oldukça yakın olduğunu belirtmek yerine , simülasyonun ne zaman işe yarayacağına iyi bir örnek olduğunu düşünüyorum. Şimdi soru şudur: Yukarıda gözlemlenen Bhattacharyya Mesafesi, sıralı kümenin her bir pozisyonu harfler üzerinde eşitse gözlemlenen tipik Bhattacharyya Mesafeleri ile nasıl karşılaştırılır? En üretmek edelim böyle sipariş setleri ve beklenen geometrik dağıtımdan onların Bhattacharyya Mesafeler her hesaplamak.0 10 , 0000.026010,000

gen.bhat <- function(set, size) {
    new.seq <- sample(x = set, size = size, replace = TRUE)
    d <- vector(mode = 'list', length = length(unique(set)))
    for(i in 1:length(unique(set))) {
        d[[i]] <- diff(which(new.seq == set[i]))
    }
    d.flat <- unlist(x = d)
    x <- range(d.flat)
    x <- x[1]:x[2]
    b.dist <- 0
    for(i in x) {
        b.dist <- b.dist + sqrt((sum(d.flat == i) / length(d.flat)) * dgeom(x = i -1,
                  prob = 1/length(unique(set))))
    }
    b.dist <- -1 * log(x = b.dist)
    return(b.dist)
}
dist.bhat <- replicate(n = 10000, expr = gen.bhat(set = letters, size = 1000))

Şimdi, sıralı küme, konumlarının her birinin harfler üzerinde tekdüze bir dağılımı izleyecek şekilde üretildiyse, yukarıda gözlemlenen Bhattacharyya Mesafesini gözlemleme olasılığını veya bir tane daha uç noktayı gözlemleyebiliriz.

p <- ifelse(b.dist <= mean(dist.bhat), sum(dist.bhat <= b.dist) / length(dist.bhat),
            sum(dist.bhat > b.dist) / length(dist.bhat))

Bu durumda, olasılık yaklaşık .0.38

Tamlık için, aşağıdaki görüntü, simüle edilen Bhattacharyya Mesafelerinin bir histogramıdır. Bence asla Bhattacharyya Mesafesi gözlemlemeyeceğinizi fark etmek önemlidir, çünkü sipariş edilen setin sonlu uzunluğu vardır. Yukarıda, bir mektubun herhangi iki örneği arasındaki maksimum mesafe en fazla .9990999

resim açıklamasını buraya girin


Başlangıçta harflerin dağılımının her harf için eşit olasılıkla çok terimli olduğunu varsayıyorsunuz. Ya dağılımın harfler için eşit olmayan olasılıkları varsa? - Her harf için oluşumlar arasındaki mesafelerin beklenen dağılımı hala geometrik olacak mı? Hangi parametre ile?
ttnphns

Her harf için eşit olmayan olasılıklarla, her harfin oluşumları arasındaki mesafe hala geometriktir. Bununla birlikte, parametre harfe göre değişir ve her harf için, bu harfi içeren sıralı kümede bir konum olasılığına eşittir.
varsayılan

1
Yaklaşımını seviyorum. Her harfin sayısının sabit olduğunu ve bir siparişin olası tüm siparişler arasında eşit olarak çizildiğini varsaymak daha gerçekçi olmaz mıydı? Ne yazık ki bu durumda dağılımın ne olduğunu bilmiyorum. Herhangi bir fikir?
gui11aume

@ gui11aume Bu ilginç bir düşünce. Gözlenen sipariş kümesine birçok kez izin verdiğimiz ve orijinal sipariş kümesinin bazı istatistik kullanan permütasyonlara ne kadar benzediğini gördüğümüz bir çeşit permütasyon test yaklaşımından mı bahsediyorsunuz?
varsayılan

Evet, aklımda olan şey bu. Daha sonra tam karıştırmadan ayrılmayı ölçmek için Bhattacharyya mesafesini veya Kullback-Leibler ıraksamasını kullanabilirsiniz.
gui11aume

7

Tam olarak açıkladığınız şey Runs Test adlı bir prosedüre kodlanmıştır. Usta olmak karmaşık değil. İstatistiksel testler, wikipedia veya Nat'l Enstitüsü gibi birçok kaynakta bulabilirsiniz . Standartlar ve Teknoloji veya YouTube .


+1. @Alan, Runs testine Wald-Wolfowitz testi de denir.
ttnphns

Çalıştırma testi ile ilgili sorun, sadece ikilik veya ikiye ayrılmış veriler için olmasıdır.
ttnphns

0

Bu konuda biraz farklı bir bakış açısıyla ilgileniyorsanız, bilgi teorisi üzerine bir primere bakmak isteyebilirsiniz - bilgisayar, görüntü / video / ses işleme, iletişim teorisi ve (belki de daha şaşırtıcı bir şekilde) fizik ve kozmoloji (karadeliklerin yanı sıra klasik termodinamiğin anlaşılması için çok önemlidir) ve hatta biyoloji.

Gayri resmi olarak, genel bir sıkıştırma algoritmasına tabi tutulduğunda bir "daha yığın" harf dizisinin (örneğinize göre) daha yoğun sıkıştırılacağını söyleyebiliriz - yani ham metni içeren bir zip dosyası daha küçük olacaktır. Benzer şekilde, "düzensiz bir çuhadaki birkaç bilardo topunun" "beceriksiz" görüntüsü, daha çeşitli bir görüntüden (bir grup insanın görüntüsü gibi) çok daha verimli bir şekilde sıkıştırılır - örneğin daha küçük bir jpeg dosyası oluşturun) ). Elbette bu verilerin veri içeriği (negatif entropi veya "negentropi") belirli sıkıştırma algoritmalarından bağımsız olarak çeşitli resmi tanımlara sahiptir.

Bilgi teorik ölçümünün yukarıdaki daha klasik istatistiksel analizlerden daha açıklayıcı olabileceği duruma bir örnek, birden fazla (veya tüm) çözünürlük seviyesinde "kümelenme" tanımlamakla ilgilenmektir. Metin dizesi örneğinde, dizinin başında bir araya getirilmiş çok sayıda "A" varsa, "A" ın çok fazla demetlenmesi ve daha sonra dizi devam ederken periyodik olarak daha fazla demetleme ve daha az demetleme yapılıyorsa, kümelenmenin birden çok çözünürlükte var olduğu söylenebilir - bu bilgi teorik önlemleri tarafından çok doğal olarak yakalanabilecek bir şeydir.

(Düzenle) Bana göre, bunun aslında "kümelenme" çalışması - bilgi kisvesi ve (neg) entropi - olduğunda, saçma bir soru olabileceği endişesi bize modern yaşamın günlük işleyişi hakkında hayati bir şekilde bilgi veriyor (internet, mobil iletişim, dilin kendisi) ve evrenin doğası (kara delikler, gökada oluşumu, Kozmik Arka Plan Radyasyonunun yorumlanması, "canlı" olanın belirlenmesi) "aptalca soru yok" , sadece aptalca cevaplar "[ilişkilendirilmemiş tırnak].

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.