Şunun alt kümelerindeki dağılımlar


9

Tamsayıların alt kümelerinde herhangi bir standart dağılım olup olmadığını merak ediyorum {1,2,...,J}. Eşdeğer olarak, bunu bir dağıtım olarak ifade edebiliriz.J ikili sonuçların uzunluk vektörü, örn. J=5 sonra {1,3,5} vektöre karşılık gelir (1,0,1,0,1).

İdeal olarak aradığım şey dağıtım νθ(), sonlu boyutlu bir parametreyle dizinlenmiş bir aileden geliyor θ, kütlesini iki ikili vektör gibi dağıtacaktır. r1 ve r2 birbirine "yakın" olmaları durumunda benzer olasılıklara sahip olacaklar, yani r1=(0,0,1,0,1) ve r2=(0,0,1,1,1)benzer olasılıklara sahip. Gerçekten, umarım yapmak istediğim,θ öyle ki, eğer bilirsem νθ(r1) o zaman oldukça büyük νθ(r2) muhtemelen uzaktaki vektörlere göre büyük r1.

Akla gelen bir strateji, metrik veya başka bir dağılım ölçüsü koymak olacaktır. dθ üzerinde {0,1}J ve sonra al νθ(r)exp(dθ(r,μ)), Veya benzeri. Bunun açık bir örneğiexp{rμ2/(2σ2)}normal dağılıma benzer. Bu iyi, ama umarım standart ve Bayes analizi için uygun bir şey var; bununla normalleştirici sabiti yazamıyorum.


Bir alt kümenin örneklenmesi, anket metodolojisinde temel bir sorundur.
Stéphane Laurent

@Stephane elbette, ama benim sorunumun farklı olduğunu düşünüyorum, çünkü dağıtımımın yansıtmasını istediğim bazı ek yapılarım var. Belki de soruyu altkümeler cinsinden ifade etmek kötü bir fikirdi, çünkü benim için çalışan belirsiz bir mesafe fikrim var.
adam

"... sonra muhtemelen küçük ..." yazmak mı demek istediniz ? Normalleştirme sabiti gittikçe, metrik için Hamming mesafesini kullanmayı düşünün : konum ölçeğinde dağılım aileleri için, bu sabiti sadece terimlerinin toplamı olarak hesaplayabilirsiniz . Ayrıca, kriterlerinizi karşılayan tüm bu aileler sadece ayrık parametreleri (konum için) ve sürekli parametreleri ile tanımlanabilir. vθ(r2)J+1JJ
whuber

@whuber hayır, büyük demek istedim. kütlesini birbirine yakın noktalar etrafında dağıtmak istiyorum . Sorunu bir hiper küpün vertiklerine bir dağılım koymak olarak ifade etmek muhtemelen daha apropos olurdu. Hamming mesafesini düşünmüştüm (sanırım benim durumumda ile aynı ); Muhtemelenve muhtemelen böyle bir dağıtımdan örnek almak için bazı MCMC yapmak zorunda kalacağım. νθ()L1|riμiσi|
adam

Şimdi anlıyorum. Ama başlangıçta söylediğin bu değil. Örneğin, karakterizasyonu, eğer büyük ve dan "uzak" vektörlerin kümesidir ve değil herhangi bir vektör olan , daha sonra gerekir da "muhtemelen" büyük olmak. Ancak "çok uzakta değil" ve "yakın" demek tamamen aynı şeyleri ifade etmez. Durumu yorumunuzda yaptığınız gibi yeniden ifade etmek daha basit - ve dahili olarak tutarlı - olacaktır. Ancak hayır, Hamming mesafelerine dayalı konum ölçeği dağılımlarından örnek almak için MCMC'ye ihtiyacınız yok: çok daha etkili yollar var. ν(r1)Rr1r2Rν(r2)
whuber

Yanıtlar:


6

Zenginlikleri, esneklikleri ve hesaplanabilir izlenebilirlikleri nedeniyle Hamming mesafesine göre konum ailelerini tercih edebilirsiniz .


Gösterim ve tanımlar

Hatırlayın bir serbest sonlu boyutlu modülü esasına , Hamming uzaklığı iki vektör arasındaki ve olduğu basamak sayısı .V(e1,e2,,eJ) δHv=v1e1++vJeJw=w1e1++wJeJiviwi

Herhangi bir kaynaktan verilen , Hamming uzaklığı bölümleri küreler halinde , , burada . Zemin halka olduğunda elemanları, sahiptir elemanları ve vardır elemanları. (Bu, hemen öğelerinin tam olarak yerlerde den farklı olduğunu gözlemlemenin ardından gelir - bunlardanv0VVSi(v0)i=0,1,,JSi(v0)={wV | δH(w,v0)=i}nVnJSi(v)(Ji)(n1)iSi(v)vi(Ji)olasılıklar - ve bağımsız olarak, her yer için seçenekleri olduğu.)n1

afin tercümesi doğal olarak yer ailelerine vermek için dağılımlarına etki eder. Özel olarak belirtilirse, herhangi bir dağılımı (ki araçlar biraz daha fazla , tüm ve ) ve herhangi bir öğesidir , o zaman da bir dağıtımdır neredeVfVf:V[0,1]f(v)0vVvVf(v)=1wVf(w)

f(w)(v)=f(vw)

tüm . Bir konum ailesi dağıtım değişmez bu eylem altında: , için tüm .vV ΩfΩf(v)ΩvV

İnşaat

Bu, şekillerini tek bir sabit vektörde de belirterek potansiyel olarak ilginç ve yararlı dağıtım ailelerini tanımlamamıza olanak tanır ; bu kolaylık olması için ve bu "üretici dağılımları" eylemi altında tam bir aile elde etmek için çevirmek . İstenen özelliği elde etmek yakındaki noktalarda karşılaştırılabilir değerlere sahip olmalıdır, sadece tüm üretim dağıtımlarının bu özelliğini gerektirir.v0=(0,0,,0)VΩf

Bunun nasıl çalıştığını görmek için, artan mesafe ile azalan tüm dağıtımların konum ailesini inşa edelim. Yalnızca Hamming mesafeleri mümkün olduğundan, negatif olmayan gerçek sayıların azalan bir sırasını düşünün = . AyarlamakJ+1a0a0a1aJ0

A=i=0J(n1)i(Ji)ai

ve işlev tanımlamak ilefa:V[0,1]

fa(v)=aδH(0,v)A.

Ardından, kontrol edilmesi kolay olduğu gibi, üzerinde bir dağılımdır . Bundan başka, ancak ve ancak olumlu bir katı olan (olarak vektörler ). Böylece, eğer istersek, ı standardize edebiliriz .faVfa=faaaRJ+1aa0=1

Buna uygun olarak, bu yapı Hamming mesafe azalmaktadır bu gibi tüm yer değişmeyen dağılımlar açık bir parametrelendirmesini verir: bu tür bir dağıtım formundadır bir sekans için ve bazı vektörler .fa(v)a=1a1a2aJ0vV

Bu parametreleştirme, önceliklerin uygun şekilde belirtilmesine izin verebilir: bunları bir ve şeklinde bir önceliğe çarpanlarına ayırın . (Tabii ki, konumun ve şeklin bağımsız olmadığı ve daha büyük olduğu bir dizi öncelik düşünülebilir, ancak bu daha karmaşık bir girişim olacaktır.)va

Rastgele değerler üretme

dan örneklemenin bir yolu, onu küresel radyasyon üzerinde bir dağılıma ve her kürede koşullu başka bir dağılıma çarpanlara ayırmak suretiyle aşamalı olarak yapılmasıdır:fa(v)

  1. Binom olasılıkları tarafından verilen kesikli dağıtımından bir dizin çizin , burada daha önce tanımlandığı gibidir .i{0,1,,J}(Ji)(n1)iai/AA

  2. dizini , tam olarak yerlerinde den farklı vektörler kümesine karşılık gelir . Bu nedenle, bu seçmek üzerinden yerleştirir her biri eşit olasılık veren muhtemel alt-grupları. (Bu sadece bir örnektir dışarı alt simgelerinin olmadan değiştirilmesi.) Bu alt kümesi olsun yerlere yazılacaktır .ivii(Ji)iJ iI

  3. Bir eleman çizin bağımsız bir değer belirleyerek değil eşit skalerler kümesinden eşit tüm ve aksi takdirde set . şekilde, olduğunda sıfır olmayan rastgele seçerek ve aksi halde ayarlayarak bir vektörü oluşturun . Takım .wwjvjjIwj=vjuujjIuj=0w=v+u

Adım 3 ikili durumda gerekli değildir.


Misal

İşte açıklamak için bir Ruygulama.

rHamming <- function(N=1, a=c(1,1,1), n=2, origin) {
  # Draw N random values from the distribution f_a^v where the ground ring
  # is {0,1,...,n-1} mod n and the vector space has dimension j = length(a)-1.
  j <- length(a) - 1
  if(missing(origin)) origin <- rep(0, j)

  # Draw radii `i` from the marginal distribution of the spherical radii.
  f <- sapply(0:j, function(i) (n-1)^i * choose(j,i) * a[i+1])
  i <- sample(0:j, N, replace=TRUE, prob=f)

  # Helper function: select nonzero elements of 1:(n-1) in exactly i places.
  h <- function(i) {
    x <- c(sample(1:(n-1), i, replace=TRUE), rep(0, j-i))
    sample(x, j, replace=FALSE)
  }

  # Draw elements from the conditional distribution over the spheres
  # and translate them by the origin.
  (sapply(i, h) + origin) %% n
}

Kullanımının bir örneği olarak:

test <- rHamming(10^4, 2^(11:1), origin=rep(1,10))
hist(apply(test, 2, function(x) sum(x != 0)))

Bu, dağılımından iid öğesi çizmek için saniye sürdü ; burada , (ikili durum), ve katlanarak azalıyor.0.2104fa(v)J=10n=2v=(1,1,,1)a=(211,210,,21)

(Bu algoritma azalmasını gerektirmez; bu nedenle, yalnızca tekil olanlardan değil , herhangi bir konum ailesinden rastgele farklılıklar üretecektir .)a


Bunun için teşekkürler! Bu durumda mesafesi sadece ile sınırlıdır; bu bağlamda Hamming mesafesi izotropik olarak hareket etmektedir. Bundan uzaklaşmak, sanırım bu şeyleri karmaşıklaştırıyor çünkü mesafe ölçüm için fazla farklı değerim var mı? Bununla ilgili genel bir yorumunuz var mı? L1RJJ
adam

Evet: mesafe fonksiyonlarının seçimi içindeki değerlerin neyi temsil bağlı olacaktır . Soru soyut olarak formüle edildiğinden, iyi seçimlerin ne olacağı hakkında görüş oluşturmak için gerçekten devam edecek hiçbir şeyimiz yok. Hamming mesafesi nominal değerler için ve belki de diğer durumlarda da uygun olacaktır , ancak kümesi için doğal bir mesafe hissi olduğunda diğer mesafeler daha iyi çalışabilir . İkili durumda , Hamming mesafelerini genellemek zor: zaten oldukça genel. {1,2,,n}{1,2,,n}n=2
whuber

1

K-determinantal nokta işleminden bir örnek, benzer öğelerin örnekte birlikte oluşma olasılığının daha düşük olması için, çeşitliliği teşvik eden alt kümeler üzerinde bir dağılım modellemektedir. Alex Kulesza, Ben Taskar'ın K-determinantal nokta süreç örneklemesi.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.