boyutlarındaki rastgele noktaların doğrusal olarak ayrılabilmesi olasılığı nedir ?


24

Verilen n veri noktası, her bir d özellikleri, n/2 olarak etiketlenir 0 , diğer n/2 olarak işaretlenmiştir 1 . Her özellik rastgele [0,1] arasında bir değer alır [0,1](tekdüze dağılım). İki sınıfı ayırabilen bir hiper düzlemin bulunma olasılığı nedir?

İlk önce en kolay durumu ele alalım, yani d=1 .


3
Bu gerçekten ilginç bir soru. Bunun, iki nokta sınıfının dışbükey gövdelerinin kesişip kesişmeyip geçmeyecekleri konusunda yeniden biçimlendirilebileceğini düşünüyorum - bu sorunu daha kolay yapıp yapamayacağını bilmeme rağmen.
Don Walpola 10:18

Bu açıkça n & d' nin göreceli büyüklüklerinin bir fonksiyonu olacaktır d. En kolay durumda w / d=1 , n=2 , sonra w / gerçekten sürekli veri (yani herhangi bir ondalık basamağa yuvarlama yok) olursa, doğrusal olarak ayrılma olasılıkları 1 . OTOH, limn  Pr(linearly separable)0 .
gung - Monica'yı yeniden

Ayrıca, hiper düzlemin 'düz' olması gerekip gerekmediğini de netleştirmelisiniz (veya 2d tipi bir durumda bir parabol olabilir mi ). Bana öyle geliyor ki bu soru kesinlikle düzlüğü ima ediyor, ancak bu muhtemelen açıkça ifade edilmeli.
gung - Monica'yı yeniden

4
Ben "hiper düzlem" kelimesinin açıkça "düzlük" anlamına geldiğini düşünüyorum, bu yüzden "doğrusal olarak ayrılabilir" demek için başlığı değiştirdim. Açıkçası , kopyaları olmayan herhangi bir veri kümesi prensipte doğrusal olmayan bir şekilde ayrılabilir durumdadır.
amip diyor Reinstate Monica

1
gung IMHO "flat hyperplane" bir pleonasmdır. "Hiper düzlemin" eğri olabileceğini iddia ederseniz, "düz" de eğri olabilir (uygun bir metrik olarak).
amip diyor Reinstate Monica

Yanıtlar:


4

Veride hiç kopya olmadığını varsayalım.

Eğer nd+1 olasılığıdır Pr=1 .

(n,d) diğer kombinasyonları için aşağıdaki grafiğe bakınız:

görüntü tanımını buraya girin

OP'de belirtilen giriş ve çıkış verilerini taklit eden bu grafiği oluşturdum. Doğrusal ayrılabilirlik, Hauck-Donner etkisinden dolayı lojistik regresyon modelinde yakınsama başarısızlığı olarak tanımlandı .

artması ihtimalinin azaldığını görebiliriz . Aslında, ye ile ilgili bir modele uyabiliriz ve sonuç şu:nn,dp

P(n,d)=11+e(5.829444.58261×n+1.37271×d0.0235785×n×d)

görüntü tanımını buraya girin


Arsa için kod (Julia'da):

using GLM

ds = 10; #number of dimensions to be investigated
ns = 100 #number of examples to be investigated
niter = 1000; #number of iterations per d per n
P = niter * ones(Int64, ds, ns); #starting the number of successes

for d in 1:ds
    for n in (d+1):ns
        p = 0 #0 hits
        for i in 1:niter
            println("Dimensions: $d; Samples: $n; Iteration: $i;")
            try #we will try to catch errors in the logistic glm, these are due to perfect separability
                X = hcat(rand((n,d)), ones(n)); #sampling from uniform plus intercept
                Y = sample(0:1, n)  #sampling a binary outcome
                glm(X, Y, Binomial(), LogitLink())
            catch
                p = p+1 #if we catch an error, increase the count
            end
        end
        P[d,n] = p
    end
end

using Plots

gui(heatmap(P./niter, xlabel = "Number of Samples", ylabel = "Number of Dimensions", title = "Probability of linear separability"))

ila (Julia'da) ile ilgili modelin kodu :(n,d)p

probs = P./niter
N = transpose(repmat(1:ns, 1, ds))
D = repmat(1:ds, 1, ns)

fit = glm(hcat(log.(N[:]), D[:], N[:].*D[:], ones(ds*ns)), probs[:], Binomial(), LogitLink())
coef(fit)
#4-element Array{Float64,1}:
# -4.58261
#  1.37271
# -0.0235785
#  5.82944

gui(heatmap(reshape(predict(fit), ds, ns), xlabel = "Number of Samples", ylabel = "Number of Dimensions", title = "Fit of probability of linear separability"))

+1. Neden log (n) değil n? Sarı-siyah sınır üstte bana doğru düz bir çizgi gibi görünüyor, ancak ikinci şekilde eğilmiş gibi görünüyor. Muhtemelen kütüğü nedeniyle (n)? Emin değil.
amip diyor Reinstate Monica

@ amoeba Ben değiştirdim. Ben de etkileşimi dahil ettim, çünkü ve arasındaki sınırın kademeli olarak genişlemesini açıklayabiliyordu (bu nedenle daha önce logaritmayı denememin sebebi). p=1p=0
Firebug
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.