ÖDÜL:
Ödülün tamamı, aşağıda kestirimci kullanan veya bahseden yayınlanmış herhangi bir makaleye referans sağlayan birine verilecektir .
Motivasyon:
Bu bölüm muhtemelen sizin için önemli değildir ve bunun ödülünüzü almanıza yardımcı olmayacağından şüpheleniyorum, ancak birisi motivasyonu sorduğundan, üzerinde çalıştığım şey bu.
İstatistiksel grafik teorisi problemi üzerinde çalışıyorum. Standart yoğun grafik sınırlayıcı nesne , anlamında simetrik bir fonksiyondur . N köşelerinde bir grafiğe örnekleme , birim aralığındaki ( i = 1 için U_i , \ dots, n ) örnekleme n tekdüze değerleri olarak örneklenebilir ve daha sonra bir kenarın (i, j) olasılığı W (U_i, U_j) . Elde edilen bitişiklik matrisine A diyelim .
Bu tedavi edilebilir bir yoğunluk olarak varsayarak bu . Biz tahmin edersek dayalı için herhangi bir kısıtlama olmaksızın , o zaman tutarlı bir tahmin almak mümkün değil. Ben sürekli tahmin ilgili ilginç bir sonuç bulunamadı zaman olası fonksiyonları kısıtlı setinden gelir. Bu tahmin ediciden ve \ sum A'dan W tahmin edebiliriz .
Ne yazık ki, bulduğum yöntem, yoğunluk ile dağılımdan örnek aldığımızda tutarlılığı gösteriyor . oluşturulma şekli nokta ızgarasını örneklememi gerektirir (orijinal çekiliş yerine ). Bu istatistikte.SE sorusu, doğrudan dağıtımdan örnekleme yapmak yerine sadece böyle bir ızgarada örnek Bernoullis'i örnekleyebildiğimizde ne olacağına dair 1 boyutlu (daha basit) bir sorun istiyorum.
grafik sınırları için referanslar:
L. Lovasz ve B. Szegedy. Yoğun grafik dizilerinin sınırları ( arxiv ).
Borgs, J. Chayes, L. Lovasz, V. Sos ve K. Vesztergombi. Yoğun grafiklerin yakınsak dizileri i: Alt çizgi frekansları, metrik özellikler ve test. ( arxiv ).
Gösterim:
aralığında pozitif desteği olan cdf ve pdf ile sürekli bir dağılım düşünün . Varsayalım , herhangi bir nokta kütle sahip her türevlenebilir ve aynı zamanda bu ve sup olan aralığına . Let rastgele değişken ortalama dağılımından örneklenir . üzerindeki tekdüze rastgele değişkenlerdir .
Sorun ayarlandı:
Genellikle dağılımının ile rastgele değişken olmasına izin verebilir ve olağan ampirik dağıtım işleviyle olarak çalışabiliriz burada gösterge fonksiyonudur. Bu ampirik dağılımın nin kendisinin rastgele ( sabitlendiği yerde olduğuna dikkat edin .
Ne yazık ki, doğrudan numune . Bununla birlikte, sadece üzerinde pozitif desteği olduğunu biliyorum ve rasgele değişkenler burada , başarı olasılığı olan Bernoulli dağılımı olan rastgele bir değişken burada ve yukarıda tanımlanmıştır. Yani, . Bu değerlerinden tahmin etmenin açık bir yolu, burada
Sorular:
En kolaydan en zoruna (düşündüğüm şey).
Bu (ya da benzer bir şeyin) bir adı olup olmadığını bilen var mı ? Bazı özelliklerini görebildiğim bir referans verebilir misiniz?
Şöyle , bir arasında tutarlı bir tahmin (ve bu kanıtlanabilir)?
' olarak sınırlayıcı dağılımı nedir ?
İdeal olarak, aşağıdakileri - örneğin fonksiyonu olarak sınırlamak istiyorum , ama gerçeğin ne olduğunu bilmiyorum. açılımı olasılık Big O
Bazı fikirler ve notlar:
Bu , ızgara tabanlı bir tabakalaşma ile kabul-red örneklemesi gibi görünmektedir. Olmasın, çünkü teklifi reddedersek başka bir örnek çizmeyiz.
Eminim bu önyargılı. Alternatif tarafsız, ancak hoş olmayan bir özelliğe sahip olduğunu düşünüyorum. .
Bir eklenti tahmincisi olarak kullanmakla ilgileniyorum . Bunun yararlı bir bilgi olduğunu düşünmüyorum, ama belki de bunun neden olabileceğini biliyorsunuzdur.
R'deki örnek
Ampirik dağılımı ile karşılaştırmak istiyorsanız bazı R kodu . Maalesef bazı girintiler yanlış ... Bunu nasıl düzeltebileceğimi bilmiyorum.
# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)
# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
u <- sort(runif(n))
x <- qD(u) # samples for empirical dist
z <- 0 # keep track of how many y_i == 1
# take bernoulli samples at the points s
s <- seq(0,1-1/n,length=n) + runif(n,0,1/n)
p <- dD(s) # density at s
while(z == 0){ # make sure we get at least one y_i == 1
y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
z <- sum(y)
}
result <- list(x=x, y=y, z=z)
return(result)
}
sim <- function(simdat, n, w){
# F hat -- empirical dist at w
fh <- mean(simdat$x < w)
# F tilde
ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
# Uncomment this if we want an unbiased estimate.
# This can take on values > 1 which is undesirable for a cdf.
### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
return(c(fh, ft))
}
set.seed(1) # for reproducibility
n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))
# compare the true value to the empirical means
pD(w) # the truth
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var) # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth
# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
rep(seq(0,1,length=n+1),each=2),
col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
rep(seq(0,1,length=dat$z+1),each=2),
col="blue")
DÜZENLEMELER:
DÜZENLEME 1 -
Bunu @ whuber'ın yorumlarına hitap etmek için düzenledim.
DÜZENLEME 2 -
R kodunu ekledim ve biraz daha temizledim. Okunabilirlik için gösterimi biraz değiştirdim, ama aslında aynı. İzin verildiği anda buna bir ödül vermeyi planlıyorum, bu yüzden daha fazla açıklama istiyorsanız lütfen bana bildirin.
DÜZENLE 3 -
Sanırım @ kardinalin sözlerine değindim. Toplam varyasyondaki yazım hatalarını düzelttim. Bir ödül ekliyorum.
DÜZENLEME 4 -
@Cardinal için bir "motivasyon" bölümü eklendi.