Ampirik dağıtım alternatifi


13

ÖDÜL:

Ödülün tamamı, aşağıda kestirimci kullanan veya bahseden yayınlanmış herhangi bir makaleye referans sağlayan birine verilecektir .F~

Motivasyon:

Bu bölüm muhtemelen sizin için önemli değildir ve bunun ödülünüzü almanıza yardımcı olmayacağından şüpheleniyorum, ancak birisi motivasyonu sorduğundan, üzerinde çalıştığım şey bu.

İstatistiksel grafik teorisi problemi üzerinde çalışıyorum. Standart yoğun grafik sınırlayıcı nesne , anlamında simetrik bir fonksiyondur . N köşelerinde bir grafiğe örnekleme , birim aralığındaki ( i = 1 için U_i , \ dots, n ) örnekleme n tekdüze değerleri olarak örneklenebilir ve daha sonra bir kenarın (i, j) olasılığı W (U_i, U_j) . Elde edilen bitişiklik matrisine A diyelim .W:[0,1]2[0,1]W(u,v)=W(v,u)nnUii=1,,n(i,j)W(Ui,Uj)A

Bu tedavi edilebilir W bir yoğunluk olarak f=W/W varsayarak bu W>0 . Biz tahmin edersek f dayalı A için herhangi bir kısıtlama olmaksızın f , o zaman tutarlı bir tahmin almak mümkün değil. Ben sürekli tahmin ilgili ilginç bir sonuç bulunamadı f zaman f olası fonksiyonları kısıtlı setinden gelir. Bu tahmin ediciden ve \ sum A'dan WA tahmin edebiliriz .W

Ne yazık ki, bulduğum yöntem, yoğunluk ile dağılımdan örnek aldığımızda tutarlılığı gösteriyor . oluşturulma şekli nokta ızgarasını örneklememi gerektirir (orijinal çekiliş yerine ). Bu istatistikte.SE sorusu, doğrudan dağıtımdan örnekleme yapmak yerine sadece böyle bir ızgarada örnek Bernoullis'i örnekleyebildiğimizde ne olacağına dair 1 boyutlu (daha basit) bir sorun istiyorum.fAf

grafik sınırları için referanslar:

L. Lovasz ve B. Szegedy. Yoğun grafik dizilerinin sınırları ( arxiv ).

Borgs, J. Chayes, L. Lovasz, V. Sos ve K. Vesztergombi. Yoğun grafiklerin yakınsak dizileri i: Alt çizgi frekansları, metrik özellikler ve test. ( arxiv ).

Gösterim:

aralığında pozitif desteği olan cdf ve pdf ile sürekli bir dağılım düşünün . Varsayalım , herhangi bir nokta kütle sahip her türevlenebilir ve aynı zamanda bu ve sup olan aralığına . Let rastgele değişken ortalama dağılımından örneklenir . üzerindeki tekdüze rastgele değişkenlerdir .Ff[0,1]fFsupz[0,1]f(z)=c<f[0,1]XFXFUi[0,1]

Sorun ayarlandı:

Genellikle dağılımının ile rastgele değişken olmasına izin verebilir ve olağan ampirik dağıtım işleviyle olarak çalışabiliriz burada gösterge fonksiyonudur. Bu ampirik dağılımın nin kendisinin rastgele ( sabitlendiği yerde olduğuna dikkat edin .X1,,XnF

F^n(t)=1ni=1nI{Xit}
IF^n(t)t

Ne yazık ki, doğrudan numune . Bununla birlikte, sadece üzerinde pozitif desteği olduğunu biliyorum ve rasgele değişkenler burada , başarı olasılığı olan Bernoulli dağılımı olan rastgele bir değişken burada ve yukarıda tanımlanmıştır. Yani, . Bu değerlerinden tahmin etmenin açık bir yolu, buradaFf[0,1]Y1,,YnYi

pi=f((i1+Ui)/n)/c
cUiYiBern(pi)FYi
F~n(t)=1i=1nYii=1tnYi
tavan işlevidir (yani, en yakın tam sayıya yuvarlanır) ve (sıfıra bölmeyi ve evrenin çökmesini önlemek için ) yeniden çiz . Bu Not aynı zamanda bu yana rasgele bir değişkendir rasgele değişkenlerdir.i=1nYi=0F~(t)Yi

Sorular:

En kolaydan en zoruna (düşündüğüm şey).

  1. Bu (ya da benzer bir şeyin) bir adı olup olmadığını bilen var mı ? Bazı özelliklerini görebildiğim bir referans verebilir misiniz?F~n

  2. Şöyle , bir arasında tutarlı bir tahmin (ve bu kanıtlanabilir)?nF~n(t)F(t)

  3. ' olarak sınırlayıcı dağılımı nedir ?F~n(t)n

  4. İdeal olarak, aşağıdakileri - örneğin fonksiyonu olarak sınırlamak istiyorum , ama gerçeğin ne olduğunu bilmiyorum. açılımı olasılık Big OnOP(log(n)/n)OP

supC[0,1]C|F~n(t)F(t)|dt

Bazı fikirler ve notlar:

  1. Bu , ızgara tabanlı bir tabakalaşma ile kabul-red örneklemesi gibi görünmektedir. Olmasın, çünkü teklifi reddedersek başka bir örnek çizmeyiz.

  2. Eminim bu önyargılı. Alternatif tarafsız, ancak hoş olmayan bir özelliğe sahip olduğunu düşünüyorum. .F~n

    F~n(t)=cni=1tnYi
    P(F~(1)=1)<1
  3. Bir eklenti tahmincisi olarak kullanmakla ilgileniyorum . Bunun yararlı bir bilgi olduğunu düşünmüyorum, ama belki de bunun neden olabileceğini biliyorsunuzdur.F~n

R'deki örnek

Ampirik dağılımı ile karşılaştırmak istiyorsanız bazı R kodu . Maalesef bazı girintiler yanlış ... Bunu nasıl düzeltebileceğimi bilmiyorum.F~n

# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)


# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
  u <- sort(runif(n)) 
  x <- qD(u) # samples for empirical dist
  z <- 0 # keep track of how many y_i == 1
  # take bernoulli samples at the points s
  s <- seq(0,1-1/n,length=n) + runif(n,0,1/n) 
  p <- dD(s) # density at s
  while(z == 0){ # make sure we get at least one y_i == 1
    y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
    z <- sum(y)
  }
  result <- list(x=x, y=y, z=z)
  return(result)
}

sim <- function(simdat, n, w){
  # F hat -- empirical dist at w
  fh <- mean(simdat$x < w) 
  # F tilde
  ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
  # Uncomment this if we want an unbiased estimate.
  # This can take on values > 1 which is undesirable for a cdf.
  ### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
  return(c(fh, ft))
}


set.seed(1) # for reproducibility

n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))

# compare the true value to the empirical means
pD(w) # the truth 
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var)  # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth


# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
     main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
     rep(seq(0,1,length=n+1),each=2),
     col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
      rep(seq(0,1,length=dat$z+1),each=2),
      col="blue")

Yukarıdaki verilerden çıktı

DÜZENLEMELER:

DÜZENLEME 1 -

Bunu @ whuber'ın yorumlarına hitap etmek için düzenledim.

DÜZENLEME 2 -

R kodunu ekledim ve biraz daha temizledim. Okunabilirlik için gösterimi biraz değiştirdim, ama aslında aynı. İzin verildiği anda buna bir ödül vermeyi planlıyorum, bu yüzden daha fazla açıklama istiyorsanız lütfen bana bildirin.

DÜZENLE 3 -

Sanırım @ kardinalin sözlerine değindim. Toplam varyasyondaki yazım hatalarını düzelttim. Bir ödül ekliyorum.

DÜZENLEME 4 -

@Cardinal için bir "motivasyon" bölümü eklendi.


1
Tanımsız nesnelere atıfta bulunduğunuzda sorunuz belirsizleşmeye ve bazı kendine özgü gösterimleri kullanmaya başladı. Örneğin, erken ortaya çıkar, ancak ile belirgin bir bağlantısı yoktur ve sadece daha fazla okuyarak bunu "ayrık bir dağıtım değil" olarak düşündüğünüzü öğreniriz - ama ne tür bir nesne? En önemlisi, " ne anlama geliyor?" "genellikle supremum anlamına gelir, ancak belki de bir dağıtımın temel desteğiyle bir ilgisi vardır? sorunun.fFsupzf(z)sup
whuber

1
Yorumlarınız için @whuber teşekkürler. Gözden geçirilmiş sorunun hala kafa karıştırıcı olup olmadığını lütfen bize bildirin.
user1448319 14:13

1
Aha! Bu, sabit olmadığını ve asimtotiklerle ilgilendiğinizi gördüğüm ilk gösterge . Eğer doğruysa , seçme esnekliğiniz vardır , bu örnek noktaların uyarlanabilir seçimleri (sabit bir ızgara ile sınırlamak yerine ) pek çok olasılık açmaz mı? Ayrıca bu şekilde olduğunu yersiz varsayımlar, yapıyoruz bellidir süreklidir (eşit biçimde, ise mutlak sürekli ). Bu analize yardımcı olabilecek temel dağıtım ilgili başka neler varsa ? nn{i/n}fFF
whuber

2
Birkaç başka soru / açıklama: için gerçekten üçgen bir dizi , düşündüğünüz nasıl inşa önerdiğinize dayanmaktadır . nasıl , aynı şekilde (aynı derecede kolay) Bernoulli rastgele değişkenleri, koşullu başarı olasılığı ile örnekleyebilmelisiniz , burada düzgün bir rasgele değişkentir. Bu doğru mu? (Sorunuzla ilgili biraz daha bağlam muhtemelen bu sorguların çoğunu çözecektir.) Şerefe. piYi,ni=1,,npif(U)/cU
kardinal

2
Bu soru o kadar geliştirildi ki, daha önce yorumları gördüğümü fark edene kadar bile tanımadım. Şimdi gerçekten ilginç ve çok daha iyi yazılmış bir soru.
Glen_b -18 Mart'ta Monica'yı

Yanıtlar:


1

Bu referans

DÜZENLEME: ÇOK BENZER İSTATİSTİKE EK REFERANS "Eksik Gözlemlerden Parametrik Olmayan Tahmin" EL Kaplan ve Paul Meier, Amerikan İstatistik Derneği Dergisi, Cilt. 53, No. 282 (Haziran. 1958), sayfa 457-481

üzerindeki ECDF benzeri tahmincinize değil Ben bir zaman aralığına .[0,1][0,)

Yanlılığı tahmin etmek, yeterince iyi davranırsa , çekirdek düzgünleştirme yoluyla dağılımın makul bir tahminini yaptıktan sonra mümkün olabilir (bkz. Örneğin, Wikipedia'da Khmaladze dönüşümü ).

, Grafik sorun tahmin iki değişkenli durumda den önemsiz bir simetri kısıtlama Jean-David Fermanian Dragan Raduloviç'e ve Sansarı Wegkamp (2004) 'de bir yaklaşım benzer görünmektedir olsa ampirik copula zayıf yakınsama süreçler , Bernoulli , cilt. 10, hayır. 5, 847-860, @cardinal'in "Çok Değişkenli Delta Yöntemi" ni belirttiği gibi.f=W/WA


0

Bu, yukarıdaki 2. ve 3. soruları cevaplar. Yine de gerçekten bir referans istiyorum (1. sorudan).

olduğunda bu henüz dikkate .Yi=0

düşünün , sonra burada abonelikler türevleri gösterir. Hatırlayın . Başlayalım Bu yüzden olduğuna dikkat edin ve . Ayrıca, g(A,B)=A/(A+B)

gA(A,B)=(A+B)1+A(A+B)2gB(A,B)=A(A+B)2gAA(A,B)=2B(A+B)3gAB(A,B)=(AB)(A+B)3gBB(B,B)=2A(A+B)3
pi=f((i1+Ui)/n)/c
R=1ni=1ntYi,μR=E(R)=0tp(u)du=c1F(t)S=1nnt+1nYi,μS=E(S)=t1p(u)du=c1(1F(t))
μR+μS=c1F(t)+c1(1F(t))=c1g(μR,μS)=F(t)
 Var(R)=1n2i=1nt Var(Yi)=1n0tf(u)/c(1f(u)/c)du=1nc20tf(u)(cf(u))du Var(S)=1nc2t1f(u)(cf(u))du
Not bu bağımsızlığı ile s. Cov(R,S)=0Yi

Şimdi, almak için taylor genişletme kullanıyoruz

E(F~n(t))=E(1i=1nYii=1tnYi)=E(nRnR+nS)=E(RR+S)=E(g(R,S))=g(μR,μS)+12E((RμR)2)gRR(μR,μS)+E((RμR)(SμS))gRS(μR,μS)+12E((SμS)2)gSS(μR,μS)+=F(t)+12E((RμR)2)2μS(μR+μS)3+E((RμR)(SμS))(μRμS)(μR+μS)3+12E((SμS)2)2μR(μR+μS)3+=F(t)+(μR+μS)3(E((RμR)2)μS+E((RμR)(SμS))(μRμS)+E((SμS)2)μR)+=F(t)+c3( Var(R)c(1F(t))+ Cov(R,S)(cF(t)c(1F(t)))+ Var(S)cF(t))+=F(t)+c4((1n0tf(u)(cf(u))du)(1F(t))+(1nt1f(u)(cf(u))du)F(t))+=F(t)+V~F(t)/n+=F(t)+O(n1)
burada Özellikle,
V~F(t)=c2(0tf(u)(cf(u))du)(1F(t))+c2(t1f(u)(cf(u))du)F(t)<c2(0tcf(u)du)(1F(t))+c2(t1cf(u)du)F(t)<c32F(t)(1F(t))
n(F~n(t)F(t))dN(0,VF(t))

Bununla ilgili bir sorun görürseniz lütfen yorum yapın.

DÜZENLEMELER:

Düzenle 1 -

içindeki bir yazım hatası düzeltildi . 4. soru hakkındaki yorumlarınızda önerdiğiniz için @cardinal'e teşekkür ederiz.VF(t)

Düzenle 2 -

Birçok yazım hatası düzeltildi: Birçok yerde olması gereken vardı . Hala @ cardinal'in hakkındaki yanıtına .c1cYi=0


1
Sevgili @ kullanıcı: Bu doğru yolda; İşte bazı öneriler. ( 1 ) ) 'nin ortalaması mevcut değildir, en azından olduğunda ne olacağını belirleyene kadar , bu yüzden analiz doğru değildir. Bir davranışı sıfır olarak tanımlamak bağımsızlık yapısını bozar, ancak hepsi kaybolmaz. ( 2 ) Temel olarak, yaptığınız şey çok değişkenli delta yöntemini uygulamaktır. Bu o Not gelmez ortalama varlığını gerektirir o süpürge (ve daha doğru) olacaktır böylece bu yol giderseniz,. F~n(t)iYi=0F~n(t)
kardinal

2
( 3 ) Listenizdeki Madde 4 aşağıdaki gibi ele alınır. Not buSağ taraftaki ilk terim, ,, açıkça . Sadece orta dönemle başa çıkmak için , ancak bu Markov'un eşitsizliğinin ardından Jensen'in izledi ve aynı zamanda .
supC[0,1]C|F~F|sup[0,1]|F~F~|+01|F~EF~|+O(n1).
{iYi>0}|1cn1iYi|Op(n1/2)Op(n1/2)
kardinal

Sayın kullanıcı: Davayı düşünmenize gerek biraz daha ayrıntı görmek faydalı olacaktır . Tanımladığınız şey şartlı örnekleme. şartına olan olup yanıt (örtük) analizi tutmaz bağımsız yani, (ya da koşullu bağımsız). Bunu görmek için durumuna bakmak faydalı olabilir (sadece tablosunu çizin ). iYi=0Yi{iYi>0}n=22×2
kardinal

Ek olarak,, bu nedenle bu tanım basitleştirilebilir. supCC|F~F|=01|F~F|
kardinal
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.