Ampirik bir CDF entegre etme

Ampirik bir dağılımım . Aşağıdaki gibi hesaplıyorum $G(x)$

    x <- seq(0, 1000, 0.1)
    g <- ecdf(var1)
    G <- g(x)

I göstermektedirler , yani süre pdf ED olup. $h(x) = dG/dx$ $h$ $G$

Şimdi entegrasyonun üst limiti (örneğin, ) için bir denklemi çözmek istiyorum , böylece beklenen değeri biraz . $a$ $x$ $k$

Bu gelen entegre olan için , Anlatmalıydım . için çözmek istiyorum . $0$ $b$ $\int xh(x)dx = k$ $b$

Parçalara entegre ederek, denklemi şu şekilde yeniden yazabilirim:

; burada integral ila ------- (1) $bG(b) - \int_0^b G(x)dx = k$ $0$ $b$

Bence integrali aşağıdaki gibi hesaplayabilirim

    intgrl <- function(b) {
        z <- seq(0, b, 0.01)
        G <- g(z)
        return(mean(G))
     }

Fakat bu fonksiyonu

    library(rootSolve)
    root <- uniroot.All(fun, c(0, 1000))

eq (1) eğlenceli olduğunda, aşağıdaki hatayı alıyorum

    Error in seq.default(0, b, by = 0.01) : 'to' must be of length 1

Bence sorun aralığımı geçerken fonksiyonumun intgrlsayısal bir değerle değerlendirilmesiuniroot.Allc(0,1000)

R'de bu durumda için nasıl çözmeliyim ? $b$

r integral ecdf

— user46768
kaynak

Sıralanan verilerin izin verin . Ampirik CDF anlamak için , değerleri birini düşünün o --let çağrısı --ve bazı numara varsayalım bir olan az ve arasında eşit . Mümkün olan tüm veri değerlerinin yalnızca olduğu bir aralık $x_1 \le x_2 \le \cdots \le x_n$ $G$ $x_i$ $\gamma$ $k$ $x_i$ $\gamma$ $t \ge 1$ $x_i$ $\gamma$ $[\alpha, \beta]$ $\gamma$ belirir. Daha sonra, tanımı gereği, bu aralık içinde sabit değer alır az numaraları ve sabit bir değere atlar daha büyük sayılar için . $G$ $k/n$ $\gamma$ $(k+t)/n$ $\gamma$

ECDF

aralığından katkıyı göz önünde bulundurun . Her ne kadar bir fonksiyonu değildir - bu boyut noktası ölçümüdür de --Forum tamamlayıcı olan tanımlı bir sade ve basit entegrali haline dönüştürmek için parçaları ile entegrasyon yoluyla. Bunu aralığı boyunca yapalım : $\int_0^b x h(x) dx$ $[\alpha,\beta]$ $h$ $t/n$ $\gamma$ $[\alpha,\beta]$

\int_{α}^{β} x h (x) d x = (x G, (x)) |_{α}^{β} - \int_{α}^{β} G, (x) d x = (β G, (β) - α G, (α)) - \int_{α}^{β} G, (x) d x .

$\int_\alpha^\beta x h(x) dx = \left(x G(x)\right)\vert_\alpha^\beta - \int_\alpha^\beta G(x) dx = \left(\beta G(\beta) - \alpha G(\alpha)\right) -\int_\alpha^\beta G(x) dx.$

En süreksiz olmasına rağmen yeni integrand, , integrallenebilirdir. Değeri, atlamadan önceki ve sonraki parçalara entegrasyon alanını kırarak kolayca bulunabilir : $\gamma$ $G$

\int_{α}^{β} G (x) d x = \int_{α}^{γ} G (α) d x + \int_{γ}^{β} G (β) d x = (γ - α) G (α) + (β - γ) G (β) .

$\int_\alpha^\beta G(x)dx = \int_\alpha^\gamma G(\alpha) dx + \int_\gamma^\beta G(\beta) dx = (\gamma-\alpha)G(\alpha) + (\beta-\gamma)G(\beta).$

Bunu yukarıdaki yerine koymak ve verimlerini geri çağırmak $G(\alpha)=k/n, G(\beta)=(k+t)/n$

\int_{α}^{β} x h (x) d x = (β G, (β) - α G, (α)) - ((γ - α) G, (α) + (β - γ) G, (β)) = γ \frac{t}{n} .

$\int_\alpha^\beta x h(x) dx = \left(\beta G(\beta) - \alpha G(\alpha)\right) - \left((\gamma-\alpha)G(\alpha) + (\beta-\gamma)G(\beta)\right) = \gamma\frac{t}{n}.$

Başka bir deyişle, bu integral her atlamanın konumunu ( ekseni boyunca ) o atlamanın boyutuyla çarpar . Atlamanın boyutu $X$

\frac{t}{n} = \frac{1}{n} + \dots + \frac{1}{n}

$\frac{t}{n} = \frac{1}{n} + \cdots + \frac{1}{n}$

eşit olan her veri değeri için bir terim . Tüm bu tür atlar katkıları ekleme gösterileri olduğunu $\gamma$ $G$

\int_{0}^{b} x h (x) d x = \underset{ben : 0 \leq x_{ben} \leq b}{Σ} (x_{ben} \frac{1}{n}) = \frac{1}{n} \underset{x_{ben} \leq b}{Σ} x_{ben} .

$\int_0^b x h(x) dx = \sum_{i:\, 0 \le x_i \le b} \left(x_i\frac{1}{n}\right) = \frac{1}{n}\sum_{x_i\le b}x_i.$

Buna "kısmi ortalama" diyebiliriz, bunun kısmi bir toplamın katına eşit olduğunu görür . (O olduğunu lütfen not olmayan bir beklenti Bu aralığı kesildi altta yatan dağılımının bir versiyonunun beklentisi ile ilgili olabilir. : değiştirmek gerekir göre faktör burada , içindeki veri değerlerinin sayısıdır $1/n$ $[0,b]$ $1/n$ $1/m$ $m$ $[0,b]$ .)

verildiğinde , hangi bulmak istiyorum $k$ $b$ $\frac{1}{n}\sum_{x_i\le b}x_i = k.$ $k$ $j$

\frac{1}{n} Σ_{ben = 1}^{j - 1} x_{ben} \leq k < \frac{1}{n} Σ_{ben = 1}^{j} x_{ben},

$\frac{1}{n}\sum_{i=1}^{j-1} x_i \le k \lt \frac{1}{n}\sum_{i=1}^j x_i,$

$b$ $[x_{j-1}, x_j)$ $b$

Raşağıdaki gibi, arama ailesini cumsumkullanarak herhangi bir belirtilen değeri geçtiği yerde kısmi toplamı hesaplar ve bulur which:

set.seed(17)
k <- 0.1
var1 <- round(rgamma(10, 1), 2)
x <- sort(var1)
x.partial <- cumsum(x) / length(x)
i <- which.max(x.partial > k)
cat("Upper limit lies between", x[i-1], "and", x[i])

Bu Üstel dağılımdan çekilen veri örneğindeki çıktı:

Üst sınır 0,39 ile 0,57 arasındadır

$0.1 = \int_0^b x \exp(-x)dx,$ $0.531812$

$G$

ECDF figürü

— whuber
kaynak

Bu çok açık ve yararlı bir cevap, bu yüzden teşekkür ederim!

— user46768