Sonlu ve sonsuz değişkenlik arasındaki fark nedir


33

Sonlu ve sonsuz varyans arasındaki fark nedir? İstatistik bilgilerim oldukça basit; Wikipedia / Google burada pek yardımcı olmadı.


8
Sonsuz değişkenlikteki dağılımlar ağır kuyrukludur ; çok fazla aykırı var ve görmek için kullanılandan farklı özelliklere sahip olabilir. Örneğin, bir Cauchy dağılımından çekilen örneklerin örnek ortalaması , tek tek örneklerle aynı (Cauchy) dağılıma sahiptir. Bu, örnek ortalamanın herhangi bir bireysel örneklemden daha iyi bir "tahmin edici" olduğu inancından oldukça farklıdır.
Dilip Sarwate

4
Hayır, ağır kuyruklu , sınırsız varyansa sahip değil ya da en azından benim görüşüme göre değil. Ancak, bir istatistikçi değilim ve bu yüzden bu forumdaki en üst düzey kullanıcılardan daha güvenilir bir cevap beklemelisiniz.
Dilip Sarwate

4
Sınırsız varyans, popülasyon varyansını tanımlayan integral (toplam), limit alındıkça sınırlanmış sınırların ötesinde arttığında gerçekleşir. Örneklerden bazıları tartışma burada
Glen_b -Reinstate Monica

2
En önemlisi, çoğu merkezi limit teoreminin böyle bir popülasyon için tutamayacağı ve bazı ortak sonuçların çökeceğini düşünüyorum.
Henry.L 13:15

1
Önemli nokta: Bir varyansı ise nüfus sonsuzdur, ancak varyansı numunesi sonlu, sonra böyle bir örnek istatistiği kullanılarak halkın varyans veya standart sapma herhangi tahmini s2 veya s , ardından sn fena halde önyargılı olacak. Pek çok test istatistiği, etkinin tahmini bir standart hatası üzerinden normalize edilmiş bir etki ölçüsüne dayandığından ve pek çok CI, tahmin edilen bir standart hata ile ölçeklendirmeye dayandığından, bu, sonsuz varyansa sahip değişkenler hakkındaki istatistiksel çıkarımın muhtemel olacağıanlamına gelir.fena halde önyargılı olmak.
Alexis

Yanıtlar:


48

Rasgele bir değişkenin "sonsuz değişkenliğe" sahip olması ne anlama gelir? Rasgele bir değişkenin sonsuz beklentiye sahip olması ne anlama gelir? Her iki durumda da açıklama oldukça benzerdir, bu nedenle beklenti durumuyla başlayalım ve ondan sonra farklılık gösterelim.

sürekli rastgele bir değişken (RV) olmasına izin verin (sonuçlarımız daha genel olarak geçerli olacaktır, kesikli durumlar için integralleri toplamla değiştirin). Sergilemeyi kolaylaştırmak için, X 0 olduğunu varsayalım .XX0

Bu beklenti integral ile tanımlanır bu integral bulunduğunda, yani sonludur. Aksi takdirde, beklentinin mevcut olmadığını söyleriz. Bu uygunsuz bir integraldir ve tanımı gereği 0 x f ( x )

EX=0xf(x)dx
bu sınır sonlu olması için, kuyruk katkı sıfır olmalıdır olduğunu biz olmalıdır lim bir ∞ iken∞ iken bir x f ( x )
0xf(x)dx=limbir0birxf(x)dx
Durum için olması gereken (ancak yeterli olmayan) bir koşul lim x x f ( x ) = 0'dır . Yukarıda gösterilen durumun söylediği,(sağdaki) kuyruktan beklentiyeolankatkının ortadan kalkması gerektiğidir. Öyle değilse, beklenti, keyfi bir şekilde yüksek gerçekleşen değerlerin katkılarıyla belirlenir. Uygulamada, bu, ampirik araçların çok dengesiz olacağı anlamına gelecektir, çünkünadiren gerçekleşen çok büyük değerler tarafından yönetilecek
limbirbirxf(x)dx=0
limxxf(x)=0. Ve örnek araçların bu dengesizliğinin büyük örneklerle birlikte kaybolmayacağını unutmayın — bu modelin yerleşik bir parçasıdır!

Çoğu durumda, bu gerçekçi görünmüyor. Bir (hayat) sigorta modeli diyelim, , bazı (insan) ömürleri için modeller. Bunu biliyoruz ki, X > 1000 oluşmuyor, ancak pratikte üst sınırı olmayan modeller kullanıyoruz. Sebep açık: Zor bir üst sınır bilinmemektedir, eğer bir kişi 110 yaşındaysa, bir yıl daha yaşayamaz! Bu yüzden sert üst sınırı olan bir model yapay görünüyor. Yine de aşırı üst kuyruğun çok fazla etkisinin olmasını istemiyoruz.XX>1000

Eğer sınırlı bir beklentisi varsa, o zaman modeli etkilemeden modeli zor bir üst limite değiştirebiliriz. Bulanık bir üst sınırı olan durumlarda iyi görünüyor. Modelin sonsuz beklentisi varsa, modele getirdiğimiz herhangi bir üst sınırın çarpıcı sonuçları olacaktır! Sonsuz beklentinin asıl önemi budur.X

Sonlu beklenti ile üst sınırlar konusunda bulanık olabiliriz. Sonsuz beklenti ile yapamayız .

Şimdi, sonsuz değişkenlik, mutatis mutandi için de aynı şey söylenebilir.

Daha açık yapmak için, bir örnek görelim. Örneğin, Pareto dağıtımını, R paketinde (CRAN'da) actuar'da pareto1 olarak kullanıyoruz - tek parametreli Pareto dağılımı, Pareto tip 1 dağılımı olarak da bilinir. F ( x ) = { α m α tarafından verilen olasılık yoğunluk fonksiyonuna sahiptir. m>0,α>0 olan bazı parametreler içinx<m. Tümα>1beklenti mevcut ve verilira

f(x)={αmαxα+1,xm0,x<m
m>0,α>0α>1. Ne zamanalfa1beklenti yapmak yok ya dediğimiz gibi tanımlayarak ayrılmaz sonsuza yakınsar, bunun nedeni, sonsuzdur. İlk moment dağılımınıtanımlayabiliriz(postyazınabakınız. Bazı bilgiler ve referanslar içinkuantiller ve ortanca yerine ne zaman tantiles ve medial kullanırız?) E(M)= M m xf(x) olarakαα1mα1 (bu beklentinin kendisinde olup olmadığına bakılmaksızın var olur). (Daha sonra düzenleme: "İlk an dağılımı" ismini icat ettim, daha sonra bunun "resmi" olanlarınkısmi anlarile ilgili olduğunu öğrendim).
E(M)=mMxf(x)dx=αα-1(m-mαMα-1)

Beklenti olduğunda ( ), E r ( M ) = E ( m ) / E ( ) = 1 - ( mα>1 zamanαsadece bir küçük beklenti "zar zor var", böylece, bir beklenti tanımlayan yekpare yavaş yakınsayacağı, bir daha büyük bit. M=1ile örneğe bakalım,

Er(M)=E(m)/E()=1-(mM)α-1
α. Ardından E r ( M ) 'yi R'nin yardımıyla çizelim:m=1,α=1.2Er(M)
### Function for opening new plot file:
open_png  <-  function(filename) png(filename=filename,
                                     type="cairo-png")

library(actuar) # from CRAN
### Code for Pareto type I distribution:
# First plotting density and "graphical moments" using ideas from http://www.quantdec.com/envstats/notes/class_06/properties.htm   and used some times at cross validated

m  <-  1.0
alpha <- 1.2
# Expectation:
E   <-  m * (alpha/(alpha-1))
# upper limit for plots:
upper  <- qpareto1(0.99, alpha, m)   
#
open_png("first_moment_dist1.png")
Er  <- function(M, m, alpha) 1.0 - (m/M)^(alpha-1.0)
### Inverse relative first moment distribution function,  giving
#   what we may call "expectation quantiles":
Er_inv  <-   function(eq, m, alpha) m*exp(log(1.0-eq)/(1-alpha))     

plot(function(M) Er(M, m, alpha), from=1.0,  to=upper)
plot(function(M) ppareto1(M, alpha, m), from=1.0,  to=upper, add=TRUE,  col="red")
dev.off()

Bu arsa üreten:

görüntü tanımını buraya girin

μα>2

Yukarıda tanımlanan Er_inv işlevi, nicel fonksiyona bir analog olan, ters bağıl ilk moment dağılımıdır. Sahibiz:

> ### What this plot shows very clearly is that most of the contribution to the expectation come from the very extreme right tail!
# Example   
eq  <-  Er_inv(0.5, m, alpha)
ppareto1(eq, alpha, m)
eq

> > > [1] 0.984375
> [1] 32
> 

μn=5

set.seed(1234)
n  <-  5
N  <-  10000000  # Number of simulation replicas
means  <-  replicate(N,  mean(rpareto1(n, alpha, m) ))


> mean(means)
[1] 5.846645
> median(means)
[1] 2.658925
> min(means)
[1] 1.014836
> max(means)
[1] 633004.5
length(means[means <=100])
[1] 9970136

Okunabilir bir çizim elde etmek için, sadece numunenin çok büyük bir kısmı olan 100'ün altındaki değerlere sahip numuneler için histogramı gösteriyoruz.

open_png("mean_sim_hist1.png")
hist(means[means<=100],  breaks=100, probability=TRUE)
dev.off()

görüntü tanımını buraya girin

Aritmetik araçların dağılımı çok eğridir,

> sum(means <= 6)/N
[1] 0.8596413
> 

ampirik araçların neredeyse% 86'sı teorik ortalamadan beklentiden daha az ya da eşittir. Beklememiz gereken şey budur, çünkü ortama olan katkının çoğu, çoğu örnekte temsil edilmeyen aşırı üst kuyruktan gelir .

Daha önceki sonucumuzu yeniden değerlendirmek için geri dönmeliyiz. Ortalamanın varlığı üst sınırlar hakkında bulanıklaşmayı mümkün kılarken, bunu görüyoruz. "ortalama ancak zorlukla var" olduğunda, integralin yavaşça yakınsak olduğu anlamına geldiğini, gerçekten de üst sınırlar için bu kadar bulanık olamayacağımızı görüyoruz . Yavaşça yakınsak integraller, beklentinin var olduğunu varsaymayan yöntemleri kullanmanın daha iyi olabileceği sonucuna varmıştır . İntegral çok yavaş bir şekilde birleştiğinde, pratikte hiç birleşmemiş gibi pratiktedir. Bir yakınsak integralden sonra elde edilen pratik faydalar, yavaş yakınsak durumda bir kimeradır! Bu, NN Taleb'in http://fooledbyrandomness.com/complexityAugust-06.pdf'deki sonucunu anlamanın bir yoludur.


2
Harika cevap
Karl

2

Varyans, rastgele bir değişkenin değerlerinin dağılımının dağılımının ölçüsüdür. Bu tek önlem değil, örneğin ortalama mutlak sapma alternatiflerden biri.

Sonsuz varyans, rastgele değerlerin ortalamanın etrafında çok sıkı bir şekilde yoğunlaşma eğiliminde olmadığı anlamına gelir . Bir sonraki rasgele sayının ortalamanın çok uzağında olması için yeterince büyük bir olasılık olduğu anlamına gelebilir.

Normal (Gaussian) gibi dağılımlar, ortalamanın çok uzağında rasgele sayılar üretebilir, ancak bu tür olayların olasılığı , sapmanın büyüklüğü ile çok hızlı bir şekilde azalır .

Bu bakımdan, Cauchy dağılımının ya da Gaussian (normal) dağılımın grafiğine baktığınızda, görsel olarak çok farklı görünmüyorlar. Bununla birlikte, Cauchy dağılımının varyansını hesaplamaya çalışırsanız, Gaussian'ın sonlu olduğu halde, sonsuz olacaktır. Bu nedenle normal dağılım, Cauchy'lere kıyasla ortalamasının üzerinde daha sıkı.

BT, eğer matematikçilerle konuşursanız, Cauchy dağılımının iyi tanımlanmış bir anlamı olmadığı, sonsuz olduğu konusunda ısrar edecekler. Bu, Cauchy'nin simetrik olduğu gerçeğine işaret eden fizikçilere saçma geliyor, bu nedenle, bir anlamı olması şart. Bu durumda, sorunun Cauchy'nin dağılımıyla değil, sizin tanımınızla olduğunu savunuyorlardı.


2
-

1
@kjetilbhalvorsen, "hiçbir matematikçi Cauchy'nin sonsuz anlamına gelmediğini söyleyemez" - bu tam olarak tanımlanmamış demek, istatistik profesörümün söylediği tam anlamıyla değil; "elbette sıfır, ve eğer aynı fikirde değilsen, demek istediğin tanımında bir sorun var"
Aksakal

Ona ortalamanın tanımını sordunuz mu?
kjetil b halvorsen

@kjetilbhalvorsen, Riemann integralinden bahsediyorsanız, matematik prof. Onun argümanı, Riemann toplamında, belirli bir miktar ya da toplamın bölümlenmesi sırasını tanımlamamanızdır, bu nedenle toplamınız sonsuz olacaktır. Fizikçiler nokta bir simetri, açıkça, "sıfır olması gerekiyor"
Aksakal

1
O zaman belki ortalamayı tanımladı, medyanı tanımladığını söyleyebilirsin.
kjetil b halvorsen

2

Bakmanın alternatif bir yolu da nicel işlevdir.

S(F(x))=x

O zaman bir anı veya beklentiyi hesaplayabiliriz

E(T(x))=-T(x)f(x)dx

f(x)dx=dF

E(T(x))=01T(S(F))dF

T(x)=x. Aşağıdaki resimde bu, F ile dikey çizginin arasındaki alana karşılık gelir .x=0 (Sol taraftaki alan ne zaman negatif olarak sayılabilir? T(x)<0). İkinci an, aynı alanın hat boyunca döndürüldüğünde süpürdüğü hacme karşılık gelir.x=0 (bir faktör ile π fark).

Normal karşı Cauchy

Resimdeki eğriler, her bir nicelinin hesaplamaya ne kadar katkıda bulunduğunu göstermektedir.

Normal eğri için büyük bir katkısı olan sadece çok az miktar vardır. Fakat Cauchy eğrisi için büyük katkısı olan daha birçok nicelik var. Eğer eğriT(S(F)) F sıfıra ya da birine yaklaştığında sonsuzluğa yeterince hızlı gider, o zaman alan sonsuz olabilir.

Bu sonsuzluk çok tuhaf olmayabilir, çünkü integrandin kendisi mesafe (ortalama) veya kare mesafe (varyans) sonsuz olabilir. Bu sadece ne kadar ağırlık , ne kadar F, yüzde sonsuz kuyrukların olduğu bir sorudur .

Sıfırdan (ortalama) uzaklığın veya ortalamadan (varyanstan) kare mesafenin toplanmasında / bütünleşmesinde, çok uzakta olan tek bir nokta, ortalama mesafeyi (veya kare mesafeyi) yakınlardaki bir çok noktadan daha fazla etkileyecektir.

Bu yüzden sonsuzluğa doğru hareket ettiğimizde yoğunluk düşebilir, ancak bazı (artan) miktarların, örneğin uzaklık veya kare mesafenin toplamı üzerindeki etki mutlaka değişmez.

Belirli bir mesafedeki her kütle miktarı için x bir mesafede yarım veya daha fazla kütle var 2x o zaman toplam kütlenin toplamını elde edersiniz. Σ12n birleşecektir çünkü kütlenin katkısı azalır, ancak bu katkı azalmadığından sapma sonsuz olur Σ((2x)n)212n


1

Karşılaştığınız çoğu dağıtım muhtemelen sonlu varyansa sahiptir. İşte ayrık bir örnekX Bu sonsuz varyansa sahip ancak sonlu demek:

Olasılık kütle fonksiyonu olsun p(k)=c/|k|3, için kZ{0}, p(0)=0, nerede c=(2ζ(3))-1: =(2Σk=11/k3)-1<. Her şeyden önce çünküE|X| <sonlu ortalamaları vardır. Ayrıca sonsuz varyansa sahiptir çünkü2Σk=1k2/|k|3=2Σk=1k-1=.

Not: ζ(x): =Σk=1k-xRiemann zeta işlevidir. Başka pek çok örnek var, yazmak çok hoş değil.


4
Dağıtım (yani eşit bir fonksiyonu) simetriktir diye, yok değil mutlaka ortalama yapmak0; Toplam olmayabilir, çünkü toplam / integral biçimden çıkıyor-
Dilip Sarwate
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.