Birisi lütfen Pareto dağılımları ve Merkezi Limit Teoremi arasındaki ilişkinin basit (yalın bir kişi) açıklamasını sağlayabilir mi (örn. Geçerli mi? Neden / neden olmasın?)? Aşağıdaki ifadeyi anlamaya çalışıyorum:
Birisi lütfen Pareto dağılımları ve Merkezi Limit Teoremi arasındaki ilişkinin basit (yalın bir kişi) açıklamasını sağlayabilir mi (örn. Geçerli mi? Neden / neden olmasın?)? Aşağıdaki ifadeyi anlamaya çalışıyorum:
Yanıtlar:
İfade genel olarak doğru değildir - eğer şekil parametresi ( ) 1'den büyükse Pareto dağılımı sonlu bir ortalamaya sahiptir.
Hem ortalama hem de varyans ( ) olduğunda, merkezi limit teoreminin olağan formları - örneğin klasik, Lyapunov, Lindeberg uygulanacaktır
Klasik merkezi limit teoreminin açıklamasına buradan bakın
Alıntı biraz gariptir, çünkü merkezi limit teoremi (belirtilen formlardan herhangi birinde) örnek ortalamanın kendisi için değil, standartlaştırılmış bir ortalamaya (ve ortalama ve varyansı olan bir şeye uygulamaya çalışırsak) sonlu değil, gerçekte ne hakkında konuştuğumuzu çok dikkatli bir şekilde açıklamamız gerekir, çünkü pay ve payda sonlu sınırları olmayan şeyleri içerir).
Bununla birlikte (merkezi limit teoremleri hakkında konuşmak için doğru bir şekilde ifade edilmemesine rağmen) altta yatan bir noktaya sahiptir - örnek ortalaması nüfus ortalamasına yakınlaşmayacaktır (büyük sayıların zayıf kanunu geçerli değildir, çünkü ortalamayı tanımlayan integral sonlu değildir).
Kjetil'in yorumlarda haklı olarak işaret ettiği gibi, yakınsama oranının korkunç olmasını önlemek için (yani pratikte kullanabilmek için), "ne kadar hızlı" / "ne kadar hızlı" Normal bir yaklaşımdan pratik bir kullanım istersek , (diyelim) için yeterli bir yaklaşıma sahip olmanın bir yararı yoktur .
Merkezi limit teoremi varış noktasıyla ilgilidir ancak oraya ne kadar hızlı ulaştığımız hakkında hiçbir şey söylemez; Bununla birlikte, oranı (belirli bir anlamda) bağlayan Berry-Esseen teoremi teoremi gibi sonuçlar vardır . Berry-Esseen durumunda, üçüncü mutlak moment ( ) açısından standartlaştırılmış ortalamanın dağılım fonksiyonu ile standart normal cdf arasındaki en büyük mesafeyi sınırlar .
Yani Pareto için, eğer , en azından yaklaşık yaklaşıklığın ne kadar kötü olabileceğine ve oraya ne kadar çabuk ulaştığımıza bağlı olabiliriz . (Öte yandan, cdfs'deki farkı sınırlamak zorunlu olarak özellikle "pratik" bir şey değildir - ilgilendiğiniz şey özellikle kuyruk alanındaki farkla ilgili bir sınırla ilişkili olmayabilir). Bununla birlikte, bir şeydir (ve en azından bazı durumlarda bir cdf bağlı daha doğrudan yararlıdır).
CLT için varsayımların yerine getirildiği bir durumda bile, merkezi limit teoreminden (CLT) yaklaşımın pareto dağılımı için ne kadar kötü olabileceğini gösteren bir cevap ekleyeceğim. Varsayım, pareto için şu anlamına gelen sonlu bir varyansın olması gerektiğidir.. Bunun neden böyle olduğuna dair daha teorik bir tartışma için, cevabımı burada bulabilirsiniz: Sonlu ve sonsuz varyans arasındaki fark nedir
Parametre ile pareto dağılımındaki verileri simüle edeceğim , böylece varyans "zar zor var olur". Simülasyonlarımı yeniden yapfarkı görmek için! İşte bazı R kodu:
### Pareto dist and the central limit theorem
###
require(actuar) # for (dpqr)pareto1()
require(MASS) # for Scott()
require(scales) # for alpha()
# We use (dpqr)pareto1(x,alpha,1)
#
alpha <- 2.1 # variance just barely exist
E <- function(alpha) ifelse(alpha <= 1,Inf,alpha/(alpha-1))
VAR <- function(alpha) ifelse(alpha <= 2,Inf,alpha/((alpha-1)^2 * (alpha-2)))
R <- 10000
e <- E(alpha)
sigma <- sqrt(VAR(alpha))
sim <- function(n) {
replicate(R, {x <- rpareto1(n,alpha,1)
x <- x-e
mean(x)*sqrt(n)/sigma },simplify=TRUE)
}
sim1 <- sim(10)
sim2 <- sim(100)
sim3 <- sim(1000)
sim4 <- sim(10000) # do take some time ...
### These are standardized so have all theoretically variance 1.
### But due to the long tail, the empirical variances are (surprisingly!) much lower:
sd(sim1)
sd(sim2)
sd(sim3)
sd(sim4)
### Now we plot the histograms:
hist(sim1,prob=TRUE,breaks="Scott",col=alpha("grey05",0.95),main="simulated pareto means",xlim=c(-1.8,16))
hist(sim2,prob=TRUE,breaks="Scott",col=alpha("grey30",0.5),add=TRUE)
hist(sim3,prob=TRUE,breaks="Scott",col=alpha("grey60",0.5),add=TRUE)
hist(sim4,prob=TRUE,breaks="Scott",col=alpha("grey90",0.5),add=TRUE)
plot(dnorm,from=-1.8,to=5,col=alpha("red",0.5),add=TRUE)
Ve işte konu:
Bunu örnek boyutunda bile görebilirsiniz normal yaklaşımdan çok uzaktayız. Ampirik varyanslar gerçek teorik varyanstan çok daha düşüktüraşırı sağ kuyruktaki dağılımın birçok örnekte görünmeyen kısımlarından sapmaya çok büyük bir katkımız olduğu gerçeğidir. Bu, varyans "zar zor var olduğunda" her zaman beklenmelidir . Bunu düşünmenin pratik bir yolu şudur. Pareto dağılımları genellikle gelir dağılımını modellemek için önerilmektedir. Gelir beklentisi (veya servet) çok az milyarderden çok büyük bir katkı sağlayacaktır. Pratik numune boyutlarıyla numune alma, numuneye milyarder ekleme olasılığı çok düşüktür!
Ben zaten verilen cevapları seviyorum ama "yatıyordu kişi açıklaması" için biraz fazla teknik olduğunu düşünüyorum bu yüzden daha sezgisel bir şey (bir denklem ile başlayan ...) deneyeceğim.
Yoğunluk ortalaması olarak tanımlanır:
Ardından, merkezi limit teoremi ampirik ortalama arasındaki mesafenin bir dağılımını oluşturur ve ortalama varyansının bir fonksiyonu olarak ve (asimpotik olarak ). Görgülerin ne anlama geldiğini görelim sayısının bir fonksiyonu olarak davranır Gauss yoğunluğu için :
N=10000;
x=rnorm(N,1,1);
y=rep(NA,N);
for(index in seq(1,N))
{
y[index]=mean(x[1:index])
}
png('~/Desktop/normalMean.png')
plot(y,type='l',xlab='n',ylab='sum(x_i)/n')
dev.off()
Bu tipik bir gerçekleştirmedir, numune ortalaması yoğunluk ortalamasına oldukça düzgün bir şekilde yakınlaşır (ve ortalama olarak merkezi limit teoreminin verdiği şekilde). Ortalama olmayan bir pareto dağılımı için aynısını yapalım (ikame rnormu (N, 1,1); pareto (N, 1.1,1);)
Bu aynı zamanda tipik bir simülasyon, zaman zaman, örnek ortalaması üründe integral formülü kullanılarak açıklandığı gibi basitçe sapıyor , yüksek değerlerin sıklığı şu gerçeği telafi edecek kadar küçük değil: yüksektir. Yani ortalama yoktur ve örnek ortalama herhangi bir tipik değere yaklaşmaz ve merkezi limit teoreminin söyleyecek bir şeyi yoktur.
Son olarak, merkezi limit teoreminin ampirik ortalama, ortalama, örneklem büyüklüğü ile ilgili olduğuna dikkat edin. ve varyans. Yani varyans ayrıca mevcut olmalıdır (ayrıntılar için kjetil b halvorsen cevabına bakınız).