Feragatname: Aşağıdaki noktalarda, bu GROSSLY, verilerinizin normal olarak dağıtıldığını varsayar. Eğer gerçekten bir şey tasarlıyorsanız, güçlü bir istatistik uzmanıyla konuşun ve o kişinin seviyenin ne olacağını söyleyerek hatta oturum açmasına izin verin. Beşiyle ya da 25iyle konuşun. Bu cevap, "nasıl" soran bir inşaat mühendisliği öğrencisi için "nasıl" soran bir mühendislik profesyoneli için değil.
Bence sorunun ardındaki soru "aşırı değer dağılımı nedir?" Evet, bazı cebir sembolleridir. Ne olmuş yani? sağ?
1000 yıllık selleri düşünelim. Onlar büyük.
Bu olduğunda, birçok insanı öldürecekler. Birçok köprü yıkılıyor.
Hangi köprünün aşağı inmediğini biliyor musun? Yaparım. Sen ... henüz.
Soru: 1000 yıllık bir selde hangi köprü aşağı inmiyor?
Cevap: Buna dayanacak şekilde tasarlanmış köprü.
Bu şekilde yapmanız gereken veriler:
Diyelim ki günlük 200 yıllık su verisine sahipsiniz. 1000 yıllık taşkın orada mı? Uzaktan değil. Dağıtımın bir kuyruğundan bir örnek var. Nüfusunuz yok. Eğer tüm taşkın tarihini bilseydiniz, toplam veri topluluğuna sahip olursunuz. Bunu düşünelim. 1000'de 1 olan en az bir değere sahip olmak için kaç yıllık veriye, kaç örneğe ihtiyacınız var? Mükemmel bir dünyada, en az 1000 numuneye ihtiyacınız olacaktır. Gerçek dünya dağınık, bu yüzden daha fazlasına ihtiyacınız var. 4000 numunede 50/50 oran kazanmaya başlıyorsunuz. Yaklaşık 20.000 numunede 1'den fazla olması garantili olmaya başlarsınız. Örnek "bir saniyeden diğerine bir su" anlamına gelmez, ancak her bir benzersiz varyasyon kaynağı için bir yıldan yıla varyasyon gibi bir ölçüdür. Bir yılda bir tedbir, bir yıl içinde başka bir tedbirle birlikte iki örnek oluşturmaktadır. 4.000 yıllık iyi verileriniz yoksa, büyük olasılıkla verilerde 1000 yıllık bir sel baskınınız yoktur. İyi olan şey - iyi bir sonuç almak için bu kadar veriye ihtiyacınız yok.
Daha az veriyle nasıl daha iyi sonuçlar elde edeceğiniz aşağıda açıklanmıştır:
Yıllık maksimum değere bakarsanız, "aşırı değer dağılımını" yıl-maksimum-seviyelerinin 200 değerine sığdırabilirsiniz ve 1000 yıllık taşkın içeren dağıtımınız olacaktır. -düzeyi. Cebir olacak, gerçek "ne kadar büyük" değil. 1000 yıllık selin ne kadar büyük olacağını belirlemek için denklemi kullanabilirsiniz. Sonra, bu su hacmi göz önüne alındığında - buna karşı koymak için köprünüzü inşa edebilirsiniz. Kesin değer için çekim yapmayın, daha büyük için çekim yapın, aksi takdirde 1000 yıllık selde başarısız olacak şekilde tasarlıyorsunuz. Eğer cesursanız, direnmek için tam 1000 yıllık değerin ne kadar ötesinde olduğunu anlamak için yeniden örneklemeyi kullanabilirsiniz.
EV / GEV neden ilgili analitik formlardır:
Genelleştirilmiş aşırı değer dağılımı, maksimum değerin ne kadar değiştiği ile ilgilidir. Maksimumdaki varyasyon ortalamadaki varyasyondan gerçekten farklı davranır. Merkezi sınır teoremi aracılığıyla normal dağılım, birçok "merkezi eğilimi" açıklar.
Prosedür:
- aşağıdakileri 1000 kez yapın:
i. standart normal dağılımdan 1000 sayı seçme
ii. o örnek grubun maks. değerini hesaplayın ve saklayın
şimdi sonucun dağılımını çizin
#libraries
library(ggplot2)
#parameters and pre-declarations
nrolls <- 1000
ntimes <- 10000
store <- vector(length=ntimes)
#main loop
for (i in 1:ntimes){
#get samples
y <- rnorm(nrolls,mean=0,sd=1)
#store max
store[i] <- max(y)
}
#plot
ggplot(data=data.frame(store), aes(store)) +
geom_histogram(aes(y = ..density..),
col="red",
fill="green",
alpha = .2) +
geom_density(col=2) +
labs(title="Histogram for Max") +
labs(x="Max", y="Count")
Bu "standart normal dağılım" DEĞİLDİR:
Zirve 3.2'de ancak maksimum 5.0'a yükseliyor. Çarpıklığı var. Yaklaşık 2.5'in altına inmez. Gerçek verileriniz varsa (standart normal) ve sadece kuyruğu seçerseniz, bu eğri boyunca rastgele rastgele bir şey seçersiniz. Eğer şanslıysanız, o zaman merkeze doğru değil, alt kuyruğa değilsiniz. Mühendislik şansın tam tersidir - her seferinde sürekli olarak istenen sonuçlara ulaşmakla ilgilidir. " Rastgele sayılar şansa bırakmak için çok önemlidir " (bkz. Dipnot), özellikle bir mühendis için. Bu verilere en uygun analitik fonksiyon ailesi - aşırı değer dağılım ailesi.
Örnek uyum:
Diyelim ki standart normal dağılımdan yıl-maksimum 200 rasgele değere sahibiz ve 200 yıllık maksimum su seviyesi geçmişimizmiş gibi davranacağız (ne anlama geliyorsa). Dağıtımı almak için aşağıdakileri yaparız:
- "Mağaza" değişkenini örnekleyin (kısa / kolay kod oluşturmak için)
- genelleştirilmiş bir aşırı değer dağılımına uyma
- dağılımın ortalamasını bul
- ortalamanın varyasyonunda% 95 CI üst sınırını bulmak için bootstrapping'i kullanın, böylece bunun için mühendisliğimizi hedefleyebiliriz.
(kod, önce yukarıdaki kodun çalıştırıldığını varsayar)
library(SpatialExtremes) #if it isn't here install it, it is the ev library
y2 <- sample(store,size=200,replace=FALSE) #this is our data
myfit <- gevmle(y2)
Bu sonuç verir:
> gevmle(y2)
loc scale shape
3.0965530 0.2957722 -0.1139021
Bunlar, 20.000 örnek oluşturmak için oluşturma işlevine takılabilir
y3 <- rgev(20000,loc=myfit[1],scale=myfit[2],shape=myfit[3])
Aşağıdakilere inşa etmek, herhangi bir yılda 50/50 başarısızlık şansı verecektir:
ortalama (y3)
3.23681
1000 yıllık "sel" seviyesinin ne olduğunu belirlemek için kod:
p1000 <- qgev(1-(1/1000),loc=myfit[1],scale=myfit[2],shape=myfit[3])
p1000
Bunu takip etmek size 1000 yıllık selde 50/50 başarısızlık şansı vermelidir.
P1000
4,510931
% 95 üst CI belirlemek için aşağıdaki kodu kullandım:
myloc <- 3.0965530
myscale <- 0.2957722
myshape <- -0.1139021
N <- 1000
m <- 200
p_1000 <- vector(length=N)
yd <- vector(length=m)
for (i in 1:N){
#generate samples
yd <- rgev(m,loc=myloc,scale=myscale,shape=myshape)
#compute fit
fit_d <- gevmle(yd)
#compute quantile
p_1000[i] <- qgev(1-(1/1000),loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])
}
mytarget <- quantile(p_1000,probs=0.95)
Sonuç şuydu:
> mytarget
95%
4.812148
Bu, verilerinizin tertemiz normal olduğu (büyük olasılıkla değil) 1000 yıllık taşkınların büyük çoğunluğuna direnmek için ...
> out <- pgev(4.812148,loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])
> 1/(1-out)
ya da
> 1/(1-out)
shape
1077.829
... 1078 yıllık sel.
Alt satırlar:
- gerçek toplam nüfusa değil, verilerin bir örneğine sahipsiniz. Bu, kantillerinizin tahmin olduğu ve kapalı olabileceği anlamına gelir.
- Genelleştirilmiş aşırı değer dağılımı gibi dağılımlar, gerçek kuyrukları belirlemek için örnekleri kullanmak üzere oluşturulur. Klasik yaklaşım için yeterli örneğiniz olmasa bile, tahminlerde örnek değerlerini kullanmaktan çok daha az kötüdürler.
- Sağlamsanız, tavan yüksektir, ancak bunun sonucu - başarısız olmazsınız.
İyi şanslar
Not:
PS: daha eğlenceli - bir youtube videosu (benim değil)
https://www.youtube.com/watch?v=EACkiMRT0pc
Dipnot: Coveyou, Robert R. "Rastgele sayı üretimi şansa bırakılamayacak kadar önemlidir." Uygulamalı Olasılık ve Monte Carlo Yöntemleri ve dinamiklerin modern yönleri. Uygulamalı matematik çalışmaları 3 (1969): 70-111.
extreme value distribution
yerine kullanmaktırthe overall distribution
.