Neden aşırı değer teorisi kullanılır?


18

Aşırı Değer Teorisi'ni kullandığımız İnşaat Mühendisliği'nden geliyorum, GEV dağılımı gibi En büyük rüzgar hızı gibi bazı olayların değerini tahmin etmek için , yani rüzgar hızının % 98.5'inin daha düşük olacağı değeri tahmin ediyorum.

Sorum şu: Neden böyle aşırı bir değer dağılımı kullanıyorsunuz ? Toplam dağılımı sadece kullanırsak ve % 98,5 olasılık için değer alırsak daha kolay olmaz mıydı ?

Yanıtlar:


24

Feragatname: Aşağıdaki noktalarda, bu GROSSLY, verilerinizin normal olarak dağıtıldığını varsayar. Eğer gerçekten bir şey tasarlıyorsanız, güçlü bir istatistik uzmanıyla konuşun ve o kişinin seviyenin ne olacağını söyleyerek hatta oturum açmasına izin verin. Beşiyle ya da 25iyle konuşun. Bu cevap, "nasıl" soran bir inşaat mühendisliği öğrencisi için "nasıl" soran bir mühendislik profesyoneli için değil.

Bence sorunun ardındaki soru "aşırı değer dağılımı nedir?" Evet, bazı cebir sembolleridir. Ne olmuş yani? sağ?

1000 yıllık selleri düşünelim. Onlar büyük.

Bu olduğunda, birçok insanı öldürecekler. Birçok köprü yıkılıyor.
Hangi köprünün aşağı inmediğini biliyor musun? Yaparım. Sen ... henüz.

Soru: 1000 yıllık bir selde hangi köprü aşağı inmiyor?
Cevap: Buna dayanacak şekilde tasarlanmış köprü.

Bu şekilde yapmanız gereken veriler:
Diyelim ki günlük 200 yıllık su verisine sahipsiniz. 1000 yıllık taşkın orada mı? Uzaktan değil. Dağıtımın bir kuyruğundan bir örnek var. Nüfusunuz yok. Eğer tüm taşkın tarihini bilseydiniz, toplam veri topluluğuna sahip olursunuz. Bunu düşünelim. 1000'de 1 olan en az bir değere sahip olmak için kaç yıllık veriye, kaç örneğe ihtiyacınız var? Mükemmel bir dünyada, en az 1000 numuneye ihtiyacınız olacaktır. Gerçek dünya dağınık, bu yüzden daha fazlasına ihtiyacınız var. 4000 numunede 50/50 oran kazanmaya başlıyorsunuz. Yaklaşık 20.000 numunede 1'den fazla olması garantili olmaya başlarsınız. Örnek "bir saniyeden diğerine bir su" anlamına gelmez, ancak her bir benzersiz varyasyon kaynağı için bir yıldan yıla varyasyon gibi bir ölçüdür. Bir yılda bir tedbir, bir yıl içinde başka bir tedbirle birlikte iki örnek oluşturmaktadır. 4.000 yıllık iyi verileriniz yoksa, büyük olasılıkla verilerde 1000 yıllık bir sel baskınınız yoktur. İyi olan şey - iyi bir sonuç almak için bu kadar veriye ihtiyacınız yok.

Daha az veriyle nasıl daha iyi sonuçlar elde edeceğiniz aşağıda açıklanmıştır:
Yıllık maksimum değere bakarsanız, "aşırı değer dağılımını" yıl-maksimum-seviyelerinin 200 değerine sığdırabilirsiniz ve 1000 yıllık taşkın içeren dağıtımınız olacaktır. -düzeyi. Cebir olacak, gerçek "ne kadar büyük" değil. 1000 yıllık selin ne kadar büyük olacağını belirlemek için denklemi kullanabilirsiniz. Sonra, bu su hacmi göz önüne alındığında - buna karşı koymak için köprünüzü inşa edebilirsiniz. Kesin değer için çekim yapmayın, daha büyük için çekim yapın, aksi takdirde 1000 yıllık selde başarısız olacak şekilde tasarlıyorsunuz. Eğer cesursanız, direnmek için tam 1000 yıllık değerin ne kadar ötesinde olduğunu anlamak için yeniden örneklemeyi kullanabilirsiniz.

EV / GEV neden ilgili analitik formlardır:
Genelleştirilmiş aşırı değer dağılımı, maksimum değerin ne kadar değiştiği ile ilgilidir. Maksimumdaki varyasyon ortalamadaki varyasyondan gerçekten farklı davranır. Merkezi sınır teoremi aracılığıyla normal dağılım, birçok "merkezi eğilimi" açıklar.

Prosedür:

  1. aşağıdakileri 1000 kez yapın:
    i. standart normal dağılımdan 1000 sayı seçme
    ii. o örnek grubun maks. değerini hesaplayın ve saklayın
  2. şimdi sonucun dağılımını çizin

    #libraries
    library(ggplot2)
    
    #parameters and pre-declarations
    nrolls <- 1000
    ntimes <- 10000
    store <- vector(length=ntimes)
    
    #main loop
    for (i in 1:ntimes){
    
         #get samples
         y <- rnorm(nrolls,mean=0,sd=1)
    
         #store max
         store[i] <- max(y)
    }
    
    #plot
    ggplot(data=data.frame(store), aes(store)) + 
         geom_histogram(aes(y = ..density..),
                        col="red", 
                        fill="green", 
                        alpha = .2) + 
         geom_density(col=2) + 
         labs(title="Histogram for Max") +
         labs(x="Max", y="Count")
    

Bu "standart normal dağılım" DEĞİLDİR: resim açıklamasını buraya girin

Zirve 3.2'de ancak maksimum 5.0'a yükseliyor. Çarpıklığı var. Yaklaşık 2.5'in altına inmez. Gerçek verileriniz varsa (standart normal) ve sadece kuyruğu seçerseniz, bu eğri boyunca rastgele rastgele bir şey seçersiniz. Eğer şanslıysanız, o zaman merkeze doğru değil, alt kuyruğa değilsiniz. Mühendislik şansın tam tersidir - her seferinde sürekli olarak istenen sonuçlara ulaşmakla ilgilidir. " Rastgele sayılar şansa bırakmak için çok önemlidir " (bkz. Dipnot), özellikle bir mühendis için. Bu verilere en uygun analitik fonksiyon ailesi - aşırı değer dağılım ailesi.

Örnek uyum:
Diyelim ki standart normal dağılımdan yıl-maksimum 200 rasgele değere sahibiz ve 200 yıllık maksimum su seviyesi geçmişimizmiş gibi davranacağız (ne anlama geliyorsa). Dağıtımı almak için aşağıdakileri yaparız:

  1. "Mağaza" değişkenini örnekleyin (kısa / kolay kod oluşturmak için)
  2. genelleştirilmiş bir aşırı değer dağılımına uyma
  3. dağılımın ortalamasını bul
  4. ortalamanın varyasyonunda% 95 CI üst sınırını bulmak için bootstrapping'i kullanın, böylece bunun için mühendisliğimizi hedefleyebiliriz.

(kod, önce yukarıdaki kodun çalıştırıldığını varsayar)

library(SpatialExtremes) #if it isn't here install it, it is the ev library
y2 <- sample(store,size=200,replace=FALSE)  #this is our data

myfit <- gevmle(y2)

Bu sonuç verir:

> gevmle(y2)    
       loc      scale      shape     
 3.0965530  0.2957722 -0.1139021     

Bunlar, 20.000 örnek oluşturmak için oluşturma işlevine takılabilir

y3 <- rgev(20000,loc=myfit[1],scale=myfit[2],shape=myfit[3])

Aşağıdakilere inşa etmek, herhangi bir yılda 50/50 başarısızlık şansı verecektir:

ortalama (y3)
3.23681

1000 yıllık "sel" seviyesinin ne olduğunu belirlemek için kod:

p1000 <- qgev(1-(1/1000),loc=myfit[1],scale=myfit[2],shape=myfit[3])
p1000

Bunu takip etmek size 1000 yıllık selde 50/50 başarısızlık şansı vermelidir.

P1000
4,510931

% 95 üst CI belirlemek için aşağıdaki kodu kullandım:

myloc <- 3.0965530
myscale <- 0.2957722
myshape <- -0.1139021

N <- 1000
m <- 200
p_1000 <- vector(length=N)
yd <- vector(length=m)

for (i in 1:N){

      #generate samples
    yd <- rgev(m,loc=myloc,scale=myscale,shape=myshape)

    #compute fit
    fit_d <- gevmle(yd)

    #compute quantile
    p_1000[i] <- qgev(1-(1/1000),loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])

}

mytarget <- quantile(p_1000,probs=0.95)

Sonuç şuydu:

> mytarget
     95% 
4.812148

Bu, verilerinizin tertemiz normal olduğu (büyük olasılıkla değil) 1000 yıllık taşkınların büyük çoğunluğuna direnmek için ...

> out <- pgev(4.812148,loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])
> 1/(1-out)

ya da

> 1/(1-out)
   shape 
1077.829 

... 1078 yıllık sel.

Alt satırlar:

  • gerçek toplam nüfusa değil, verilerin bir örneğine sahipsiniz. Bu, kantillerinizin tahmin olduğu ve kapalı olabileceği anlamına gelir.
  • Genelleştirilmiş aşırı değer dağılımı gibi dağılımlar, gerçek kuyrukları belirlemek için örnekleri kullanmak üzere oluşturulur. Klasik yaklaşım için yeterli örneğiniz olmasa bile, tahminlerde örnek değerlerini kullanmaktan çok daha az kötüdürler.
  • Sağlamsanız, tavan yüksektir, ancak bunun sonucu - başarısız olmazsınız.

İyi şanslar

Not:

  • 1/(1-0.985)67
  • Önceki noktaya göre, ortalama olarak her 67 yılda bir sivil insanlar yeniden inşa etmek zorunda. Bu nedenle, sivil yapının operasyonel ömrü (bunun ne olduğunu bilmiyorum) göz önüne alındığında, her 67 yılda bir mühendislik ve inşaatın tam maliyetiyle, bir noktada daha uzun bir fırtına arası mühendislik yapmak daha ucuz olabilir. Sürdürülebilir bir sivil altyapı, en az bir insan ömrünü hatasız sürecek şekilde tasarlanmış bir yapı, değil mi?

PS: daha eğlenceli - bir youtube videosu (benim değil)
https://www.youtube.com/watch?v=EACkiMRT0pc

Dipnot: Coveyou, Robert R. "Rastgele sayı üretimi şansa bırakılamayacak kadar önemlidir." Uygulamalı Olasılık ve Monte Carlo Yöntemleri ve dinamiklerin modern yönleri. Uygulamalı matematik çalışmaları 3 (1969): 70-111.


2
Yeterince net olmayabilirim. Temel kaygım, neden veriye uymak ve% 98,5 değerlerini almak extreme value distributionyerine kullanmaktır the overall distribution.
cqcn1991

Genel nüfusa göre ne demek istiyorsun?
kjetil b halvorsen

1
cevabı güncelledi.
EngrStudent - Monica'yı

2
@EngrStudent harika cevap, ancak burada EVT'nin nasıl çalıştığını göstermek için illüstrasyon sağlamanın yanı sıra Normal dağılımı kullanmaktan daha iyi olsaydınız daha iyi olurdu.
Tim

2
Bazı modelleme çalışmaları yaptıktan sonra, ebeveyn dağıtımını kullanmanın sadece tehlikeli olduğunu söyleyebilirim, çünkü veriler çok azdır ve ekstpolasyon, aşırı olayları modellemek için sadece tehlikeli ve kararsızdır. Bunun yerine EV teorisini kullanmalıyız.
cqcn1991

7

Gözlenen verilerden tahmin yapmak için aşırı değer teorisini kullanırsınız . Genellikle, sahip olduğunuz veriler size kuyruk olasılığına dair makul bir tahmin sağlayacak kadar büyük değildir. @ EngrStudent'in 1000 yılında 1 yılda bir olay örneği almak: bu, bir dağılımın% 99,9'unu bulmaya karşılık gelir. Ancak yalnızca 200 yıllık verileriniz varsa, yalnızca% 99,5'e kadar ampirik kantil tahminleri hesaplayabilirsiniz.

Aşırı değer teorisi , kuyruktaki dağılımınızın şekli hakkında çeşitli varsayımlar yaparak% 99,9'luk kantili tahmin etmenizi sağlar : pürüzsüz, belirli bir desenle bozulur vb.

% 99,5 ile% 99,9 arasındaki farkın küçük olduğunu düşünüyor olabilirsiniz; sonuçta sadece% 0.4. Ama bu olasılıktaki bir fark ve kuyruktayken, miktarlarda büyük bir farka dönüşebilir . İşte bu şeyler gittikçe çok uzun bir kuyruğu olmayan bir gama dağılımı için neye benzediğini gösteren bir örnek. Mavi çizgi% 99.5 kantiline karşılık gelir ve kırmızı çizgi% 99.9 kantil'dir. Bunlar arasındaki fark dikey eksende küçük olmakla birlikte, yatay eksende ayrılma önemlidir. Ayrılma sadece gerçekten uzun kuyruklu dağıtımlar için büyür; gama aslında oldukça zararsız bir durumdur.

resim açıklamasını buraya girin


Cevabınız yanlış. Yıllık Normalin% 99,9 puanı 1000 yılda bir 1'e karşılık gelmez. Maksimum 1000 Normalin dağılımı farklıdır. Bence bu diğer yanıtlarda da ele alındı.
Mark L. Stone

@ MarkL.Stone Hiçbir yerde maksimum 1000 normal hakkında bir şey söylemedim.
Hong Ooi

1
Demek istediğim bu. 1000 yıllık bir etkinlikteki 1, maksimum 1000 yıllık Normal sayısına dayanmalıdır. Bu, yıllık Normal'deki 99.9 $ 'dan çok farklı. Karel Macek'in cevabına aşağıdaki yorumuma bakın.
Mark L. Stone

@ MarkL.Stone Grafiğin noktası sadece kuyruktayken olasılıklardaki küçük değişikliklerin büyük miktarlardaki değişikliklere karşılık geldiğini göstermektir. Bir GEV veya GPD'nin% 99'luk kantilini veya başka bir dağılımı değiştirebilirsiniz. (Ve normal dağılımdan bile bahsetmedim.)
Hong Ooi

Bunun yanı sıra, GEV üzerinden maksimum tahmin etmek, kuyruk miktarlarını elde etmenin sadece bir yoludur. Diğer bir yol ise, doğrudan GPD üzerinden kantilleri tahmin etmektir (ağır kuyruklu bir dağılım varsayarak).
Hong Ooi

7

Sadece bir kuyrukla ilgileniyorsanız, veri toplama ve analiz çalışmalarınızı kuyruğa odaklamanız bir anlam ifade eder . Bunu yapmak daha verimli olmalıdır. Veri toplamayı vurguladım çünkü EVT dağılımları için bir argüman sunarken bu husus sıklıkla göz ardı ediliyor. Aslında, bazı alanlarda genel dağıtım olarak adlandırdığınız şeyi tahmin etmek için ilgili verileri toplamak mümkün olmayabilir . Aşağıda daha ayrıntılı olarak açıklayacağım.

@ EngrStudent örneğinde olduğu gibi 1000 yılda 1'e bakarsanız, normal dağılımın gövdesini oluşturmak için gözlemlerle doldurmak için çok fazla veriye ihtiyacınız vardır. Potansiyel olarak, son yüzlerce yılda meydana gelen her sele ihtiyacınız var.

Şimdi bir saniye durun ve bir selin ne olduğunu düşünün. Arka bahçem şiddetli bir yağmurdan sonra sular altında kaldığında, bu bir sel midir? Muhtemelen hayır, ama sel olmayan bir olaydan bir sel sesini tam olarak çizen çizgi tam olarak nerede? Bu basit soru veri toplama sorununu vurgular. Vücuttaki tüm verileri onlarca yıl hatta belki yüzyıllarca aynı standarda göre topladığımızdan nasıl emin olabilirsiniz? Taşkınların dağılımı ile ilgili verileri toplamak neredeyse imkansızdır.

Dolayısıyla, meselesi değil sadece var verimlilik ve analizi , fakat meselesi fizibilitesi verileri koleksiyonu : tüm dağılımı ya da sadece bir kuyruk modeli verilip?

Doğal olarak, kuyruklarla veri toplama çok daha kolaydır. Büyük bir sel için yeterince yüksek eşiği tanımlarsak, bu tür olayların hepsinin veya neredeyse tümünün muhtemelen bir şekilde kaydedilmesi için daha büyük bir şansımız olabilir. Yıkıcı bir sel kaçırmak zordur ve eğer herhangi bir medeniyet mevcutsa, olay hakkında bir miktar hafıza saklanır. Bu nedenle, veri toplama işleminin güvenilirlik çalışmaları gibi pek çok alanda aşırı olmayanlara göre çok daha sağlam olduğu göz önüne alındığında, özellikle kuyruklara odaklanan analitik araçlar oluşturmak mantıklıdır.


+1 Özellikle sondaki açıklamalarda ilginç ve sağlam noktalar.
whuber

(+1) Son noktanızla (korunmuş bellek) ilgili olarak Sadler Efekti ilgi çekici olabilir.
GeoMatt22

@ GeoMatt22, gazeteyi ve Sadler Etkisi terimini ilk kez gördüm. Bağlantı için teşekkürler
Aksakal

Bu gerçekten mükemmel bir nokta. Bu bir sistemdir, bu yüzden sistemik bir yaklaşım mükemmel verime sahip olabilir. Dünyadaki en iyi analiz önemsiz verilerle zehirlenebilir. İyi verilerle beslendiğinde oldukça basit bir analiz harika sonuçlar verebilir. Güzel nokta!
EngrStudent - Monica

6

Genellikle, temel verilerin dağılımı (örneğin, Gauss rüzgar hızları) tek bir numune noktası içindir. 98. persentil, rastgele seçilen herhangi bir nokta için değerin 98. persentilden daha büyük olma şansının% 2 olduğunu söyleyecektir .

Ben inşaat mühendisi değilim, ama bilmek istediğiniz şeyin rüzgar hızının belirli bir günde belirli bir sayının üzerinde olma olasılığı olmadığını, ancak mümkün olan en büyük güvenin dağılımının, yıl boyunca. Bu durumda, günlük rüzgar gust maksimumları, örneğin, üstel olarak dağıtılmışsa, o zaman istediğiniz maksimum rüzgar güstünün 365 gün boyunca dağılımıdır ... aşırı değer dağılımının çözmek istediği buydu.


1

Kuantil kullanımı, daha fazla hesaplamayı kolaylaştırır. İnşaat mühendisleri, değeri (örneğin rüzgar hızı) ilk prensip formüllerine koyabilir ve% 98.5 kantiline karşılık gelen aşırı koşullar için sistemin davranışını elde edebilirler.

Tüm dağılımın kullanımı daha fazla bilgi sağlayabilir, ancak hesaplamaları zorlaştırabilir. Bununla birlikte, (i) inşaat ve (ii) arıza riski ile ilgili maliyetleri en iyi şekilde dengeleyecek gelişmiş risk yönetimi yaklaşımlarının kullanılmasına izin verebilir.


Şey ... Yeterince açık olmayabilirim. Sadece normalde kullandığımız genel dağılım (tüm dağıtım?) Yerine neden aşırı değer teorisi kullandığını bilmek istiyorum?
cqcn1991

1
Günlük maksimum rüzgar hızı gibi herhangi bir örnekleme için kümülatif dağılım işlevi F (x) ise, o zaman maksimum n bağımsız örnekleme için kümülatif dağıtım işlevi (örneğin, günlük maksimum rüzgar hızıyla bir yıl için n = 365) ), F ^ n (x) 'dir. Bu F (x) 'den farklıdır.
Mark L. Stone
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.