Devasa basıklık?


10

Hisse senedi endekslerinde günlük getirilere dair bazı tanımlayıcı istatistikler yapıyorum. Yani ve , sırasıyla 1. ve 2. gün dizinin seviyeleri ise, kullandığım geri dönüştür (literatürde tamamen standarttır).P 2 l o g e ( P 2P1P2lÖge(P2P1)

Bu nedenle bazılarında basıklık çok büyüktür. Yaklaşık 15 yıllık günlük verilere bakıyorum (yani zaman serisi gözlemleri)260*15

                      means     sds     mins    maxs     skews     kurts
ARGENTINA          -0.00031 0.00965 -0.33647 0.13976 -15.17454 499.20532
AUSTRIA             0.00003 0.00640 -0.03845 0.04621   0.19614   2.36104
CZECH.REPUBLIC      0.00008 0.00800 -0.08289 0.05236  -0.16920   5.73205
FINLAND             0.00005 0.00639 -0.03845 0.04622   0.19038   2.37008
HUNGARY            -0.00019 0.00880 -0.06301 0.05208  -0.10580   4.20463
IRELAND             0.00003 0.00641 -0.03842 0.04621   0.18937   2.35043
ROMANIA            -0.00041 0.00789 -0.14877 0.09353  -1.73314  44.87401
SWEDEN              0.00004 0.00766 -0.03552 0.05537   0.22299   3.52373
UNITED.KINGDOM      0.00001 0.00587 -0.03918 0.04473  -0.03052   4.23236
                   -0.00007 0.00745 -0.09124 0.06405  -1.82381  63.20596
AUSTRALIA           0.00009 0.00861 -0.08831 0.06702  -0.74937  11.80784
CHINA              -0.00002 0.00072 -0.40623 0.02031   6.26896 175.49667
HONG.KONG           0.00000 0.00031 -0.00237 0.00627   2.73415  56.18331
INDIA              -0.00011 0.00336 -0.03613 0.03063  -0.22301  10.12893
INDONESIA          -0.00031 0.01672 -0.24295 0.19268  -2.09577  54.57710
JAPAN               0.00008 0.00709 -0.03563 0.06591   0.57126   5.16182
MALAYSIA           -0.00003 0.00861 -0.35694 0.13379 -16.48773 809.07665

Sorum şu: Herhangi bir sorun var mı?

Bu veriler üzerinde kapsamlı zaman serisi analizi yapmak istiyorum - OLS ve Quantile regresyon analizi ve ayrıca Granger Nedensellik.

Hem cevabım (bağımlı) hem de yordayıcı (regresör) bu devasa basıklık özelliğine sahip olacak. Bu yüzden regresyon denkleminin her iki tarafında bu dönüş süreçlerine sahip olacağım. Normallik sadece standart hatalarımı yüksek sapma yapacak rahatsızlıklara dökerse doğru mu?

(Belki de sağlam bir çizime ihtiyacım var?)


3
1) Bunu quant.stackexchange.com sitesine taşımak isteyebilirsiniz. 2) Problemle ne demek istiyorsun? Aykırı değerlerin anlar üzerindeki etkisi hakkında bütün bir literatür vardır. Genellikle bir bilimden çok bir sanat olabilir.
John

2
"Problem var mı?" çok belirsiz. Bu verilerle ne yapmak istiyorsunuz? Büyük kurtozlarınız büyük sol eğim ile ilişkilidir. Log (p2 / p1) = log p2 - log p1 olduğundan, büyük bir sol eğim, bu durumun çok düşük olduğu birkaç kez olduğunu, yani p1'in normal duruma kıyasla çok daha yüksek olduğunu gösterir. İflas eden bir şirket ya da bunun gibi bir şey olabilir.
Peter Flom

Bunun için üzgünüm - OP'mi değiştirdim.

1
log-dönüşleri genellikle eğri ve ağır kuyrukludur. Bu nedenle, bu davranışı yakalayabilecek esnek dağılımların düşünülmesi tercih edilir. Örnek 1 ve 2'ye bakınız .

L-momentlerine dayanan kutoz önlemlerine bir göz atmalısınız
kjetil b halvorsen

Yanıtlar:


2

Ağır kuyruk Lambert W x F veya çarpık Lambert W x F dağılımlarına bir göz atın (sorumluluk reddi: Ben yazarım). R'de LambertW paketinde uygulanırlar.

İlgili Mesajlar:

yX

Hisse senedi fon getirilerine uygulanan Lambert Wx Gauss tahminlerine bir örnek.

library(fEcofin)
ret <- ts(equityFunds[, -1] * 100)
plot(ret)

Zaman serisi arsa özkaynak fonları

Getirilerin özet metrikleri OP'nin gönderisindeki ile aynıdır (aşırı değil).

data_metrics <- function(x) {
  c(mean = mean(x), sd = sd(x), min = min(x), max = max(x), 
    skewness = skewness(x), kurtosis = kurtosis(x))
}
ret.metrics <- t(apply(ret, 2, data_metrics))
ret.metrics

##          mean    sd    min   max skewness kurtosis
## EASTEU 0.1300 1.538 -18.42 12.38   -1.855    28.95
## LATAM  0.1206 1.468  -6.06  5.66   -0.434     4.21
## CHINA  0.0864 0.911  -4.71  4.27   -0.322     5.42
## INDIA  0.1515 1.502 -12.72 14.05   -0.505    15.22
## ENERGY 0.0997 1.187  -5.00  5.02   -0.271     4.48
## MINING 0.1315 1.394  -7.72  5.69   -0.692     5.64
## GOLD   0.1098 1.855 -10.14  6.99   -0.350     5.11
## WATER  0.0628 0.748  -5.07  3.72   -0.405     6.08

Çoğu seri açıkça Normal olmayan özellikler gösterir (güçlü çarpıklık ve / veya büyük basıklık). Her seriyi, ağır bir kuyruklu Lambert W x Gauss dağılımı (= Tukey h) kullanarak moment tahmincisi ( IGMM) yöntemlerini kullanarak Gaussianize edelim .

library(LambertW)
ret.gauss <- Gaussianize(ret, type = "h", method = "IGMM")
colnames(ret.gauss) <- gsub(".X", "", colnames(ret.gauss))

plot(ts(ret.gauss))

Gausslaştırılmış getirilerin zaman serisi grafiği

Zaman serisi grafikleri çok daha az kuyruk ve zaman içinde daha kararlı bir değişim gösterir (yine de sabit değil). Gaussianized zaman serilerinde metriklerin tekrar hesaplanması şunları sağlar:

ret.gauss.metrics <- t(apply(ret.gauss, 2, data_metrics))
ret.gauss.metrics

##          mean    sd   min  max skewness kurtosis
## EASTEU 0.1663 0.962 -3.50 3.46   -0.193        3
## LATAM  0.1371 1.279 -3.91 3.93   -0.253        3
## CHINA  0.0933 0.734 -2.32 2.36   -0.102        3
## INDIA  0.1819 1.002 -3.35 3.78   -0.193        3
## ENERGY 0.1088 1.006 -3.03 3.18   -0.144        3
## MINING 0.1610 1.109 -3.55 3.34   -0.298        3
## GOLD   0.1241 1.537 -5.15 4.48   -0.123        3
## WATER  0.0704 0.607 -2.17 2.02   -0.157        3

IGMM3Gaussianize()scale()

Basit iki değişkenli regresyon

rEbirSTEU,trbenN-Dbenbir,t

layout(matrix(1:2, ncol = 2, byrow = TRUE))
plot(ret[, "INDIA"], ret[, "EASTEU"])
grid()
plot(ret.gauss[, "INDIA"], ret.gauss[, "EASTEU"])
grid()

scatterplot HİNDİSTAN ve DOĞU

Orijinal dizinin sol dağılım grafiği, güçlü aykırı değerlerin aynı günlerde değil, Hindistan ve Avrupa'da farklı zamanlarda gerçekleştiğini göstermektedir; bunun dışında merkezdeki veri bulutunun hiçbir korelasyonu veya negatif / pozitif bağımlılığı destekleyip desteklemediği net değildir. Aykırı değerler varyans ve korelasyon tahminlerini güçlü bir şekilde etkilediğinden, kaldırılan ağır kuyruklara (sağ dağılım grafiği) bağımlılığa bakmak faydalı olacaktır. Burada kalıplar çok daha açık ve Hindistan ile Doğu Avrupa pazarı arasındaki pozitif ilişki ortaya çıkıyor.

# try these models on your own
mod <- lm(EASTEU ~ INDIA * CHINA, data = ret)
mod.robust <- rlm(EASTEU ~ INDIA, data = ret)
mod.gauss <- lm(EASTEU ~ INDIA, data = ret.gauss)

summary(mod)
summary(mod.robust)
summary(mod.gauss)

Granger nedensellik

VbirR,(5)p=5

library(vars)  
mod.vars <- vars::VAR(ret[, c("EASTEU", "INDIA")], p = 5)
causality(mod.vars, "INDIA")$Granger


## 
##  Granger causality H0: INDIA do not Granger-cause EASTEU
## 
## data:  VAR object mod.vars
## F-Test = 3, df1 = 5, df2 = 3000, p-value = 0.02

causality(mod.vars, "EASTEU")$Granger
## 
##  Granger causality H0: EASTEU do not Granger-cause INDIA
## 
## data:  VAR object mod.vars
## F-Test = 4, df1 = 5, df2 = 3000, p-value = 0.003

Ancak Gaussianlaştırılmış veriler için cevap farklıdır! Burada test edebilir değil "HİNDİSTAN olmadığını H0 reddetmek değil EASTEU Granger nedenlere", ama yine de "EASTEU değil HİNDİSTAN Granger nedenlere yapar" diye reddeder. Dolayısıyla Gausslaştırılmış veriler, Avrupa pazarlarının ertesi gün Hindistan'daki pazarları yönlendirdiği hipotezini desteklemektedir.

mod.vars.gauss <- vars::VAR(ret.gauss[, c("EASTEU", "INDIA")], p = 5)
causality(mod.vars.gauss, "INDIA")$Granger

## 
##  Granger causality H0: INDIA do not Granger-cause EASTEU
## 
## data:  VAR object mod.vars.gauss
## F-Test = 0.8, df1 = 5, df2 = 3000, p-value = 0.5

causality(mod.vars.gauss, "EASTEU")$Granger

## 
##  Granger causality H0: EASTEU do not Granger-cause INDIA
## 
## data:  VAR object mod.vars.gauss
## F-Test = 2, df1 = 5, df2 = 3000, p-value = 0.06

VbirR,(5)


1

Gerekli olan, verilere daha iyi uyan bir olasılık dağıtım modelidir. Bazen tanımlanmış anlar olmaz. Böyle bir dağıtım Cauchy dağılımıdır. Cauchy dağılımının beklenen bir değer olarak bir medyanı olmasına rağmen, kararlı ortalama değer ve sabit daha yüksek momentler yoktur. Bunun anlamı, veri toplandığında, aykırı değerlere benzeyen ancak gerçek ölçümler olan gerçek ölçümlerin kırpılmasıdır. Örneğin, biri ortalama sıfır ile iki normal dağılım F ve G'ye sahipse ve biri F / G'yi böldüğünde, sonucun ilk anı olmayacak ve Cauchy dağılımı olacaktır. Böylece mutlu bir şekilde veri topluyoruz ve 5,3,9,6,2,4 gibi iyi görünüyor ve istikrarlı görünen bir ortalama hesaplıyoruz, o zaman aniden bir -32739876 değeri elde ediyoruz ve ortalama değerimiz anlamsız hale geliyor, ancak, medyan 4 sabittir. Böyle uzun kuyruklu dağılımları ile.

Düzenleme: 2 serbestlik dereceli Student t-dağılımını deneyebilirsiniz. Bu dağılım normal dağılımdan daha uzun kuyruklara sahiptir, çarpıklık ve basıklık kararsızdır ( Sic , yok), ancak ortalama ve varyans tanımlanmıştır, yani kararlıdır.

Sonraki düzenleme: Bir olasılık Theil regresyonunu kullanmak olabilir. Her neyse, bu bir düşünce, çünkü Theil kuyrukları nasıl göründüğü önemli değil. Theil MLR (medyan eğimler kullanılarak çoklu doğrusal regresyon) yapılabilir. Histogramı veri uydurma için hiç Theil yapmadım. Ancak, Theil'i güven aralıkları oluşturmak için jackknife varyantı ile yaptım. Bunu yapmanın avantajı, Theil'in dağıtım şekillerinin ne olduğunu umursamaması ve cevapların genellikle OLS'den daha az önyargılı olmasıdır çünkü tipik olarak OLS, problemli bağımsız eksen varyansı olduğunda kullanılır. Theil tamamen dengesiz değil, medyan eğim. Cevapların da farklı bir anlamı var, OLS bağımlı değişkenin en az hata tahmincisini bulduğu bağımlı ve bağımsız değişkenler arasında daha iyi bir anlaşma buluyor,


2
Güzel bilgi, teşekkürler. Daha fazla okumak için bazı (oldukça kompakt) kaynaklar biliyor musunuz? Uzun kuyrukta tamamen farklı bir sorunum var, ancak verilerimin sadece farklı senaryoların bir karışım dağılımı olduğunu düşünüyorum.
flaschenpost

Mathematica kullanıyorum ve dağıtımları parçalara ayırmanın yanı sıra parça bazında dağılımları tanımlamak o dilde zor değil. Örneğin, bakmak bu . Genel olarak, rasgele değişkenler evrişim ile eklenir, ancak pratikte yoğunluk fonksiyonlarının evrişliği zordur. Bazı insanlar sadece karıştırılmış değişkenler için yoğunluk fonksiyonlarını tanımlar, örneğin deprem frekansını modellemek için maksimum bir değerden sonra sansürlenmiş bir ağır gama dağılımına hafif bir üstel kuyruk ekler. @flaschenpost
Carl
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.