Pearson korelasyonunun zaman serileri ile doğru kullanımı


47

Ne kadar korelasyon gösterdiklerini görmek için çapraz korelasyon kurmak istediğim 2 zaman serisine (her ikisi de pürüzsüz) sahibim.

Pearson korelasyon katsayısını kullanmak niyetindeyim. Bu uygun mu?

İkinci sorum ise istediğim gibi 2 zaman serisini örneklemeyi seçebildiğim. yani kaç tane veri noktasını seçeceğimizi seçebiliyorum. Bu çıktı olan korelasyon katsayısını etkiler mi? Bunu hesaba katmam gerekiyor mu?

Gösterim amacıyla

option(i)

[1,    4,    7,    10] & [6,    9,    6,    9,    6]

option(ii)

[1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]  

1
Zaman serilerinin doğası nedir? Rastgele yürüyüş mü? Sabit? Ekonomik seri?
Aksakal,

Yanıtlar:


72

Pearson korelasyon olduğu serinin arasındaki korelasyon bakmak için kullanılan ... ama olmanın zaman serisi korelasyon farklı gecikme genelinde bakıldığında - çapraz korelasyon fonksiyonu .

Çapraz korelasyon dizi içi bağımlılıktan etkilenir, bu nedenle çoğu durumda seri içi bağımlılık ilk önce kaldırılmalıdır. Dolayısıyla, bu korelasyonu kullanmak için , seriyi düzeltmek yerine , artıklar arasındaki bağımlılığa bakmak daha yaygındır (çünkü anlamlıdır) - değişkenler için uygun bir modelden sonra kalan pürüzlü kısım bulunur.

Muhtemelen durağan olmayan, düzgünleştirilmiş seriler arasında Pearson korelasyonunun yorumlanabilir olup olmadığını anlamaya çalışmadan önce zaman serisi modellerinde bazı temel kaynaklar ile başlamak isteyebilirsiniz.

Özellikle, burada fenomene bakmak isteyeceksiniz . [Zaman serilerinde buna bazen sahte korelasyon denir , ancak sahte korelasyonla ilgili Wikipedia makalesi, terimin bu kullanımı hariç tutacak şekilde kullanımı hakkında dar görüşlere sahiptir. Büyük olasılıkla bunun yerine sahte regresyon arayarak burada tartışılan konular hakkında daha fazla bilgi bulacaksınız .]

[Düzenle - Vikipedi manzara sürekli değişiyor; yukarıdaki para. şu anda orada olanı yansıtacak şekilde muhtemelen gözden geçirilmelidir.]

örneğin bazı tartışmaları görün

  1. http://www.math.ku.dk/~sjo/papers/LisbonPaper.pdf (Yule'nin açılış teklifi, 1925'te sunulan ancak ertesi yıl yayınlanan bir bildiriyle) sorunu oldukça iyi özetlemektedir.

  2. Christos Agiakloglou ve Apostolos Tsimpanos, Durağan AR İşlemleri için Sahte Düzeltmeler (1) İşlemler http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf (bu bile elde edebileceğinizi gösteriyor) durağan seriler arasındaki problem, bu yüzden ön-karşıt olma eğilimi)

  3. Yule'nin klasik referansı, (1926) [1] yukarıda bahsedilmiştir.

Ayrıca tartışma bulabilirsiniz burada kullanışlı, hem de tartışma burada

-

Pearson korelasyonunu zaman serileri arasında anlamlı bir şekilde kullanmak zordur ve bazen şaşırtıcı derecede zekicedir.


Sahte bir korelasyon araştırdım, ancak A serisinin B serisinin sebebi olup olmadığı umurumda değil. B serisinin ne yaptığını bakarak (veya tam tersi) bakarak yalnızca A serisi hakkında bir şeyler öğrenip öğrenemeyeceğinizi bilmek istiyorum. Başka bir deyişle - bir korelasyonları var mı?

Wikipedia makalesinde sahte korelasyon kavramının dar kullanımı hakkında önceki yorumuma dikkat edin.

Sahte korelasyon hakkındaki nokta, dizilerin korelasyonlu görünebileceği , ancak korelasyonun kendisinin anlamlı olmadığıdır. Şimdiye kadar, başlarının sayılarını sayan eksi kuyrukların sayısının, dizilerinin değeri kadar sayarak iki farklı para attığını düşünün.

HTHH...1,0,1,2,...

Belli ki iki seri arasında hiçbir bağlantı yok. Açıkçası hiçbiri size diğeri hakkında ilk şeyi söyleyemez!

Ancak, madeni para çiftleri arasındaki ilişkilerin türüne bakın:

görüntü tanımını buraya girin

Size bunların ne olduğunu söylemezsem ve bu serilerin herhangi bir çiftini kendi başınıza aldıysanız, bunlar etkileyici korelasyonlar olurdu, değil mi?

Ama hepsi anlamsız . Tamamen sahte. Üç çiftin hiçbiri, diğerlerinden herhangi biri ile birbirleriyle daha pozitif ya da olumsuz olarak bağlantılı değil - sadece birikmiş gürültüsü . Sahtelik sadece tahmin ilgili değil, bütün kavramı içinde serisinin bağımlılığı dikkate almadan seri arasındaki ilişkiyi gözden geçirmek ve yanlış olduğunu.

Tüm burada var olduğunu dahilinde-serisi bağımlılık. Gerçek bir çapraz seri ilişkisi yok.

Bu serileri otomatik olarak bağımlı kılan konuyla düzgün bir şekilde başa çıkınca - hepsi entegre olur ( Bernoulli rastgele yürür ), bu yüzden onları ayırmanız gerekir - "görünür" ilişkilendirme kaybolur (üçün en büyük çapraz seri korelasyonu 0.048).

Size söylenen şey gerçektir - görünen birlik, serideki bağımlılığın neden olduğu sadece bir yanılsamadır.

Orada içinde-serisi bağımlılığı ve sen eğer: bu yüzden lütfen anla - Sorunuz "zaman serileri ile düzgün Pearson korelasyon nasıl kullanılacağı" istedi yok ilk onunla başa, doğru şekilde kullandığınızdan edilmeyecektir.

Dahası, düzleştirme seri bağımlılık problemini azaltmaz; tam tersi - daha da kötüleştirir! Pürüzsüzleştirmeden sonraki korelasyonlar şunlardır (varsayılan değer Loess - dizi - indeks - R'de gerçekleştirilmiştir):

            coin1      coin2     
coin2   0.9696378 
coin3  -0.8829326 -0.7733559 

Hepsi 0'dan daha da öteye gitti. Hepsi hala anlamsız gürültüden başka bir şey değil , ama şimdi düzleştirilmiş, birikmiş gürültü. (Pürüzsüzleştirerek, korelasyon hesaplamasına koyduğumuz dizideki değişkenliği azaltıyoruz, böylece korelasyonun artması bu olabilir.)

[1]: Yule, GU (1926) "Neden Zaman Serileri Arasında Bazen Saçma İlişkiler Alıyoruz?" J.Roy.Stat.Soc. , 89 , 1 , sayfa 1-63


Harika cevap için teşekkür ederim. Sahte bir korelasyon araştırdım, ancak A serisinin B serisinin sebebi olup olmadığı umurumda değil. B serisinin ne yaptığını bakarak (veya tam tersi) bakarak yalnızca A serisi hakkında bir şeyler öğrenip öğrenemeyeceğinizi bilmek istiyorum. Başka bir deyişle - bir korelasyonları var mı?
user1551817

Lütfen güncellenmiş cevabımı gör.
Glen_b

2
“.. öyleyse onları ayırmanız gerekiyor ..” tam olarak ne anlama geliyor? Belki onları farklılaştırıyor? ..
Georgios Pligoropoulos

1
Farklılık - Buradaki Wikipedia ya da Öngörü, İlke ve Uygulama kitabının bu bölümüne bakın . Bir sonraki sorunuzda, alıntı yaptığınız paragrafın geri kalanı açıkça bunu söylüyor. (Ancak, yapılan, sadece oldukça yaygın olan bir şeyi açıklamak için tek olasılık değil)
Glen_b

1
Makalenin başka bir versiyonu gibi görünen şeyleri buldum ve başlık ve yazarlar eklendi
Glen_b

6

(St)1tTXt=StSt1) (rastgele yürüyüşlerde) bağımsız ve aynı şekilde dağıtılmış olanlar. Pearson katsayısından daha güçlü olduklarından Spearman korelasyonunu veya Kendall olanını kullanmanızı öneririm. Pearson doğrusal bağımlılığı ölçer, Spearman ve Kendall ölçümü ise değişkenlerinizin monoton dönüşümleri ile değişmez.

Ayrıca, iki zaman serisinin güçlü bir şekilde bağımlı olduğunu, bir araya gelip birlikte aşağı indiğini, ancak bazen güçlü değişimler geçirdiğini, diğeri daima hafif değişimler olduğunu düşünün, Pearson korelasyonunuz Spearman ve Kendall'lardan farklı olacaktır. zaman serileriniz arasındaki bağımlılığın daha iyi tahminleridir).

Bununla ilgili kapsamlı bir tedavi ve bağımlılığın daha iyi anlaşılması için, Copula Teorisi'ne ve zaman serilerine uygulamalara bakabilirsiniz .


4

Zaman serisi verileri genellikle zamana bağlıdır. Ancak Pearson korelasyonu bağımsız veriler için uygundur. Bu sorun sahte gerileme ile benzerlik göstermektedir. Katsayının yüksek derecede önemli olması muhtemeldir, ancak bu yalnızca her iki seriyi etkileyen verilerin zaman eğiliminden kaynaklanmaktadır. Verileri modellemenizi ve ardından modellemenin her iki seri için de benzer sonuçlar üretip üretmediğini görmeyi denerim. Ancak Pearson korelasyon katsayısının kullanılması, bağımlılık yapısının yorumlanması için büyük olasılıkla yanıltıcı sonuçlar verecektir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.