Eşitsiz boyutta iki değişken arasındaki korelasyon


9

Üzerinde çalıştığım bir problemde X ve Y olmak üzere iki rastgele değişkenim var. X'in sıra boşluğunun sırası 4350'dir ve Y'nin sıra boşluğunun sırası onbinlerce önemli ölçüde daha büyüktür. Hem X hem de Y aynı sayıda sütuna sahiptir.

İki değişken arasındaki korelasyon ölçüsüne ihtiyacım var ve Pearson'ın r'si X ve Y'nin eşit boyuta sahip olmasını gerektirir (en azından R iki rv'nin olmasını gerektirir).

Bu ikisi arasında bir korelasyon yapma umudum var mı yoksa Y'nin gözlemlerini budamanın bir yolunu bulmalı mıyım?

 EDIT

Söz konusu olması gereken yorumlardan bilgi ekleme.

Sanırım bundan bahsetmeyi unuttum. X ve Y hisse senedi fiyatlarıdır. X şirketi, Y'den çok daha kısa bir süredir halka açık durumda. X ve Y fiyatlarının ne kadar ilişkili olduğunu söylemek istedim. X ve Y'nin her ikisinin de var olduğu süre boyunca kesinlikle bir korelasyon elde edebilirim. Y'nin birkaç yıl boyunca hisse senedi fiyatlarını bilmenin X'in mevcut olmadığını bana ek bilgi sağlayıp sağlamadığını bilmek istedim.


2
Bu, hem X'i hem de Y gerçekleşmesini gözlemlediğiniz gözlemleriniz (veya "vakalarınız") gibi görünmüyor. Hangi X'in hangi Y ile ilişkili olduğunu nasıl öğrenirsiniz?
Stephan Kolassa

1
Sanırım bundan bahsetmeyi unuttum. X ve Y hisse senedi fiyatlarıdır. X şirketi, Y'den çok daha kısa bir süredir halka açık durumda. X ve Y fiyatlarının ne kadar ilişkili olduğunu söylemek istedim. X ve Y'nin her ikisinin de var olduğu süre boyunca kesinlikle bir korelasyon elde edebilirim. Y'nin birkaç yıl boyunca hisse senedi fiyatlarını bilmenin X'in mevcut olmadığını bana ek bilgi sağlayıp sağlamadığını bilmek istedim.
Christopher Aden

2
@Christopher Yukarıdaki yorumunuzu yansıtacak şekilde sorunuzu güncellemenizi tavsiye ederim. Ayrıca, korelasyonun anlamlı olması için, eşit boyutlardan daha fazlası gereklidir; gerçek ölçümler, büyük olasılıkla aynı zaman noktaları olan aynı vakalardan gelmelidir.
Jeromy Anglim


Başka bir soru: X ve Y'nin aynı sayıda sütuna sahip olduğunu belirtiyorsunuz. Her biri bir olur mu? Yoksa hem X hem de Y için birden fazla diziniz var mı (farklı borsalardaki fiyatlar veya benzeri)?
Stephan Kolassa

Yanıtlar:


10

Hiçbir imputasyon, zaman serisi analizi, GARCH modelleri, enterpolasyon, ekstrapolasyon veya diğer süslü algoritmalar, var olmadığı yerde bilgi oluşturmak için hiçbir şey yapmayacaktır (bu yanılsamayı yaratabilirler ;-). Y'nin X'in halka açılmasından önceki fiyatı, sonraki korelasyonlarını değerlendirmek için işe yaramaz.

Bazen (genellikle bir halka arz için hazırlık) analistler, X'in hisselerinin halka açılmadan önce varsayımsal fiyatlarını geriye dönük olarak yeniden yapılandırmak için dahili muhasebe bilgilerini (veya özel hisse senedi işlemlerinin kayıtlarını) kullanırlar. Muhtemelen bu tür bilgiler korelasyon tahminlerini arttırmak için kullanılabilir, ancak bu backcast'lerin son derece belirsiz doğası göz önüne alındığında, X için fiyatların sadece birkaç gün veya hafta fiyatı olmadığı sürece çabaların herhangi bir yardımcı olacağından şüpheliyim.


Açıklama: GARCH'dan eksik veri problemiyle başa çıkmak için bahsetmedim (ki bu elbette mantıklı olmaz) - ama her ikisinin de bulunduğu zaman serileri arasındaki korelasyonun basit bir hesaplamasını geliştirmek için.
Stephan Kolassa

@Stephan: Tamam. Seni görmezden gelmediğimi göstermek için bahsettim!
whuber

1
Teşekkür ederim, whuber. Aradığım şeyle aynı doğrultuda. X ve Y arasındaki karşılıklı zaman dilimi zaten 16 yıl olduğunda, geri yayınlamanın X'e birkaç hafta daha eklemek için çok yararlı olacağını düşünmüyorum (veya fizibilite).
Christopher Aden

2
@Christopher: !! 16 yıllık (günlük kapanışlarla?) Sadece bir korelasyon bulmak için değil, aynı zamanda zaman içinde nasıl değiştiğini keşfetmek için de yeterli veriye sahipsiniz. (@Stephan Kolassa'nın cevabının ruhu olduğuna inanıyorum.)
whuber

Katılıyorum. X'in halka arzından önce hangi değerleri alacağını bulmak için teknikler kullanmak hataya meyilli görünüyor. Modern eğilimleri tahmin etmek için 16 yaşında olan verilerin alaka düzeyini de sorgulayabilirim.
Christopher Aden

10

Dolayısıyla sorun eksik verilerden biridir (Y'nin hepsinde karşılık gelen bir X bulunmaz, burada yazışma zaman noktaları üzerinden çalıştırılır). Burada, Y'yi atmak için bir X'iniz olmadığı ve tam çiftler üzerindeki korelasyonu hesaplamaktan daha fazla bir şey olduğunu düşünmüyorum.

Finansal zaman serilerini okumak isteyebilirsiniz, ancak bu noktada kullanışlı bir referansım yok (fikirler, kimse?). Hisse senedi fiyatları genellikle, örneğin GARCH tarafından modellenebilen zamanla değişen oynaklıklar gösterir . İki zaman dizisi X ve Y'nin düşük oynaklık dönemlerinde (ekonomi büyüdüğünde, tüm hisse senedi fiyatlarının artma eğiliminde) pozitif korelasyonlar sergilemesi, ancak genel oynaklık yüksek olduğunda (9/11'de havayollarının para daha güvenli yatırımlara kaçtı). Bu nedenle, sadece genel bir korelasyonun hesaplanması gözlem zaman diliminize çok bağlı olabilir.

GÜNCELLEME: Bence VAR (vektör otoregresif) modellerine bakmak isteyebilirsiniz .


Temel finansal zaman serisi referansları için cevabımı burada görebilirsiniz: stats.stackexchange.com/questions/328/… . Tsay metni en popüler metinlerden biridir.
Shane,

2

@Jeromy Anglim bunu doğru olarak belirtti. Zaman serilerinden sadece biri varken fazladan bilgiye sahip olmak burada bir değer getirmez. Prensip olarak, geleneksel korelasyon önlemleri kullanılarak anlamlı olması için verilerin aynı anda örneklenmesi gerekir.

Daha genel bir sorun olarak, düzensiz aralıklı zaman serisi verileriyle başa çıkmak için teknikler olduğunu da ekleyebilirim. "Düzensiz aralıklı zaman serisi korelasyonu" için arama yapabilirsiniz. Son zamanların bir kısmı yüksek frekanslı veriler kullanılarak "Gerçekleştirilen Oynaklık ve Korelasyon" (Andersen, Bollerslev, Diebold ve Labys 1999) üzerinde yapılmıştır.


1

Yorumlarınızdaki ekstra bilgiler göz önüne alındığında, iki korelasyona bakmanızı tavsiye ederim. Birincisi, şirketlerin her ikisinin de olduğu ortak dönemlerdi. Yani, biri yaklaşık 2 yıl önce olsaydı, bu verileri bırakıp geri kalanına bakardınız. İkincisi, göreceli zaman dönemleri olacaktır. İkincisinde, gerçek zamanı ilişkilendirmiyorsunuz, ancak şirket halka açıldığından beri ölçülen süreyi.

İlki, aynı zaman dilimi içinde paylaşılan genel ekonomik güçlerden güçlü bir şekilde etkilenecektir. İkincisi, halka arzdan sonra değiştikçe şirketlerin paylaştığı mülklerden etkilenecektir.


0

Böyle bir sorunu çözmenin bir başka yolu, belirli bir bağlamda mantıklı gelebilecek veya gelmeyecek bir zaman serisi modeli kullanarak daha kısa seriler için eksik verileri etkilemektir.

Bağlamınızda, hisse senedi fiyatlarını geçmişe çarptırmak şu karşı olgusal soruyu sorduğunuz anlamına gelecektir: X şirketi için, halka açık olduğunda değil, geçmişte n yıl önce halka açılsaydı, hisse senedi fiyatı ne olurdu? Böyle bir veri itibarı potansiyel olarak ilgili şirketlerin hisse senedi fiyatları, genel piyasa eğilimleri vb. Dikkate alınarak yapılabilir. Ancak, projenizin hedefleri göz önüne alındığında böyle bir analiz mantıklı olmayabilir veya gerekmeyebilir.


0

Pek çok şey yaptığınız varsayımlara bağlıdır. Verilerin durağan olduğunu varsayarsanız, bir seri için daha fazla veri, oynaklığının daha az tahmin edilmesini sağlayacaktır. Bu tahmin, korelasyon tahminini iyileştirmek için kullanılabilir. Yani follwoing ifadesi yanlış:

"X'in halka açılmadan önceki Y fiyatının geçmişi, sonraki korelasyonlarını değerlendirmek için işe yaramaz"


Bunu düşündüm. Teoride işe yarayabilir, ancak çok asi olacaktır, bundan kaçınmak daha iyidir.
kjetil b halvorsen

-1

Bu bir makine öğrenimi algoritması için bir sorun gibi geliyor. Bu nedenle, trendin belirli bir yönünü tanımlayan bir dizi özellik anlamaya çalışacağım ve bunun üzerinde çalışacağım. Tüm makine öğrenme teorisi bu cevap kutusu için biraz karmaşıktır, ancak bunu okumanız yararlı olacaktır.

Ama dürüst olmak gerekirse, bunun zaten orada olduğunu düşünüyorum. Para kazanılabilecek yerlerde, insanlar aklına gelir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.