Hacim zamanlarını ilişkilendirme


12

Aşağıdaki grafiği düşünün:

heyecan ve ticaret hacmi

Kırmızı çizgi (sol eksen) belirli bir hisse senedinin işlem hacmini açıklar. Mavi çizgi (sağ eksen) söz konusu hisse senedi için heyecan mesajı hacmini açıklar. Örneğin, 9 Mayıs'ta (05-09) yaklaşık 1.100 milyon işlem ve 4.000 tweet yapıldı.

Aynı gün içinde mi yoksa gecikme ile milatörler arasında bir korelasyon olup olmadığını hesaplamak istiyorum - örneğin: tweet hacmi bir gün sonra işlem hacmiyle ilişkilidir. Böyle bir analiz yapan birçok makaleyi okuyorum, örneğin Finansal Zaman Serilerini Mikro-Bloglama Etkinliği ile İlişkilendirmek , ancak böyle bir analizin pratikte nasıl yapıldığını anlatmıyorlar. Makalede aşağıdakiler belirtilmiştir:

resim açıklamasını buraya girin

Ancak, istatistiksel analiz konusunda çok az deneyime sahibim ve bunu sahip olduğum dizi üzerinde nasıl yapacağımı bilmiyorum. SPSS (PASW olarak da bilinir) kullanıyorum ve sorum şu: yukarıdaki görüntünün altında bir veri dosyası bulunduğum noktadan böyle bir analiz yapmak için atılacak adımlar nelerdir? Böyle bir test varsayılan bir özellik midir (ve buna ne denir) ve / veya bunu nasıl yürütebilirim?

Herhangi bir yardım büyük mutluluk duyacağız :-)


1
Onları hesaplayabilirsiniz ... iki seri iki değişkenli normal olmadığı sürece bunları kritik değerlerle karşılaştıramazsınız
IrishStat

Ham verileri buraya yapıştırdım: pastebin.com/tZajRae9 Serinin iki değişkenli normal olup olmadığını anlamanın bir yolu var mı? Yorumunuzu gerçekten takdir ediyorum.
Pr0no

Serinin her birinde Aykırı Değerler / Seviye kaymaları tespit edildikten sonra, sonuçta ayarlanan seri bir AR (1) modeli sergiledi. Sadece Outlier / level Shift ayarlaması VE ampirik olarak tanımlanmış AR (1) dahil edilmesinden sonra her iki gürültü serisinde de otomatik korelasyon yoktu (yapı içinde). Bu iki vekil serinin çapraz-korelasyonu (yapı arasında) önemli bir çapraz-korelasyon göstermediği için, tweet sayısı hacmin tahmin edilmesine yardımcı görünmemektedir.
IrishStat

Yanıtlar:


6

İki değişkenli normallik için iki kontrol üç şeyi kontrol eder:

  1. ilk gözlem serisinin marjinal olarak normal olup olmadığını kontrol edin,
  2. ikinci gözlem serisinin marjinal olarak normal olup olmadığını kontrol edin,
  3. birbiri üzerine gerdirin ve artıkların normal olup olmadığını kontrol edin.

Bu adımların her birinde normalliği kontrol etmek için normal qq grafikleri kullanın veya herhangi bir normalite hipotezi testi kullanabilirsiniz.

Alternatif olarak, iki serinin olası her doğrusal kombinasyonunun (gerçek katsayılar) marjinal olarak normal olup olmadığını kontrol edebilirsiniz. Yine de bu muhtemelen zor olurdu.

Edit: (6 yıl sonra) Ben gelecek kuşak için yukarıda tutacağım, ama burada benzer bir soru için daha yeni bir cevap var unutmayın .


Adım 1 ve 2'yi gerçekleştirdim ve aşağıdaki kutu grafiklerini buldum: i.imgur.com/SDOTE.png 3 ila 5 aykırı gözlem dışında, normal olarak normal görünüyorlar. Ancak, Sig. Shapiro-Wilk Testi için değer 0.000'dir ve bu normallikten önemli bir sapmayı gösterir. Aykırı değerler kaldırıldığında, Shapiro Wilk Sig. tweetler için 0,201 ve esnaf için 0,004'tür. Bu korelasyonun mümkün olmadığını gösteriyor mu? Ayrıca, bu bir zaman çizelgesidir - aykırı değerlerin silinmesi, araştırılan zaman dilimi içindeki günlerin silinmesi anlamına gelir. Bu kabul edilmiş bir uygulama mı?
Pr0no

Ayrıca 3. adım için bir pp çizim yaptım. Ya da en azından benim yorumumda bu ihtiyacım olan şey (normal olasılık grafiğiyle doğrusal bir regresyon): i.imgur.com/EZ3Ic.png Herhangi bir yorum?
Pr0no

Marjinal dağılımlar normal görünmüyor. Wikipedia sayfa bağlantısında çıkarımla ilgili küçük bir bölüm var . Aykırı değerleri kaldırmak genellikle iyi bir fikir değildir. Belki bir güven aralığı önyükleme.
Taylor

1
Soru korelasyonla ilgilidir - ama cevap normallikle ilgilidir. Cevap birden fazla kez onaylandı ve kabul edildi. Burada ne eksik? ..
Richard Hardy

İki değişkenli normal dağılım Pearson korelasyonunu kullanarak motive eden / haklı gösteren en basit modeldir.
Taylor

11

Zaman serileri arasındaki korelasyon katsayısı işe yaramaz. Bkz. CORRELATION COEFFICIENT - Önemi Test Etmek İçin Kritik Değerler . Bu ilk olarak 1926 yılında U.Yule tarafından işaret edildi. Yule , GU, 1926, "Neden bazen zaman serileri arasında saçmalık korelasyonları elde ediyoruz? Örnekleme ve zaman serilerinin doğası", Journal of Royal Statistical Society 89, 1 –64 . Daha fazla bilgi için "neden saçmalık korelasyonu alıyoruz" google'ı isteyebilirsiniz.

Bunun nedeni korelasyon gerektiren eklem normallik testleridir. Ortak normallik, her serinin normal olmasını gerektirir. Normallik bağımsızlık gerektirir. Zaman serileri arasındaki ilişkiyi incelemek için lütfen Zaman Dizisi Analizi: Tek Değişkenli ve Çok Değişkenli Yöntemler gibi iyi zaman serileri kitaplarında Transfer Fonksiyonu Tanımını gözden geçirin. William WS Wei, David P. Reilly .

Meydan Cevap

Meydan okumaya bir cevap açısından. Birkaç zamanla ( Yule, GU, 1926 ), iki zaman serisini ilişkilendirmenin, özellikle her iki seri de bakliyat / seviye kayması / mevsimsel bakliyat ve / veya yerel zaman eğilimlerinden etkilenmesi durumunda kusurlu olabileceği iyi bilinmektedir . Bu durumda her bir diziyi AYRI olarak alır ve ARIMA yapısını ve herhangi bir darbe / seviye kayması / mevsimsel darbe ve / veya bir hata süreci yaratabilecek ve yaratabilecek yerel zaman eğilimlerini belirleyeceğim.

İki orijinal hata işleminin her biri için bir tane olmak üzere iki temiz hata işlemiyle, her bir serideki otomatik korelasyon yapısının üstündeki ve ötesindeki ilişki derecesini ölçmek için kullanılabilen çapraz korelasyonu hesaplayacağım. Bu çözüme uygun şekilde çift ön beyazlatma yaklaşımı denir.

Görmek:


Cevabın için teşekkürler. Ama sonra tanım olarak, bahsettiğim makalenin bir değeri olmadığını mı söylüyorsun? İkincisi, bu, tanım gereği, korelasyonun anlamı olduğu yerde iki serinin asla ilişkilendirilemeyeceği anlamına mı geliyor?
Pr0no

3
Korelasyon basit aritmetik olduğu için hesaplanabilir. Hesaplanamayan (kolayca) korelasyonun istatistiksel olarak anlamlı olma olasılığıdır. Korelasyon katsayısına ilk kez tanıtıldığınızı düşünün. N bağımsız örneklerin her biri için iki özellik / değerin hesaplandığı ve eklem yoğunluğunun iki değişkenli normal olduğu N bağımsız örnekler bağlamındaydı.
IrishStat

1
Neden sadece aynı (simetrik?) Dağılım değil, ortak normallik gerektirir? yani ortak tekdüzelik de işe yaramaz mı?
naught101

1
@ NAUGHT101. Korelasyon katsayısı için kritik değerler eklem-normallik varsayımı altında mevcuttur ve tanımlanmamıştır.
IrishStat

@IrishStat Düzenlenen cevabınız için teşekkür ederiz. Takdir edildi. Normallik testi için, ayrı değişkenlerin qq grafikleri için lütfen i.imgur.com/SDOTE.png adresine bakın . Aykırı değerler kaldırıldıktan sonra, ortak normallik ölçümlerini hangi anlama geldiğimi anladığım kadarıyla bir pp grafiği, i.imgur.com/EZ3Ic.png Herhangi bir yorum var mı?
Pr0no
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.