Temel Bileşen Analizi hisse senedi fiyatları / sabit olmayan veriler üzerinde kullanılabilir mi?


10

Hackerlar için Machine Learning adlı kitapta verilen bir örneği okuyorum . Önce örnek üzerinde duracağım ve sonra sorum hakkında konuşacağım.

Örnek :

10 yıllık 25 hisse fiyatı için bir veri kümesi alır. PCA'yı 25 hisse fiyatında çalıştırıyor. Ana bileşeni Dow Jones Endeksi ile karşılaştırır. PC ve DJI arasında çok güçlü benzerlik gözlemler!

Anladığım kadarıyla, örnek, benim gibi yeni başlayanların PCA'nın bir aracının ne kadar etkili olduğunu anlamalarına yardımcı olmak için bir oyuncak gibidir!

Ancak, başka bir kaynaktan okurken hisse fiyatlarının durağan olmadığını ve hisse fiyatlarında PCA işletmesinin saçma olduğunu görüyorum. Okuduğum kaynaklar, hisse senedi fiyatları için kovaryans ve PCA hesaplama fikrini tamamen alay ediyor.

Sorular :

  1. Örnek nasıl bu kadar iyi çalıştı? PCA hisse fiyatları ve DJI birbirine çok yakındı. Ve veriler 2002-2011 hisse fiyatlarının gerçek verileridir.

  2. Birisi beni durağan / durağan olmayan verileri okumak için güzel bir kaynağa yönlendirebilir mi? Programcıyım. İyi bir matematik geçmişim var. Ama 3 yıldır ciddi matematik yapmadım. Rastgele yürüyüşler gibi şeyleri tekrar okumaya başladım.

Yanıtlar:


10

Bu parça orijinal soruya ve @ JonEgil'in cevabına yapılan yorumlarda sorulan soruların bir kısmına cevap vermeye hizmet ediyor.

i.i.d.i.i.d.i.i.d.. Bu yüzden PCA'yı fiyatlardan ziyade (logaritmik) getirilerde çalıştırmak mantıklıdır.

i.i.d.

Ptr:=log(Pt)log(Pt1)=logPtPt1r:=PtPt1Pt1hh


1
+1, bu ilginç. Aslında bir "dönüş" ne biraz genişletebilir misiniz? Ekonomi bilgim sıfır; Googled ve fiyat tarafından verilirse gördümf(ti)logf(ti+1)f(ti)

1
@amoeba, kısa bir açıklama ekledim ve şimdi ayrılmak zorundayım. Umarım orada çok fazla hata yapmadım. Başka sorunlar varsa yarın döneceğim.
Richard Hardy

1
Teşekkürler. Şimdi görüyorum ki getiriler (logaritmik getiriler) esasen fiyatların logaritmasının bir türevidir (ilk fark). Dolayısıyla, iddia, iadelerin geçerli olması ve kütük fiyatlarının rastgele yürüyüşler olması durumunda mantıklıdır. Bununla birlikte, Dow Jones örneğinden hala şaşırıyorum ve daha fazla açıklamayı takdir ediyorum.
amip

6

Bu tür analizleri profesyonelce yürütüyorum ve gerçekten yararlı olduklarını doğrulayabiliyorum. Ancak fiyatları değil, getirileri analiz ettiğinizden emin olun . Bu aynı zamanda İnce Araçlar'daki eleştiriyle de vurgulanmaktadır:

To perform PCA, your data have to have a meaningful covariance matrix 
(or correlation matrix, but the conditions are equivalent). They analyze 
stock prices, which are non-stationary time series variables.

Analizimizde tipik bir kullanım alanı, piyasadaki sistemik riski ölçmektir. Piyasada ne kadar fazla işbirliği olursa portföyünüzde gerçekten o kadar çok çeşitlilik olur. Bu, örneğin, birinci ana bileşen tarafından tarif edilen varyans miktarıyla ölçülebilir. Hangi ilk özdeğer değerine özdeştir.

Finansal veriler için, zaman içinde hareketli bir pencere incelenir. Eski gözlemlerin ağırlığını azaltan bazı bozunma faktörleri yararlıdır. Günlük veriler için, 20-60 gün arasında herhangi bir şey, haftalık veriler için belki 1-2 yıl, hepsi ihtiyaçlarınıza bağlı olarak.

Küresel finansal piyasalar için, on veya yüzbinlerce varlık fiyatının sürekli olarak değiştiği bir tiplemenin 100K ve 100K kovaryans matrisi çalıştıramayacağını unutmayın. Bunun yerine, tipik usecase analizi ülke, sektör veya diğer anlamlı gruplar başına yürütmektir. Alternatif olarak, getiriyi bir dizi temel faktör (değer, boyut, kalite, kredi ....) ile parçalayın ve bunlarda PCA / Kovaryans analizi yapın.

Bazı güzel makaleler Attilio Meucci'nin etkili bahis sayısı tartışmasını içerir: http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1358533

ve ayrıca Ledoit ve Wolf'un Balı örnek kovaryans matrisini daralttım http://www.math.umn.edu/~bemis/MFM/2014/spring/References/lw_shrinkage.pdf

Finansal olarak durağanlığa giriş için neden Investopedia ile başlamıyorsunuz? Titiz değil, ancak ana fikirleri aktarıyor.

İyi şanslar!

EDIT: İşte 2015 yılına kadar günlük getiri ile Apple, Google ve Dow Jones gösteren 3-hisse senedi bir örnek. Üst üçgen getiri korelasyonu, alt üçgen fiyatları korelasyon gösterir.

Üst üçgen getiri korelasyonu, alt üçgen fiyat korelasyonu

Görüldüğü gibi Apple, Dow (sol alt 0,76) ile fiyat korelasyonundan (sağ üst 0,66) daha yüksek bir fiyat ilişkisine sahiptir. Bundan ne öğrenebiliriz? Fazla değil. Google'ın hem Apple (-0.28) hem de Dow (-0.27) ile negatif bir fiyat ilişkisi vardır. Yine, bundan öğrenecek çok şey yok. Ancak, geri dönüş korelasyonları bize Apple ve Google'ın Dow ile oldukça yüksek bir korelasyona sahip olduklarını söylüyor (sırasıyla 0.66 ve 0.53). Bu bize portföydeki varlıkların birlikte dolaşımı (fiyat değişimi) hakkında bir şeyler anlatır. Bu yararlı bilgilerdir.

Ana nokta, fiyat korelasyonunun kolayca hesaplanabilmesine rağmen, ilginç olmadığıdır. Neden? Çünkü hisse senedinin fiyatı kendi başına ilginç değildir. Ancak fiyat değişikliği çok ilginç.


Lütfen fiyat ve getiri kullanma arasındaki farkla ilgili sorunun ana kısmını daha fazla genişletebilir misiniz? Fiyatları kullanırken korelasyon matrisinin durağanlıktan etkileneceğini; örneğin tüm fiyatlar doğrusal olarak büyürse, tüm korelasyonlar güçlü bir şekilde pozitif olacaktır. İlk olarak, neden kötü? Özellikle Dow Jones'un aslında ortalama bir fiyat olduğu ve çok da artacağı göz önüne alındığında (PC1 gibi). İkincisi, iadeleri nasıl yardımcı olabiliriz? AFAIK "getirileri" komşu noktaların kaydedilmiş oranlarıdır; neden anlamlıdır ve Dow Jones ile nasıl ilişkilidir?
amip

bilgilendirici cevabınız için teşekkürler. Ama sorumu cevaplamıyor. Kitaptaki veriler için fiyat analizinin neden çok iyi çalıştığını anlamak istiyorum? Ve amip birçok geçerli soru ortaya attı.
claudius

1
@claudius: Fiyatlarda PCA'nın ortalama fiyat olan Dow Jones'a benzer bir şey verdiği gerçeği hiç de şaşırtıcı değil. Geri dönüşte PCA'nın neden daha iyi bir uyum sağladığını merak ediyorum. Belki Jon açıklığa kavuşabilir.
amip

1
Hackerlar için ML'de çalıştırılan gerçek koda bakmadım, ancak birisi fiyatları analiz ettiğinde, gerçekte analiz ettikleri 100'ün 99 katı log-return'dur. Örneğin, bugün Dow 162 puan düşerken, Apple 0.88 dolar düştü. Sadece sayılar büyük ölçüde farklı olmakla kalmıyor, aynı zamanda farklı bir ölçekte, endeks puanları ile para arasında bile. Fakat pct cinsinden% 0.91 ve% 0.75 oranında karşılaştırılabilir ve çalışmak istediğiniz rakamlar. Bazı analizler için, ortalamayı çıkararak verilerin eğilimini azaltabilir. Kısa vadeli finansal zamanlamalarda bu, hiçbir eğilim olmadığı varsayılarak genellikle göz ardı edilir.
Jon Egil

1
@amoeba, (Kısmen) yorumlarda sorulan soruları yanıtlamak için, getiri yaklaşık iid iken fiyatlar yaklaşık rastgele yürüyüşlerdir. Temel bileşenler, iid gözlemleri varsayımı altında güzel özelliklere sahiptir. Bu yüzden fiyattan ziyade getirileri PCA çalıştırmak mantıklı. Ruey S. Tsay, finansal zaman serilerinin ekonometrik modellerinden artıklar üzerinde PCA çalıştırmayı savundu, çünkü artıkların normalde olduğu varsayılır çünkü bunun "R ve Finansal Uygulamalar ile Çok Değişkenli Zaman Serisi Analizi" ders kitabında bir yer olabileceğini düşünüyorum.
Richard Hardy
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.