Finansal zaman serisi verilerinden (yani tickdata) aykırı değerleri ve hataları (nedeni ne olursa olsun) kaldırmak için bazı sağlam teknikler arıyorum.
Tick-by-tick mali zaman serisi verileri çok dağınık. Borsa kapatıldığında büyük (zaman) boşluklar içerir ve borsa tekrar açıldığında büyük sıçramalar yapar. Borsa açık olduğunda, her türlü faktör, fiyat seviyelerinde yanlış (gerçekleşmemiş) ve / veya piyasayı temsil etmeyen (yanlış girilen bir teklif veya teklif fiyatı nedeniyle ani artış) alım satım yapar. Tickdata.com (PDF) tarafından hazırlanan bu makale , sorunu özetlemekte iyi bir iş çıkarmaktadır, ancak birkaç somut çözüm sunmaktadır.
Çevrimiçi olarak bu problemden bahsettiğim çoğu makale ya görmezden geliyor (tickdata filtrelenmiş kabul ediliyor) ya da filtrelemeyi, yararlı filtreleme adımlarını gizleyen bazı büyük ticaret modelinin bir parçası olarak dahil ediyor.
Bu alanda daha derinlemesine çalışmaların farkında olan var mı?
Güncelleme: Bu sorular yüzeyde benzer görünüyor, ancak:
- Finansal zaman serileri (en azından kene düzeyinde) periyodik değildir.
- Açılış efekti büyük bir sorundur, çünkü gerçekten isteseniz bile son günün verilerini başlatma olarak kullanamazsınız (aksi takdirde hiçbir şeyiniz yoktur). Dış olaylar, yeni günün açılışının hem mutlak düzeyde hem de önceki günden oynaklıkta önemli ölçüde farklılık göstermesine neden olabilir.
- Gelen verilerin çılgınca düzensiz sıklığı. Günün açık ve kapalı olduğu günlerde veri noktası / saniye miktarı gün içindeki ortalamanın 10 katı kadar olabilir. Diğer soru düzenli olarak örneklenmiş verilerle ilgilidir.
- Finansal verilerdeki "aykırı değerler", diğer alanlarda uygulanamayan spesifik tekniklerle tespit edilebilecek bazı spesifik örüntüler sergiler ve ben de bu spesifik teknikleri arıyorum.
- Daha uç durumlarda (örn. Flaş çökmesi) aykırı değerler, daha uzun aralıklarla (> 10 dakika) verilerin% 75'inden daha fazla olabilir. Ek olarak, gelen verilerin (yüksek) sıklığı, durumun dışa dönük yönü hakkında bazı bilgiler içerir.