Veri madenciliğinde yeni devrimci yol?


21

Aşağıdaki alıntı, sürekli olarak başarılı bir riskten korunma fonu yöneticisi Jaffray Woodriff ile yapılan röportajdan Schwager'in Hedge Fonu Market Wizzards'dan (Mayıs 2012) alınmıştır:

"Veri madenciliğinde insanların en büyük hatalarından bazıları neler?"

Pek çok insan, eğitim için örnek veriyi ve test için örnek veriyi kullandıkları için iyi olduklarını düşünüyor. Daha sonra modelleri örnek veri üzerinde nasıl performans gösterdiklerine göre sıralarlar ve örnek örnek veri üzerinde test etmek için en iyisini seçerler. İnsan eğilimi, örneklem dışı verilerde iyi performans göstermeye devam eden modelleri alıp alım satım için bu modelleri seçmektir. Bu tür bir işlem sadece örnek dışı verileri eğitim verilerinin bir parçası haline getirir, çünkü örnek dışı dönemde en iyi sonucu veren modelleri seçer. Bu, insanların yaptığı en yaygın hatalardan biri ve tipik olarak uygulandığı şekliyle veri madenciliğinin çok kötü sonuçlar vermesinin sebeplerinden biri.

Görüşme yapan kişiden şu soruları sorar: "Bunun yerine ne yapmalısınız?":

Ortalama olarak, örneklerin dışındaki tüm modellerin iyi yapmaya devam ettiği modelleri arayabilirsiniz. Örnek dışı modellerin ortalaması, örneklem içi puanın önemli bir yüzdesiyse, iyi yaptığınızı biliyorsunuz. Genel olarak, örnek dışı sonuçlar örnek içindeki yüzde 50'den fazlaysa, gerçekten bir yere ulaşıyorsunuzdur. QIM'in iş modeli, eğer SAS ve IBM harika öngörücü modelleme yazılımı oluştursalar hiç işe yaramazdı.


Sorularım
Bu herhangi bir anlam ifade ediyor mu? Ne demek istiyor? Önerilen yöntem ve bazı referanslar için bir ipucunuz var mı - belki de bir adınız var mı? Yoksa bu adam başka kimsenin anlamadığı kutsal kâseyi buldu mu? Hatta bu röportajda yönteminin bilimi potansiyel olarak devrim yaratabileceğini söylüyor.


4
Tek bir bölünmüş örnekten (tren ve doğrulama) gelen hataları tartışmak ve iç içe geçmiş bir çapraz doğrulama sürecini savunmak değil mi?
B_Miner

12
"Bilimi" devrimcileştirecek derin bir içgörü iddia eden herhangi birisine karşı temkinli olurdum.
kardinal

2
Hedge fonu yöneticileri "daha iyi bir modelleme yaklaşımı" iddia ediyor ve rekabetten bahseden biraz çöp yapıyorlar? Orada yeni bir şey yok.
zbicyclist

2
vay, bu soru nasıl bu kadar çok oy kazanıyor? Örneklem dışı tahmin, herhangi bir tanıtıcı makine öğrenim kursunun ilk gününde tartışılan bir konudur. Örnek dışı tahminleri doğru bir şekilde ele almayanlar var, ancak kesinlikle tahmin görevi hakkında en ufak bir ipucuna sahip olan hiç kimse yok.
kullanici4733

Ticaret elbette ki zamana bağlı bir sorundur, söylediği şey çapraz onaylamanın (tabii ki bilinen verileri kullanarak) yapması zamanla değişen yapı sorununu çözemez ! Ama aslında yaptığı şeyin çıkarılamaz.
kjetil b halvorsen

Yanıtlar:


6

Bu bir anlam ifade ediyor mu? Kısmen.

Ne demek istiyor? Lütfen ona sor.

Önerilen yöntem ve bazı referanslar için bir ipucunuz var mı - belki de bir adınız var mı?

Çapraz doğrulama. http://en.wikipedia.org/wiki/Cross-validation_(statistics)

Yoksa bu adam başka kimsenin anlamadığı kutsal kâseyi buldu mu? Yok hayır.

Hatta bu röportajında ​​yönteminin bilimi potansiyel olarak devrim yaratabileceğini söylüyor ... Belki de bu ifadeye referansları eklemeyi unuttu ...


2
En azından gerçek bir problemi işaret ediyor ...

8

Başka "gecekondu" yanıtları olup olmayacağından emin değilim, ama benimki var.

Çapraz Doğrulama hiçbir şekilde "yeni" değildir. Ek olarak, analitik çözümler bulunduğunda Çapraz Doğrulama kullanılmaz. Örneğin, betaları tahmin etmek için çapraz doğrulama kullanmazsınız, OLS veya IRLS veya başka bir "optimal" çözüm kullanırsınız.

Alıntıdaki gözle görülür şekilde belirgin bir boşluk olarak gördüğüm, anlam ifade edip etmediklerini görmek için "en iyi" modelleri kontrol etme fikrine atıfta bulunmuyor. Genel olarak, iyi bir model bazı sezgisel seviyelerde anlamlıdır. İddiaya benziyor ki CV tüm tahmin problemlerine gümüş bir mermidir. Ayrıca daha yüksek seviyede bir model yapısı kurarak da konuşma yok - SVM , Regresyon Ağaçları , Yükseltme , Torbalama , OLS , GLMS , GLMNS kullanıyoruz. Değişkenleri düzenliyor muyuz? Öyleyse nasıl? Değişkenleri birlikte mi gruplandırıyoruz? Sağlamlığın seyrekleşmesini istiyor muyuz? Aykırımız var mı? Verileri bir bütün olarak mı yoksa parçalar halinde mi yapmalıyız? CV temelinde karar verilecek çok fazla yaklaşım var .

Ve bir başka önemli husus hangi bilgisayar sistemlerinin mevcut olduğudur? Veriler nasıl saklanır ve işlenir? Eksiklik var mı - bunu nasıl açıklarız?

Ve işte en büyüğü: iyi tahminler yapmak için yeterince iyi veriye sahip miyiz? Veri setimizde sahip olmadığımız bilinen değişkenler var mı? Verilerimiz tahmin etmeye çalıştığımız şeyin temsili midir?

KK-2

npnpnp


9
Güzel rant. Arada sırada kepler kullansaydın, okuması çok daha kolay olurdu ...
MånsT

4

Veri madenciliğindeki yaygın bir hata hakkında açıklaması mantıklı görünüyor. Yaptığı şeyi açıklamasının bir anlamı yok. “Genel olarak konuşursak, örnek dışı sonuçlar örnek içindeki sonuçların yüzde 50'sinden fazlaysa gerçekten bir yere ulaşıyorsunuz” derken ne demek istiyor? O zaman kötü ağlayan SAS ve IBM onu da çok akıllı göstermez. İnsanlar pazardaki istatistikleri anlamadan başarılı olabilirler ve başarının bir kısmı da şanstır. Başarılı işadamlarına sanki tahmin etmenin gururumuş gibi davranmak yanlıştır.


1
Alıntı yapılan ifadenin ne anlama geldiği tam olarak belli değil mi? Modellerin nasıl kullanılacağına bağlı olarak, söylediklerinin çok mantıklı gelebileceğini söylüyor. Örneğin, Netflix mücadelesinden gelen ana “paket servis”, yorumlanabilirliğe çok az ihtiyaç duyulduğu sürece “model karışımının” gücü gibi görünüyor. Bu durumda, incelenen modellerin örnekleme performansından bir miktar "ortalama" tamamen ilgili olabilir.
kardinal

@cardinal: Bu çok ilginç düşüncelerden bir cevap oluşturabilir misiniz? Harika olurdu, teşekkür ederim!
von

2
@cardinal Belki sizin için açık, ancak daha sonra "Örnek dışı sonuçlar, örneklemin yüzde 50'sinden fazlaysa gerçekten bir yere ulaşıyorsunuz" cümlesini açıklayın. Modeller arasında ortalama bir araya getirmenin etkili olabileceğini söylüyorsanız, o zaman elbette buna katılıyorum. Arttırmanın birçok uygulamada iyi çalıştığı gösterilmiştir. Ama bunun Woodriff'in sözlerinden nereden geldiğini anlamıyorum.
Michael R. Chernick

2
Açıkça Bay Woodriff'in iddia ettiği şeylerin detaylarını bilmiyorum ama bunu alıntıya dayanarak yorumlamamın şu sonuçlara etkisi var: "[Benim uygulamalarımda] eğer ortalama numune dışı performans [ne tür bir metrik kullanıyorsanız İlgili olduğunu düşünüyorum], modele uyduktan sonra örnek performansın en az yarısı kadar iyi, o zaman başvurum için anlamlı. " Ben bir matematikçi / istatistikçiyim, bu yüzden uyarıma ihtiyacım var. Dışarıdan bir tanıma arayan bir hedge fon yöneticisi olsaydım, sözlerimde daha görkemli ve kesin olabilirdim.
kardinal

1
@ cardinal Dolayısıyla performans ölçütü olarak hata oranını alın, o zaman Woodriff'i yorumlayın, eğer örnek içi hata oranı% 5 ve örnek dışı hata oranı% 10 ise metodun iyi olduğunu mu söylüyorsunuz? Neden karar vermek için sadece örnek performansının dışına bakmıyorsun? Örnek performans göstergesinin örnek performansına oranının, örnek hata oranı tahmininin ne kadar güvenilir / güvenilmez olduğu hakkında bir şeyler söylediğini düşünüyorum ancak sınıflayıcının performansının değerlendirilmesine girdiğini görmüyorum. Model harmanlamanın sözlerine nerede girdiğini hala göremiyorum.
Michael R. Chernick

4

Sen arayabilirsiniz desenleri ortalama olarak tüm modeller dışı numunesi de yapmaya devam.

Buradaki kelime kalıplarını anlamam, farklı pazar koşulları anlamına geliyor. Saf bir yaklaşım, en iyi eğri uydurma modelini eğitmek, daha sonra tüm veriler üzerinde çalıştırmak ve her zaman onunla işlem yapmak için mevcut tüm verileri (hepimizin daha fazla verinin daha iyi olduğunu bildiği gibi) analiz edecektir.

Daha başarılı riskten korunma fonu yöneticileri ve algoritmik yatırımcılar piyasa bilgilerini kullanırlar. Somut bir örnek olarak, bir ticaret seansının ilk yarım saati daha değişken olabilir. Bu yüzden, modelleri sadece tüm ilk yarım saat boyunca ve tüm verileri üzerinde deneyecekler, ancak ilk yarım saat hariç. Modellerinin ikisinin ilk yarım saatte iyi geçtiğini keşfedebilirler, ancak sekiz tanesi para kaybeder. Oysa ilk yarım saati hariç tuttuklarında modellerinden yedisi para kazanıyor, üçü de para kaybediyor.

Ancak, bu iki kazanan modeli almak ve bunları ticaretin ilk yarım saatinde kullanmak yerine, derler ki: algoritmik ticaret için günün kötü bir zamanı, ve biz hiç ticaret yapmayacağız. Günün geri kalanı yedi modelini kullanacaklar. Diğer bir deyişle, pazarın o zamanlarda makine öğrenmesiyle tahmin edilmesi daha kolay gözüküyor, bu nedenle bu modellerin ileriye gitme konusunda daha güvenilir olma şansı var. (Günün saati tek düzen değildir; diğerleri genellikle haber olaylarıyla ilgilidir, örneğin piyasa, temel ekonomik rakamlar açıklanmadan hemen önce daha değişkendir.)

Bu söylediklerine dair yorumum; Tamamen yanlış olabilir, ama umarım birileri için düşünce için hala yararlı bir besindir.


2

Bir finans uzmanı olarak, açıklamanın herhangi bir belirsizlik sunmadığı bağlamı biliyorum. Finansal zaman serileri, genellikle rejim değişiklikleri, yapısal kırılmalar ve kavram kayması ile nitelendirilir, bu nedenle diğer endüstrilerde uygulanan çapraz doğrulama finansal uygulamalarda başarılı değildir. İkinci bölümde, Sharpe oranına yatırım getirisi (payda geri dönüş), MSE veya başka bir kayıp işlevi yerine finansal ölçüt anlamına gelir. Örneklem içi strateji% 10 getiri sağlarsa, gerçek ticarette gerçekçi bir şekilde sadece% 5 üretebilir. "Devrimci" kısım, kesinlikle alıntılara değil, onun mülkiyetindeki analiz yaklaşımına dayanıyor.


Sadece bir soru: Finansal metrikinizi parametre optimizasyonu için bir araç olarak kullanan herhangi bir çalışmayı biliyor musunuz, başka bir deyişle, maksimum olasılık kullanmak yerine, bu ölçümü maksimum seviyeye çıkarmak suretiyle doğrudan parametreleri optimize ediyor musunuz?
kjetil b halvorsen

@kbh benim finansal metrik değil - keskinlik oranı için optimizasyon çok yaygındır. Başımın en üstünde bir örnek ssrn.com/abstract=962461 - kesin bir istatistiksel model geliştirilmemiştir, ancak (çok genel anlamda) işlem kurallarının getiriyi maksimize etmesi ve riski en aza indirmesi için oluşturulan ticaret kuralları vardır.
onlyvix.blogspot.com
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.