Aşağıdaki alıntı, sürekli olarak başarılı bir riskten korunma fonu yöneticisi Jaffray Woodriff ile yapılan röportajdan Schwager'in Hedge Fonu Market Wizzards'dan (Mayıs 2012) alınmıştır:
"Veri madenciliğinde insanların en büyük hatalarından bazıları neler?"
Pek çok insan, eğitim için örnek veriyi ve test için örnek veriyi kullandıkları için iyi olduklarını düşünüyor. Daha sonra modelleri örnek veri üzerinde nasıl performans gösterdiklerine göre sıralarlar ve örnek örnek veri üzerinde test etmek için en iyisini seçerler. İnsan eğilimi, örneklem dışı verilerde iyi performans göstermeye devam eden modelleri alıp alım satım için bu modelleri seçmektir. Bu tür bir işlem sadece örnek dışı verileri eğitim verilerinin bir parçası haline getirir, çünkü örnek dışı dönemde en iyi sonucu veren modelleri seçer. Bu, insanların yaptığı en yaygın hatalardan biri ve tipik olarak uygulandığı şekliyle veri madenciliğinin çok kötü sonuçlar vermesinin sebeplerinden biri.
Görüşme yapan kişiden şu soruları sorar: "Bunun yerine ne yapmalısınız?":
Ortalama olarak, örneklerin dışındaki tüm modellerin iyi yapmaya devam ettiği modelleri arayabilirsiniz. Örnek dışı modellerin ortalaması, örneklem içi puanın önemli bir yüzdesiyse, iyi yaptığınızı biliyorsunuz. Genel olarak, örnek dışı sonuçlar örnek içindeki yüzde 50'den fazlaysa, gerçekten bir yere ulaşıyorsunuzdur. QIM'in iş modeli, eğer SAS ve IBM harika öngörücü modelleme yazılımı oluştursalar hiç işe yaramazdı.
Sorularım
Bu herhangi bir anlam ifade ediyor mu? Ne demek istiyor? Önerilen yöntem ve bazı referanslar için bir ipucunuz var mı - belki de bir adınız var mı? Yoksa bu adam başka kimsenin anlamadığı kutsal kâseyi buldu mu? Hatta bu röportajda yönteminin bilimi potansiyel olarak devrim yaratabileceğini söylüyor.