Numer.ai bir süredir var ve web üzerinde sadece birkaç gönderi veya başka tartışmalar var gibi görünüyor.
Sistem zaman zaman değişti ve bugünkü kurulum şu şekildedir:
- [0,1] 'de sürekli değerler ve bir ikili hedef olan 21 özelliğe sahip test (N = 96K) ve test (N = 33K) verileri.
- Veriler temiz (eksik değer yok) ve 2 haftada bir güncelleniyor. Tahminlerinizi yükleyebilir (test setinde) ve kayıt kaybını görebilirsiniz. Test verilerinin bir kısmı canlı verilerdir ve iyi tahminler için ödeme alırsınız.
Ne tartışmak istiyorum:
Özellikler tamamen anonim olduğundan yapabileceğimiz pek fazla özellik mühendisliği olmadığını düşünüyorum. Bu yüzden yaklaşımım çok mekanik:
- esinlenerek bu ben en iyi benim test verilerine uyacak olan eğitim verilerini filtrelemek için bir sınıflandırma algoritması kullanır.
- Bazı güzel önişlemleri anlayın
- güzel sınıflandırma algoritmaları yetiştirmek
- topluluklarını inşa et
Somut soru:
Adım 1 ile ilgili olarak: Böyle bir yaklaşımla ilgili deneyiminiz var mı? Diyelim ki tren numunelerinin olasılığını teste (genellikle 0,5'in altında) ait olmasını emrediyorum ve sonra en büyük K olasılıklarını alıyorum. K'yi nasıl seçersiniz? 15K ile denedim ama 3. adımda eğitimi hızlandırmak için temel olarak küçük bir eğitim verisi hazırladım.
Adım 2 ile ilgili: Veriler zaten 0,1 ölçeğinde. Eğer herhangi bir (PCA benzeri) doğrusal dönüşüm uygularsam bu ölçeği kırarım. Böyle bir sayısal veriye sahipseniz ve bunun gerçekte olduğu hakkında hiçbir fikriniz yoksa önişlemede ne denersiniz?
PS: farkındayım çünkü numer.ai bunu tartışan insanlara para ödememe yardımcı olabilir. Ama bu halka açık olduğu için buradaki herkese yardımcı olur ...
PPS: Bugünün lider tablosu ilginç bir desene sahip: 0.64xx mantığıyla ilk iki, daha sonra 0.66xx ile 3 sayısı ve tahmin edicilerin çoğu 0.6888x'e ulaştı.
Bu yüzden çok küçük bir üst alan ve orta derecede başarılı adamlar (ben dahil) var gibi görünüyor.