Anonim ölçekli sayısal tahmincilerle numer.ai rekabetine nasıl yaklaşılır?


9

Numer.ai bir süredir var ve web üzerinde sadece birkaç gönderi veya başka tartışmalar var gibi görünüyor.

Sistem zaman zaman değişti ve bugünkü kurulum şu şekildedir:

  1. [0,1] 'de sürekli değerler ve bir ikili hedef olan 21 özelliğe sahip test (N = 96K) ve test (N = 33K) verileri.
  2. Veriler temiz (eksik değer yok) ve 2 haftada bir güncelleniyor. Tahminlerinizi yükleyebilir (test setinde) ve kayıt kaybını görebilirsiniz. Test verilerinin bir kısmı canlı verilerdir ve iyi tahminler için ödeme alırsınız.

Ne tartışmak istiyorum:

Özellikler tamamen anonim olduğundan yapabileceğimiz pek fazla özellik mühendisliği olmadığını düşünüyorum. Bu yüzden yaklaşımım çok mekanik:

  1. esinlenerek bu ben en iyi benim test verilerine uyacak olan eğitim verilerini filtrelemek için bir sınıflandırma algoritması kullanır.
  2. Bazı güzel önişlemleri anlayın
  3. güzel sınıflandırma algoritmaları yetiştirmek
  4. topluluklarını inşa et

Somut soru:

Adım 1 ile ilgili olarak: Böyle bir yaklaşımla ilgili deneyiminiz var mı? Diyelim ki tren numunelerinin olasılığını teste (genellikle 0,5'in altında) ait olmasını emrediyorum ve sonra en büyük K olasılıklarını alıyorum. K'yi nasıl seçersiniz? 15K ile denedim ama 3. adımda eğitimi hızlandırmak için temel olarak küçük bir eğitim verisi hazırladım.

Adım 2 ile ilgili: Veriler zaten 0,1 ölçeğinde. Eğer herhangi bir (PCA benzeri) doğrusal dönüşüm uygularsam bu ölçeği kırarım. Böyle bir sayısal veriye sahipseniz ve bunun gerçekte olduğu hakkında hiçbir fikriniz yoksa önişlemede ne denersiniz?

PS: farkındayım çünkü numer.ai bunu tartışan insanlara para ödememe yardımcı olabilir. Ama bu halka açık olduğu için buradaki herkese yardımcı olur ...

PPS: Bugünün lider tablosu ilginç bir desene sahip: 0.64xx mantığıyla ilk iki, daha sonra 0.66xx ile 3 sayısı ve tahmin edicilerin çoğu 0.6888x'e ulaştı.

Bu yüzden çok küçük bir üst alan ve orta derecede başarılı adamlar (ben dahil) var gibi görünüyor.

Yanıtlar:


2

Yaklaşıma baktım ve K'yi bir aralık deneyerek seçtim, yani 5k, 10k, 15k vb. 15, 16, 17 vb.

Şimdiye kadar etkili olacak herhangi bir ön işleme bulamadım.

Yorum cevaplanıyor:

LogisticRegression, SVM, Sinir Ağları, RandomForests, Multinomial NB, Extra Trees kullanmayı denedim. Yapay sinir ağları hariç tümü sklearn uygulamalarını kullanır. NN için PyBrain.


Belki biraz daha ayrıntı ekleyebilirsiniz. Evet, çeşitli boyutlarda egzersiz verilerini deniyoruz. Hangi ön işlemeyi denediniz? hangi sınıflandırıcılar? Teşekkürler!
Richard
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.