Kaggle müsabakaları, kalıcı bir test setine göre son sıralamaları belirler.
Bekletilen bir test seti bir örnektir; modellenen popülasyonu temsil etmeyebilir. Her sunum bir hipotez gibi olduğundan, rekabeti kazanan algoritma, toplam şans eseri, test setini diğerlerinden daha iyi eşleştirebilir. Başka bir deyişle, farklı bir test seti seçildiyse ve yarışma tekrarlandıysa, sıralama aynı kalır mı?
Sponsor şirket için, bu gerçekten önemli değil (muhtemelen ilk 20 başvuru temel çizgilerini geliştirecektir). İronik olarak, diğer ilk beşten daha kötü olan birinci sınıf bir model kullanabilirler . Ancak, yarışmaya katılanlar için Kaggle nihayetinde bir şans oyunu gibi görünüyor - doğru çözüme rastlamak için şansa gerek yok, test setine uyana rastlamak gerekiyor!
İstatistiksel olarak ayırt edilemeyen en iyi takımların kazanması için rekabeti değiştirmek mümkün müdür? Ya da, bu grupta, en cimri veya hesaplamalı olarak ucuz model kazanabilir mi?