Kaggle müsabakaları şans eseri mi kazanıldı?

Kaggle müsabakaları, kalıcı bir test setine göre son sıralamaları belirler.

Bekletilen bir test seti bir örnektir; modellenen popülasyonu temsil etmeyebilir. Her sunum bir hipotez gibi olduğundan, rekabeti kazanan algoritma, toplam şans eseri, test setini diğerlerinden daha iyi eşleştirebilir. Başka bir deyişle, farklı bir test seti seçildiyse ve yarışma tekrarlandıysa, sıralama aynı kalır mı?

Sponsor şirket için, bu gerçekten önemli değil (muhtemelen ilk 20 başvuru temel çizgilerini geliştirecektir). İronik olarak, diğer ilk beşten daha kötü olan birinci sınıf bir model kullanabilirler . Ancak, yarışmaya katılanlar için Kaggle nihayetinde bir şans oyunu gibi görünüyor - doğru çözüme rastlamak için şansa gerek yok, test setine uyana rastlamak gerekiyor!

İstatistiksel olarak ayırt edilemeyen en iyi takımların kazanması için rekabeti değiştirmek mümkün müdür? Ya da, bu grupta, en cimri veya hesaplamalı olarak ucuz model kazanabilir mi?

— user0
kaynak

Bazı kişiler, gerçek test değerlerini yedeklemek için gizli kümedeki testi kullanır. Bu, sonuçlara neredeyse mükemmel şekilde uymalarını sağlar. Gerileme bunu engeller. Benim kişisel görüşüm, ayırma ve ayrılmama arasındaki farkın dolandırıcılardan kurtulmakla ilgili olduğudur.

— EngrStudent

Elbette test verileri katılımcılardan tutulmalıdır, ancak tek bir tutma testi setine sahip olmanın rekabet sonuçlarını (en iyi takımları için) esasen şansa bağlı hale getirip getirmediğini merak ediyorum .

X

$X$

— user0

Puanlar ağırlıklandırılır. Büyük bir sistem, neredeyse her seferinde bir önemsiz sistemden daha iyi performans gösterecektir. O kadar kötü başarısız olmak için bir kamyon yükü işi sonuncusu ilk olur. Binlerce katılımcı olduğunda yerel düzen, belki 10 veya daha az adımda, dağıtım yeniden örneklenirse değişecektir. Bunu göstermek için sayısal bir deneme yapabilirsiniz.

— EngrStudent

Sponsor şirketin bakış açısından, kazanan modeli gerçekte uygulamak zorunda kalmazlar. Doğru hatırlıyorsam netflix yarışmasını kazanan model hiç uygulanmadı. En iyi modeller arasında birkaç güvenilir aday alabilir ve daha fazla test edebilirler.

— David Ernst

Yanıtlar:

Evet, mantığınız doğru. Farklı bir test seti seçilmiş ve yarışma tekrarlanmış olsaydı, sıralama gerçekten değişecektir. Aşağıdaki örneği ele alalım. İkili etiketlerle bir Kaggle yarışmasına yapılan tüm girdiler, çıktılarını tahmin etmek için rastgele (ve bağımsız olarak) tahmin eder. Şans eseri, herhangi bir tahmin yapılmasa da, biri diğerlerinden daha fazla anlaşmaya varacaktır.

Bu biraz çelişkili olsa da, gönderimin modellerindeki her bir varyansın, bu tür birçok girişin uygulanmasının gerçekten de dağıtım setinin gürültüsüne uyacağı anlamına geldiğini görebiliriz. Bu bize (münferit model farklılıklarına bağlı olarak) top-N modellerinin muhtemelen aynı genelleme yaptığını söyler. Bu yolları çatallanmasını bahçesi "araştırmacı" haricinde aynı değildir (ama bu önemli değil).

Test setindeki en yüksek performanstan istatistiksel olarak ayırt edilemeyen tüm takımların kazanması için yarışmayı değiştirmek mümkün müdür?

Aslında.

Bir yaklaşım (olduğu gibi pratik değildir), her bir girişte belirli bir modelin varyansını açık bir şekilde çözmek olacaktır, bu da bize yayın performansları hakkında bir CI verecektir.
Çok fazla hesaplama gerektirebilecek diğer bir yaklaşım, tüm modellere bir eğitim ve test API'sı göstererek, bir performans göstergesinde bir CI önyükleme yapmaktır.

— VF1
kaynak

Mükemmel cevap. İki yöntemin nasıl uygulanabileceğinden bahsedebilir misiniz?

— user0

İlginç: En iyi model aslında kazanan takımın olmayabilir.

— user0

Açıkça varyans üzerinde çalışmak veri dağıtımı olmadan yapılamaz (sadece teoriyi açıkladığından bahsediyorum). Bu makalede , önyükleme ve çapraz doğrulama da dahil olmak üzere doğruluk tahmini için çeşitli yöntemler (ve başarısız oldukları yerlerde) açıklanmaktadır. Ancak bu bağlamda, bu bağlamda, bir eğitim setinde model seçimi için CV yapmıyoruz, daha çok birleşik eğitim ve test veri setinde güçlü bir "puan" için çalışıyoruz.

— VF1

Güçlü kazanan tahmini için belki iki tur daha iyidir. Birincisi% 99'luk en kötü olanı kaldırır ve ikinci tur sıralamayı "cilalamak" için sıralamaları yeniden tahmin eder.

— EngrStudent

Buradaki fikirlere eklemek için , 2014 yılında NCAA March Madness Kaggle yarışmasının galibi tarafından bu makaleye göz atın. 4. "Simülasyon Çalışması" bölümüne gidin. Sim'lerine göre, eğer modellerinin her bir eşleşme için tahmin edilen olasılıkları aslında doğanın gerçek durumu olsaydı, medyan sıralamaları 11. olur.

— klumbard

Kaggle'da şans unsurları olmayan başka yarışma türleri de var. Örneğin, bu Stanta'nın Çalıntı Kızağı .

Ayrık bir optimizasyon problemidir ve özel liderlik kurulu bile yoktur. Kamu lider yönetim kurulunda gördüğünüz nihai sonuçtur.

Birçok insan için kolay bir başlangıç olan denetimli öğrenmeye kıyasla, bu tür rekabet doğada daha "zor" dur.

— Haitao Du
kaynak