Aşağıda açıklanan sürecin geçerli / kabul edilebilir olup olmadığını ve herhangi bir gerekçe olup olmadığını bilmek istiyorum.
Fikir: Denetimli öğrenme algoritmaları verilerle ilgili temel yapıları / dağılımları varsaymaz. Günün sonunda puan tahminleri çıkarırlar. Bir şekilde tahminlerin belirsizliğini ölçmeyi umuyorum. Şimdi, ML modeli oluşturma süreci doğası gereği rastgele (örneğin hiperparametre ayarı için çapraz doğrulama için örneklemede ve stokastik GBM'de alt örneklemede), bu nedenle bir modelleme hattı bana her bir farklı tohumla aynı öngörücüler için farklı bir çıktı verecektir. Benim (saf) fikrim, tahminin bir dağılımını ortaya çıkarmak için bu süreci tekrar tekrar yürütmek ve umarım tahminlerin belirsizliği hakkında açıklamalar yapabilirim.
Önemliyse, birlikte çalıştığım veri kümeleri genellikle çok küçüktür (~ 200 satır.)
Bu mantıklı mı?
Açıklığa kavuşturmak için, aslında verileri geleneksel anlamda önyüklemiyorum (yani verileri yeniden örneklemiyorum). Aynı veri kümesi her yinelemede kullanılır, ben sadece xval ve stokastik GBM'deki rasgeleliğin sömürülmesini sağlıyorum.