İlk olarak, burada , burada , burada , burada , burada uzun süredir tartışılan bir soru yayınlamaktan dolayı özür dilerizve eski bir konuyu yeniden ısıtmak için. @DikranMarsupial'ın bu konu hakkında yazılarda ve dergi gazetelerinde uzun bir süre yazdığını biliyorum, ama hala kafam karıştı ve buradaki benzer yazıların sayısına bakılırsa, hala başkalarının kavramaya çalıştığı bir şey. Ayrıca karışıklığımı artıran bu konuda çelişkili olduğumu belirtmeliyim. Ayrıca aslında bir istatistikçi değil de fizikçi olduğumu bilmelisiniz, bu yüzden buradaki alan adı uzmanlığım biraz sınırlı. Son modelimden bekleyebileceğim performansı tahmin etmek için iç içe CV kullanmak istediğim bir günlük yazısı yazıyorum. Alan adımda bu bir ilk. (Biz neredeyse hiç kullanmıyorum herhangisağlam CV biçiminde ancak sinir ağları ve artırılmış karar ağaçları kullanan çalışmalardan elde edilen sonuçları neşeyle pompalayın!) Bu nedenle, çok kapsamlı ve net bir anlayışa sahip olmam, böylece vidalamam ve yaymamam çok önemlidir. Topluluğumun yıllarca öğrenmesi gereken hatalı bir prosedür! Teşekkürler! Soruyla ilgili ...
İç içe geçmiş çapraz doğrulamanın ardından son modeli nasıl oluştururum?
L1 ve L2 düzenlenmesi ile basit bir glmnet modeli geliştiriyorum. Hızlı, basit ve yorumlanabilir. Özellik dağılımlarının ortalama merkezli, standartlaştırılmış ve bir şekilde Gauss benzeri olması için özellik merkezleme, ölçeklendirme ve Box-Cox dönüşümleri gerçekleştiriyorum. Bilgi sızıntısını önlemek için bu adımı çapraz doğrulama içinde gerçekleştiriyorum. Sadece donanımım inanılmaz derecede yavaş olduğundan ve daha fazla CPU kasına erişemediğim için, özellik ön işleminden sonra CV içinde hızlı filtre tabanlı özellik seçimi de yapıyorum. Alfa ve lambda hiperparametreleri seçmek için rastgele ızgara arama kullanıyorum. Nihai modelimin (aşırı iyimser olacaktır) beklenen performansının bir tahmini olarak optimal hiperparametreleri seçmek için kullanılan CV'den performansı rapor etmemem gerektiğini anlıyorum, bunun yerine birBu tahmini almak için CV döngüsü. İç CV döngüsünün model seçimi için kullanıldığını (bu durumda optimal hiperparametreler) ve dış döngünün model değerlendirmesi için kullanıldığını , yani iç ve dış CV'nin genellikle hatalı şekilde kapatılmış iki farklı amaca hizmet ettiğini anlıyorum. (Şimdiye kadar nasıl yapıyorum?)
Şimdi, gönderdiğim bağlantılar "çapraz doğrulamayı düşünmenin yolu, bir modelin performansını tahmin etmek yerine bir model oluşturmak için bir yöntem kullanılarak elde edilen performansı tahmin etmektir". Bu göz önüne alındığında, iç içe CV prosedürünün sonuçlarını nasıl yorumlamalıyım?
Okuduğum tavsiye aşağıdakileri gösteriyor gibi görünüyor - bu yanlışsa lütfen beni düzeltin: iç CV, glmnet modelimin en uygun alfa ve lambda hiperparametrelerini seçmeme izin veren mekanizmanın bir parçası. Dış CV, prosedürü tam olarak hiperparametre ayarlaması ve tüm veri kümesini kullanarak dahil olmak üzere iç CV'de kullanıldığı gibi uygularsam, son modelden almayı bekleyebileceğimi tahmin eder. son modeli oluşturmak için eder. Yani, hiperparametre ayarı "modeli oluşturma yönteminin" bir parçasıdır. Bu doğru mu değil mi? Çünkü beni şaşırtan şey bu. Başka bir yerde konuşlandırılacak son modeli oluşturma prosedürünün, sabit değerleri kullanarak tüm veri kümesi üzerinde eğitim içerdiğini gördümCV kullanılarak seçilen hiperparametrelerin. Burada, "modeli oluşturma yöntemi" ayarlama içermez. Peki, hangisi? Bir noktada, nihai modeli oluşturmak için optimum hiperparametreler seçilir ve sabitlenir! Nerede? Nasıl? İç döngüm 5 kat CV ise ve dış döngüm 5 kat CV ise ve diyelim ki, iç CV'de rastgele ızgara aramasının bir parçası olarak test için 100 puan seçiyorum, glmnet'i gerçekten kaç kez eğitiyorum modellemek? (100 * 5 * 5) + 1, son sürüm için + 1, yoksa bilmediğim başka adımlar var mı?
Temel olarak, iç içe CV'den performans tahmininin nasıl yorumlanacağı ve son modelin nasıl oluşturulacağı hakkında çok net bir açıklamaya ihtiyacım var.
Ayrıca son glmnet modelimden (ikili) sınıf etiketlerine olasılık skorlarını dönüştürmek için olasılık eşiğini seçmek için uygun prosedürü bilmek istiyorum - başka bir CV döngüsü gerekli mi?