Çevrimdışı ve çevrimiçi öğrenmede model seçimi


11

Son zamanlarda çevrimiçi öğrenme hakkında daha fazla bilgi edinmeye çalışıyorum (kesinlikle büyüleyici!) Ve iyi bir kavrama elde edemediğim bir tema, çevrimdışı ve çevrimiçi bağlamlarda model seçimi hakkında nasıl düşünüleceğidir. Özellikle, bazı sabit veri seti temel alarak bir sınıflandırıcısını çevrimdışı eğittiğimizi varsayalım . Performans özelliklerini çapraz doğrulama ile tahmin ediyoruz ve diyelim ki bu şekilde en iyi sınıflandırıcıyı seçiyoruz.SD

Düşündüğüm şey bu: Öyleyse, çevrimiçi bir ayara nasıl uygulayacağız ? Çevrimdışı bulunan en iyi çevrimiçi bir sınıflandırıcı olarak da iyi performans göstereceğini varsayabilir miyiz ? eğitmek için bazı verileri toplamak , daha sonra aynı sınıflandırıcısını almak ve bulunan aynı parametrelerle çevrimiçi bir ortamda "işlemek" mantıklı mı yoksa başka bir yaklaşım daha iyi olabilir mi? Bu durumlarda uyarılar nelerdir? Burada anahtar sonuçlar nelerdir? Ve böylece.SSSSD

Her neyse, şimdi orada, sanırım aradığım şey bana yardımcı olacak bazı referanslar veya kaynaklar (ve umarım bu tür şeyleri düşünen başkaları!) Sadece çevrimdışı terimlerle düşünmekten geçiş yapar ve model seçimi konusunu ve bu soruları okumam ilerledikçe daha tutarlı bir şekilde düşünmek için zihinsel çerçeveyi geliştirmek.


Yararlı herhangi bir ipucunuz oldu mu veya şu ana kadar önerileriniz var mı? Teşekkürler!
user1953384

Sana tek seferde model seçimi ve optimizasyonu yaptığı Francesco " arxiv.org/pdf/1406.3816v1.pdf " nin makalesine bakmanızı öneririm .
chandresh

Ödeme duvarını atlayabilirseniz, bu çok iyi bir referans olabilir: cognet.mit.edu/journal/10.1162/089976601750265045 ?
disiplin

Yanıtlar:


1

Bir akış bağlamında, çapraz doğrulama gerçekleştirmek için verilerinizi tren ve test setlerine bölemezsiniz. Yalnızca ilk tren setinde hesaplanan metrikleri kullanmak , verilerinizin değiştiğini ve modelinizin değişikliklere uyum sağlayacağını varsaydığınız için daha da kötü geliyor - bu yüzden ilk etapta çevrimiçi öğrenme modunu kullanıyorsunuz.

Yapabileceğiniz şey, zaman serilerinde kullanılan çapraz doğrulama türünü kullanmaktır (bkz. Hyndman ve Athanasopoulos, 2018 ). Zaman serisi modellerinin doğruluğunu değerlendirmek için, modelin "gelecek" zaman noktasını tahmin etmek için gözlemleri üzerinde eğitildiği sıralı bir yöntem kullanabilirsiniz . Bu, her seferinde bir nokta veya gruplar halinde uygulanabilir ve prosedür tüm verilerinizi geçene kadar tekrarlanır ( Hyndman ve Athanasopoulos, 2018'den alınan aşağıdaki şekle bakın ).kk+1

Sonunda, genel doğruluk tahminini elde etmek için bir şekilde ortalama (genellikle aritmetik ortalama, ancak üstel yumuşatma gibi bir şey de kullanabilirsiniz) hata metriklerini kullanabilirsiniz.

resim açıklamasını buraya girin

Çevrimiçi bir senaryoda bu, zaman noktası 1'den başlayıp zaman noktası 2 üzerinde test, zaman noktası 2 üzerinde bir sonraki yeniden eğitim, zaman noktası 3 üzerinde test yapmak vb. Anlamına gelir.

Bu tür çapraz doğrulama yönteminin, model performansınızın değişen doğasını açıklamanıza izin verdiğine dikkat edin. Açıkçası, modeliniz verilere adapte olduğundan ve veriler değişebileceğinden, hata metriklerini düzenli olarak izlemeniz gerekir: aksi takdirde sabit boyutlu tren ve test setleri kullanmaktan çok farklı olmaz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.