«validation» etiketlenmiş sorular

Bir analizin sonuçlarının orijinal araştırma ortamının dışında olup olmayacağını değerlendirme süreci. Bu etiketi bir ölçümün veya cihazın (geçerliliğini düşündüğü gibi) 'geçerliliğini' tartışmak için KULLANMAYIN, bunun yerine [geçerlilik] etiketini kullanın.

1
logloss vs gini / auc
İki model (h2o AutoML kullanarak ikili sınıflandırıcılar) eğittim ve kullanmak için bir tane seçmek istiyorum. Aşağıdaki sonuçlara sahibim: model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 aucve loglosskolonlar çapraz doğrulama metriklerdir (çapraz doğrulama sadece eğitim verileri kullanır). …

1
Ayrı modelleme / doğrulama kümeleri kullanarak bir regresyon modeli oluştururken, doğrulama verilerini “yeniden dolaşıma sokmak” uygun mudur?
Diyelim ki modelleme / doğrulama gözlemleri arasında 80/20 ayrımı var. Modelleme veri kümesine bir model sığdırıyorum ve doğrulama veri kümesinde gördüğüm hatadan rahatım. Gelecekteki gözlemleri puanlamak için modelimi sunmadan önce,% 100 verilerinde güncellenmiş parametre tahminleri almak için doğrulamayı modelleme verileriyle birleştirmek uygun mudur? Bununla ilgili iki bakış açısı duydum: Gerçekleştirdiğim …

3
Muhafaza yöntemi (verileri eğitim ve teste bölme) neden klasik istatistiklerde kullanılmıyor?
Sınıfta veri madenciliğine maruz kalmamda, tutma yöntemi model performansını değerlendirmenin bir yolu olarak tanıtıldı. Ancak, birinci sınıfımı doğrusal modeller üzerine aldığımda, bu model onaylama veya değerlendirme aracı olarak tanıtılmadı. Çevrimiçi araştırmam da herhangi bir kavşak göstermiyor. Muhafaza yöntemi klasik istatistiklerde neden kullanılmıyor?


3
Zaman Serisi Verilerini Tren / Test / Doğrulama Kümelerine Bölme
Zaman serisi verilerini tren / test / validasyon setlerine ayırmanın en iyi yolu nedir, validasyon seti hiperparametre ayarı için kullanılacaktır? 3 yıllık günlük satış verilerine sahibiz ve planımız eğitim verileri olarak 2015-2016'yı kullanmak, ardından doğrulama seti olarak kullanılacak 2017 verilerinden 10 hafta ve 2017 verilerinden 10 hafta sonra rastgele örneklemektir. …

2
Hata oranı lambda Düzenleme parametresinin Dışbükey işlevi midir?
Ridge veya Lasso'daki lambda düzenleme parametresini seçerken önerilen yöntem lambda'nın farklı değerlerini denemek, Doğrulama Kümesindeki hatayı ölçmek ve son olarak en düşük hatayı döndüren lambda değerini seçmektir. F (lambda) = hatası Convex ise bu benim için bir sorun değil. Böyle olabilir mi? Bu eğrinin birden fazla yerel minimi olabilir (bu, …

1
Küme doğrulaması için bilgi (VI) metriğinin varyasyonunun ardındaki sezgi nedir?
Benim gibi istatistikçi olmayanlar için, VIMarina Melia'nın " Kümelenmeleri karşılaştırmak - bilgiye dayalı bir mesafe " tarafından ilgili makaleyi okuduktan sonra bile metrik (bilgi değişimi) fikrini yakalamak çok zordur (Journal of Çok Değişkenli Analiz, 2007). Aslında, kümelenme şartlarının çoğuna aşina değilim. Aşağıda bir MWE ve kullanılan farklı metriklerde çıktının ne …

1
Panel / boyuna veriler için tahmin değerlendirme metriği
Aylık düzeyde davranış tahminleri sağlayan birkaç farklı modeli değerlendirmek istiyorum. Veriler dengelenmiştir ve 100.000 ve 12. Sonuç belirli bir ayda bir konsere katılmaktadır, bu nedenle herhangi bir ayda insanların ~% 80'i için sıfırdır, ancak ağır kullanıcıların uzun bir sağ kuyruğu vardır. Tahminlerimin sonucun doğasına saygılı görünmüyor: kesirli konserler yaygın.n =n=n=T=T=T= …

3
Tutarlılık kontrolü nedir?
"Günlük işinizde tutarlılık kontrolü yaptınız mı?" Bir Biyostatist pozisyonu için telefon görüşmesi sırasında. Ne cevap vereceğimi bilmiyorum. Herhangi bir bilgi takdir.
11 validation 


2
İyimserlik önyargısı - tahmin hatası tahminleri
İstatistiksel Öğrenmenin Unsurları (PDF'de çevrimiçi olarak mevcuttur) kitabında iyimserlik yanlılığı tartışılmaktadır (7.21, sayfa 229). İyimserlik yanlılığının eğitim hatası ile örnek içi hata arasındaki fark olduğunu belirtir (orijinal eğitim noktalarının her birinde yeni sonuç değerlerini örneklediğimizde gözlenen hata) (aşağıda). Sonra, bu iyimserlik yanlılığını belirtiyor (ωω\omega), tahmini y değerlerimiz ve gerçek y …

4
Model uydurma / eğitim ve validasyon için kullanılan örnek verilerin oranının hesaplanması
Verileri tahmin etmek için kullanmayı planladığım bir örnek boyut "N" sağladı. Verileri alt bölümlere ayırmanın bazı yolları nelerdir? Bunun siyah-beyaz bir cevabı olmadığını biliyorum, ama bazı "başparmak kuralları" veya genellikle kullanılan oranları bilmek ilginç olurdu. Üniversitemizden biliyorum, profesörlerimizden biri eskiden% 60 model söyler ve% 40 geçer.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.