«cross-validation» etiketlenmiş sorular

Gizli veri alt kümelerindeki model performansını ölçmek için, model uydurma sırasında verilerin alt kümelerini sürekli olarak saklamak.


2
“Bootstrap validation” (diğer bir deyişle “çapraz doğrulamayı yeniden örnekleme”) prosedürü nedir?
"Önyükleme doğrulaması" / "çapraz doğrulamayı yeniden örnekleme" benim için yeni, ancak bu sorunun cevabı ile tartışıldı . 2 tür veri içerir: Simüle edilmiş veriler gerçek verilerle aynı boyuta ulaşıncaya kadar değiştirilerek yeniden örnekleme ile gerçek verilerden belirli bir simüle edilmiş veri kümesi oluşturulduğu gerçek veriler ve simüle edilmiş veriler. Bu …

2
Cox orantılı tehlikeler modeli ile çapraz doğrulama nasıl yapılır?
Bir veri kümesinde (model oluşturma veri kümesi) belirli bir hastalığın ortaya çıkması için bir tahmin modeli oluşturduğumu ve şimdi modelin yeni bir veri kümesinde (doğrulama veri seti) ne kadar iyi çalıştığını kontrol etmek istediğimizi varsayalım. Lojistik regresyon ile oluşturulan bir model için, model oluşturma veri kümesinden elde edilen model katsayılarına …

2
Tek kullanımlık çapraz doğrulamada yüksek varyans
"Bir defaya mahsus bırak" çapraz doğrulamasının, eğitim kıvrımlarının büyük örtüşmesi nedeniyle yüksek varyansa sahip olduğunu tekrar tekrar okudum. Ancak bunun neden olduğunu anlamıyorum: Çapraz onaylamanın performansı, eğitim setleri neredeyse aynı olduğu için çok kararlı (düşük varyans) olmamalı mı? Yoksa "varyans" kavramını tamamen yanlış anlıyor muyum? Ayrıca LOO'nun nasıl tarafsız olabileceğini …

3
Veri artırımı ve tren-doğrulaması bölünmesi nasıl yapılır?
Makine öğrenimini kullanarak görüntü sınıflandırması yapıyorum. Bazı eğitim verilerim (resimlerim) olduğunu ve verileri eğitim ve doğrulama setlerine böldüğümü varsayalım. Ve ayrıca rastgele döndürmeler ve gürültü enjeksiyonu ile verileri (orijinallerinden yeni görüntüler üretmek) artırmak istiyorum. Güçlendirme çevrimdışı yapılır. Veri güçlendirmeyi yapmanın doğru yolu hangisidir? Önce verileri eğitim ve doğrulama kümelerine ayırın, …

1
Araştırmada yüksek doğrulama doğruluğu ancak düşük test doğruluğu varsa ne olur?
Makine öğrenimi araştırmalarında doğrulama hakkında özel bir sorum var. Bildiğimiz gibi, makine öğrenme rejimi araştırmacılardan modellerini eğitim verileri üzerinde eğitmelerini, doğrulama seti ile aday modeller arasından seçim yapmalarını ve test setinde doğruluğunu bildirmelerini ister. Çok titiz bir çalışmada, test seti sadece bir kez kullanılabilir. Bununla birlikte, asla araştırma senaryosu olamaz, …


2
Scikit-öğrenme önyükleme işlevi neden test kümesini yeniden örnekliyor?
Model değerlendirmesi için bootstrapping kullanırken, her zaman kullanıma hazır örneklerin doğrudan bir test seti olarak kullanıldığını düşündüm. Ancak, bunun için durum olmadığı görülüyor kaldırılan scikit-öğrenmeBootstrap dışı torba veri alt kümeden değiştirme ile çizim test kümesi oluşturmak gibi görünüyor yaklaşımı,. Bunun arkasındaki istatistiksel mantık nedir? Bu tekniğin sadece torba dışı örnek …

3
Hayatta kalma analizi probleminde eğitim, test, validasyon
Burada çeşitli konulara göz atıyorum, ancak tam sorumun cevaplandığını sanmıyorum. Yaklaşık 50.000 öğrenciden oluşan bir veri setim ve ayrılma zamanlarım var. Çok sayıda potansiyel ortak değişkenle orantılı tehlike regresyonu yapacağım. Ayrıca okuldan ayrılmak / kalmak için lojistik regresyon yapacağım. Ana hedef, yeni öğrenci grupları için tahmin olacaktır, ancak geçen yılki …

4
Güvenilmez / karışık / geçersiz çalışmaların veya modellerin kötüye kullanıldığı halk sağlığı politikası araştırmalarında vaka çalışmaları nelerdir?
Verilerin karıştırıldığı mevcut bir halk sağlığı sorunu üzerine bir literatür taraması hazırlıyorum: Halk sağlığı / epidemiyoloji eğitiminde, geçersiz veya birbirine bağlı ilişkilerin veya çıkarımların kasıtlı veya hatalı olarak halk sağlığı politikası ve mevzuatında kullanıldığı yaygın tarihsel vaka çalışmaları nelerdir? Yasa gereği yapılmalıdır hava yastıkları sonunda emniyet kemerleri belirlenir ve 1960 …

2
Optimizasyon: İstatistiklerdeki tüm kötülüklerin kökü mü?
Daha önce aşağıdaki ifadeyi duydum: "Optimizasyon, istatistikteki tüm kötülüklerin köküdür". Örneğin, bu konudaki en önemli yanıt, bu ifadeyi model seçimi sırasında çok agresif bir şekilde optimize etme tehlikesine atıfta bulunur. İlk sorum şu: Bu alıntı özellikle herhangi birine atfedilebilir mi? (örneğin istatistik literatüründe) Anladığım kadarıyla, ifade aşırı uyum risklerini ifade …

6
10 kat çapraz doğrulama yapmak için bir veri kümesini bölme
Kilitli . Bu soru ve cevapları kilitlidir çünkü soru konu dışıdır, ancak tarihsel önemi vardır. Şu anda yeni yanıtları veya etkileşimleri kabul etmiyor. Şimdi bir Rveri çerçevem ​​(eğitim) var, kimse bana bu veri kümesini 10 kat çapraz doğrulama yapmak için rasgele bölmeyi söyleyebilir mi?

3
R'nin önyükleme paketinde cv.glm'deki maliyet fonksiyonu nedir?
Ayrılmak-out-out yöntemini kullanarak çapraz doğrulama yapıyorum. İkili bir yanıt var ve R ve cv.glm işlevi için önyükleme paketi kullanıyorum . Benim sorunum bu fonksiyonun "maliyet" kısmını tam olarak anlamıyorum. Anlayabildiğim kadarıyla bu, tahmini bir değerin 1 mi yoksa 0 mı, yani sınıflandırma için eşik değer olarak mı sınıflandırılması gerektiğine karar …

2
Makine öğrenimi için zaman serilerinin sıralanması
RJ Hyndman'ın çapraz doğrulama ve zaman serileri hakkındaki "Araştırma ipuçlarından" birini okuduktan sonra , burada formüle etmeye çalışacağım eski bir soruya geri döndüm. Fikir, sınıflandırma veya regresyon problemlerinde, verilerin sıralanmasının önemli olmadığı ve bu nedenle k -katlı çapraz validasyonun kullanılabileceğidir. Öte yandan, zaman serilerinde verilerin sıralanması büyük önem taşımaktadır. Tahmini …

2
AIC, BIC ve GCV: cezalandırılmış regresyon yöntemlerinde karar vermek için en iyi olan nedir?
Genel anlayışım AIC , modelin uyum iyiliği ile modelin karmaşıklığı arasındaki dengeyi ele alıyor. AIC=2k−2ln(L)AIC=2k−2ln(L)AIC =2k -2ln(L) = modeldeki parametre sayısıkkk = olabilirlikLLL Bayes bilgi kriteri BIC , AIC ile yakından ilişkilidir.AIC, parametre sayısını BIC'den daha az cezalandırır. Bu ikisinin tarihsel olarak her yerde kullanıldığını görebiliyorum. Ancak genelleştirilmiş çapraz doğrulama …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.