«overfitting» etiketlenmiş sorular

Değişkenler arasında tekrarlanabilir ve bilgilendirici ilişkiler yerine modelleme hatası (özellikle örnekleme hatası), model uyum istatistiklerini geliştirir, ancak parsimony'i azaltır ve açıklayıcı ve öngörücü geçerliliği kötüleştirir.



1
Kaggle'ın özel skor tablosu kazanan modelin örnek dışı performansının iyi bir öngörücüsü mü?
Özel test setinin sonuçları modeli daha da hassaslaştırmak için kullanılamazken, özel test seti sonuçlarına dayanarak çok sayıda modelden model seçimi yapılmıyor mu? Tek başına bu süreç boyunca özel test setine fazla uyuşmaz mıydınız? Göre : "Sözde Matematik ve Mali Şarlatanlık Out-of-the Numune Performansına Backtest overfitting Etkileri" Bailey ve arkadaşları tarafından …

1
İstatistiksel öğrenme teorisinde, bir test setine aşırı uyum sağlama sorunu yok mu?
MNIST veri kümesini sınıflandırmayla ilgili sorunu ele alalım. Göre Yann LeCun en MNIST bir Web 'Ciresan ve diğ.' Evrimsel Sinir Ağı kullanılarak MNIST test setinde% 0.23 hata oranı elde edildi. olarak ayarlanmış MNIST eğitimini DtrainDtrainD_{train}, olarak ayarlanmış MNIST testini DtestDtestD_{test}, h 1DtrainDtrainD_{train} olarak kullanarak elde ettikleri son hipotezi ve h_ …

2
Rastgele Ormanlar için hangi eğitim hatası rapor edilir?
Şu anda randomForestR'de paketi kullanarak bir sınıflandırma sorunu için rastgele ormanlar uyuyorum ve bu modeller için eğitim hatasını nasıl bildireceğinden emin değilim . Komutla aldığım tahminleri kullanarak hesapladığımda eğitim hatam% 0'a yakın: predict(model, data=X_train) X_traineğitim verileri nerede . İlgili bir soruya yanıt olarak, rastgele ormanlar için eğitim hatası metriği olarak …


2
Çanta Dışı Hatası Rastgele Ormanlarda CV'yi gereksiz kılıyor mu?
Rastgele ormanlarda oldukça yeniyim. Geçmişte, hep doğruluğunu karşılaştırdık testi vs oturması karşı trenle vs oturması herhangi overfitting algılamak için. Ama burada sadece şunu okudum : "Rasgele ormanlarda, test seti hatasının tarafsız bir tahminini elde etmek için çapraz validasyona veya ayrı bir test setine gerek yoktur. Dahili olarak, çalışma sırasında tahmin …

2
Optimizasyon: İstatistiklerdeki tüm kötülüklerin kökü mü?
Daha önce aşağıdaki ifadeyi duydum: "Optimizasyon, istatistikteki tüm kötülüklerin köküdür". Örneğin, bu konudaki en önemli yanıt, bu ifadeyi model seçimi sırasında çok agresif bir şekilde optimize etme tehlikesine atıfta bulunur. İlk sorum şu: Bu alıntı özellikle herhangi birine atfedilebilir mi? (örneğin istatistik literatüründe) Anladığım kadarıyla, ifade aşırı uyum risklerini ifade …

3
Bir regresyon modelinin ne zaman uygun olduğunu nasıl tespit edebilirim?
İşi yapan siz olduğunuzda, ne yaptığınızın farkında olmak, modele ne zaman uyduğunuz konusunda bir fikir geliştirir. Birincisi, trend veya bozulmayı modelin Düzeltilmiş R Meydanı'nda takip edebilirsiniz. Ana değişkenlerin regresyon katsayılarının p değerlerinde de benzer bir bozulmayı izleyebilirsiniz. Ancak, başka birini okuduğunuzda ve kendi iç model geliştirme süreci hakkında bir fikriniz …

1
Tren ve Test Hatası Boşluğu ve Aşırı Donatmayla İlişkisi: Çatışan tavsiyeleri uzlaştırmak
Özellikle ikisi arasında bir boşluk olduğunda trenle test hatasını karşılaştırmanın nasıl ele alınacağı konusunda çelişkili tavsiyeler var gibi görünüyor. Bana göre, çatışan iki düşünce okulu var gibi. İkisini nasıl uzlaştıracağımı (veya burada eksik olanı anladığımı) arıyorum. Düşünce # 1: Sadece tren ve test seti performansı arasındaki boşluk aşırı uyuşmayı göstermiyor …

2
K-kat çapraz doğrulaması eğitim / doğrulama / test setleri bağlamına nasıl uyuyor?
Benim asıl sorum, k / kat çapraz doğrulamanın eğitim / doğrulama / test setlerine sahip olma bağlamında nasıl uyduğunu anlamaya çalışmakla ilgilidir (eğer bu bağlamda uyuyorsa). Genellikle, insanlar verileri bir eğitim, validasyon ve test setine - örneğin Andrew Ng'in kursu başına 60/20/20 oranında) bölmekten söz ederler, böylece doğrulama seti model …


1
Küçük veri kümesinde LSTM'nin aşırı takılmasını önleme
80 boyutlu bir word2vec benzeri temsil kullanarak 128 gizli birimleri ile tek bir katman LSTM kullanarak duygu tahmini için 15000 tweet modelleme. 1 çağdan sonra bir iniş doğruluğu (rastgele% 38 =% 20) alıyorum. Daha fazla eğitim, eğitim doğruluğu tırmanmaya başladığında doğrulama doğruluğunun azalmaya başlamasını sağlar - açık bir aşırı sığdırma …

3
Bayesian vs MLE, aşırı uyum sorunu
Bishop'un PRML kitabında, aşırı sığmanın Maksimum Olabilirlik Tahmini (MLE) ile ilgili bir sorun olduğunu ve Bayesian'ın bundan kaçınabileceğini söylüyor. Ama bence, aşırı takma, parametre tahmini yapmak için kullanılan yöntemle değil, model seçimi ile ilgili bir sorundur. Yani, diyelim ki ile oluşturulan bir veri kümesi sahibim, şimdi verilere uymak ve bulmak …

3
Teori, uyum veya başka bir şeye göre dağılımları seçmek daha mı iyi?
Bu felsefi bir soruyla sınırlıdır, ancak daha fazla deneyime sahip olanların dağıtım seçimi hakkında nasıl düşündükleri ile ilgileniyorum. Bazı durumlarda, teorinin en iyi şekilde çalışabileceği açıktır (farelerin kuyruk uzunlukları muhtemelen normal olarak dağılmıştır). Birçok durumda, muhtemelen bir veri kümesini tanımlamak için hiçbir teori yoktur, bu yüzden başlangıçta açıklamak için geliştirilen …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.