% 100 model doğruluğu örnek dışı veri taşması mı?

Ben cognitiveclass.ai R dersi için makine öğrenimini tamamladım ve randomforests ile denemeye başladım.

R "randomForest" kütüphanesini kullanarak bir model yaptım. Model iyi ve kötü iki sınıfla sınıflandırır.

Bir modelin aşırıya kaçması durumunda, kendi eğitim setindeki veriler üzerinde iyi performans gösterdiğini, ancak örnek dışı veriler üzerinde kötü performans gösterdiğini biliyorum.

Modelimi eğitmek ve test etmek için tüm veri kümesini eğitim için% 70'e ve test için% 30'a böldüm ve ayırdım.

Benim sorum: Test setinde yapılan tahminlerden% 100 doğruluk elde ediyorum. Bu kötü mü? Gerçek olamayacak kadar iyi görünüyor.

Amaç, dalga formlarına bağlı olarak dört tanesinde dalga formu tanımasıdır. Veri kümesinin özellikleri, dalga biçimlerinin hedef dalga biçimleriyle Dinamik Zaman Çözgü analizinin maliyet sonuçlarıdır.

r random-forest prediction overfitting

— Milan van Dijck
kaynak

siteye hoşgeldiniz! Bazı gürültü verilerini tahmin etmeyi denediniz mi?

— Toros91

Her değişiklik, eğitim ve test yaptığınızda, doğruluk% 100 olur mu?

— Alex

@Alex Tam olarak değil, ancak 98,55% gibi çok yüksek kaldı

— Milan van Dijck

@Alex 11.35% "ok" ve%

— 88.65

Bu oldukça dengesiz. Eğitim setindeki dengeyi OK sınıfına doğru döndürmek için örneklemeyi (tekrarlanan örnekleme) kullanmayı deneyin (örneğin% 30 olun) ve 11/89 oranını test / doğrulama setlerinde tutun. Siz ne alırsınız?

— Alex

Yanıtlar:

Doğruluk gibi yüksek doğrulama puanları genellikle fazla takmamanız anlamına gelir, ancak dikkatli olunmalıdır ve bir şeyin yanlış gittiğini gösterebilir. Ayrıca, sorunun çok zor olmadığı ve modelinizin gerçekten iyi performans gösterdiği anlamına da gelebilir. Yanlış gidebilecek iki şey:

Verileri düzgün bir şekilde bölmediniz ve egzersiz verilerinizde doğrulama verileri de oluştu, yani artık genellemeyi ölçmediğiniz için aşırı sığmayı gösteriyor
Ek özellikler oluşturmak için bazı özellik mühendisliği kullanırsınız ve satırlarınızın yalnızca eğitim setinizdeki diğerlerinden değil, mevcut hedefinden gelen bilgileri kullandığı bazı hedef sızıntıları getirmiş olabilirsiniz

— Jan van der Vegt
kaynak

% 100 doğruluk her zaman "hedef sızıntıyı" bağırır.

— Paul

En öngörücü özelliklerinizin neler olduğunu görmek için araştırın. Bazen özelliklerinize yanlışlıkla hedefinizi (veya hedefinize eşdeğer bir şeyi) dahil ettiniz.

— tom
kaynak