% 100 model doğruluğu örnek dışı veri taşması mı?


11

Ben cognitiveclass.ai R dersi için makine öğrenimini tamamladım ve randomforests ile denemeye başladım.

R "randomForest" kütüphanesini kullanarak bir model yaptım. Model iyi ve kötü iki sınıfla sınıflandırır.

Bir modelin aşırıya kaçması durumunda, kendi eğitim setindeki veriler üzerinde iyi performans gösterdiğini, ancak örnek dışı veriler üzerinde kötü performans gösterdiğini biliyorum.

Modelimi eğitmek ve test etmek için tüm veri kümesini eğitim için% 70'e ve test için% 30'a böldüm ve ayırdım.

Benim sorum: Test setinde yapılan tahminlerden% 100 doğruluk elde ediyorum. Bu kötü mü? Gerçek olamayacak kadar iyi görünüyor.

Amaç, dalga formlarına bağlı olarak dört tanesinde dalga formu tanımasıdır. Veri kümesinin özellikleri, dalga biçimlerinin hedef dalga biçimleriyle Dinamik Zaman Çözgü analizinin maliyet sonuçlarıdır.


siteye hoşgeldiniz! Bazı gürültü verilerini tahmin etmeyi denediniz mi?
Toros91

Her değişiklik, eğitim ve test yaptığınızda, doğruluk% 100 olur mu?
Alex

@Alex Tam olarak değil, ancak 98,55% gibi çok yüksek kaldı
Milan van Dijck

1
@Alex 11.35% "ok" ve%
88.65

1
Bu oldukça dengesiz. Eğitim setindeki dengeyi OK sınıfına doğru döndürmek için örneklemeyi (tekrarlanan örnekleme) kullanmayı deneyin (örneğin% 30 olun) ve 11/89 oranını test / doğrulama setlerinde tutun. Siz ne alırsınız?
Alex

Yanıtlar:


29

Doğruluk gibi yüksek doğrulama puanları genellikle fazla takmamanız anlamına gelir, ancak dikkatli olunmalıdır ve bir şeyin yanlış gittiğini gösterebilir. Ayrıca, sorunun çok zor olmadığı ve modelinizin gerçekten iyi performans gösterdiği anlamına da gelebilir. Yanlış gidebilecek iki şey:

  • Verileri düzgün bir şekilde bölmediniz ve egzersiz verilerinizde doğrulama verileri de oluştu, yani artık genellemeyi ölçmediğiniz için aşırı sığmayı gösteriyor
  • Ek özellikler oluşturmak için bazı özellik mühendisliği kullanırsınız ve satırlarınızın yalnızca eğitim setinizdeki diğerlerinden değil, mevcut hedefinden gelen bilgileri kullandığı bazı hedef sızıntıları getirmiş olabilirsiniz

11
% 100 doğruluk her zaman "hedef sızıntıyı" bağırır.
Paul

1

En öngörücü özelliklerinizin neler olduğunu görmek için araştırın. Bazen özelliklerinize yanlışlıkla hedefinizi (veya hedefinize eşdeğer bir şeyi) dahil ettiniz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.