SVM modelinden bir öğrenme eğrisinin önyargı veya varyanstan muzdarip olup olmadığını nasıl bilebilirim?


Yanıtlar:


13

Bölüm 1: Öğrenme eğrisi nasıl okunur

İlk olarak, değerlendirme için yeterli verinin bulunduğu arsanın sağ tarafına odaklanmalıyız.

  • Eğer iki eğri "birbirine yakın" ise ve her ikisi de düşük bir puana sahipse. Model, uygun olmayan bir sorundan muzdariptir (Yüksek Eğilim)

  • Eğitim eğrisi çok daha iyi bir skora sahipse de test eğrisi daha düşük bir skora sahipse, yani iki eğri arasında büyük boşluklar vardır. Sonra model aşırı uydurma probleminden muzdariptir (Yüksek Varyans)

Bölüm 2: Verdiğiniz arsa için değerlendirmem

Arsadan, modelin iyi olup olmadığını söylemek zor. Gerçekten "kolay bir probleminiz" olabilir, iyi bir model% 90'a ulaşabilir. Öte yandan, yapabileceğimiz en iyi şeyin% 70'e ulaşmak olduğu konusunda gerçekten “zor bir probleminiz” olabilir. (Puanın 1 olduğunu söyleyerek mükemmel bir modele sahip olmanızı beklemeyebileceğinizi unutmayın. Verilerinizde ne kadar elde edebileceğiniz, verilerinizde ne kadar gürültüye bağlı olduğunu varsayalım. Verilerinizin çok sayıda veri noktasının EXACT özelliği ancak farklı etiketleri olduğunu varsayalım, ne yaparsanız yapın, 1 puan kazanamazsınız.)

Örneğinizdeki bir diğer sorun da, gerçek dünya uygulamasında 350 örneğin çok küçük görünmesidir.

Bölüm 3: Diğer öneriler

Daha iyi bir anlayış elde etmek için, aşırı uydurma altında deneyimlemek ve öğrenme eğrisinde neler olacağını gözlemlemek için aşağıdaki deneyleri yapabilirsiniz.

  • MNIST verileri gibi çok karmaşık bir veri seçin ve basit bir modele uyun, bir özellikli doğrusal model deyin.

  • SVM gibi basit bir veri, örneğin iris verisi gibi bir karmaşıklık modeline uyun.


Bölüm 4: Diğer örnekler

Buna ek olarak, alt montaj ve aşırı montaj ile ilgili iki örnek vereceğim. Bunun öğrenme eğrisi olmadığını, ancak daha fazla yinelemenin aşırı takılma şansının daha fazla olacağı gradyan artırıcı modeldeki yineleme sayısına göre performansa dikkat edin . X ekseni yineleme sayısını gösterir ve y ekseni, ROC Altında Negatif Alan olan performansı gösterir (ne kadar düşükse o kadar iyidir.)

Sol alt parsel, aşırı montajdan (performans oldukça iyi olduğu için de uygun olmayan) iyi değil, ancak doğru sayıda, yineleme sayısı fazla olduğunda aşırı montajdan muzdariptir.

resim açıklamasını buraya girin


Teşekkürler hxd1011! Modelimin biraz varyanstan ve biraz önyargıdan muzdarip olduğunu söylersem bana katılıyor musunuz (puan 1 olmadığı için)?
Afke

@Papie Modelin iyi olduğunu düşünüyorum ... Skorun% 80'i kötü değil ve iki eğri yakın. Tek sorun, gerçek dünya uygulamasında çok küçük olabilecek 350'ye kadar olan örneklerdir.
Haitao Du

@Papie Ayrıca, mükemmel bir modele sahip olacağınızı beklemeyebilirsiniz, skor 1 deyin. Verilerinizin çok sayıda veri noktasının EXACT özelliğine sahip olduğunu varsayalım, ancak farklı etiketler, ne yaparsanız yapın, puan 1'e ulaşamazsınız.
Haitao Du

11
Bence onun "skor% 80 kötü değil" şeyler hakkında düşünmek için iyi bir yol değil. İyi bir küresel skor yoktur, büyük ölçüde çözülen soruna, daha spesifik olarak süreçteki sinyal / gürültü oranına ve mevcut verilere bağlıdır. Bunu cevabınızda belirtiyorsunuz, bu yüzden "fena değil" yorumunu kaldırırım.
Matthew Drury

1
@MatthewDrury Önerileriniz için teşekkürler, cevap revize edildi!
Haitao Du
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.