Eğitim verilerinin arttırılmasının genel sistem doğruluğu üzerinde nasıl bir etkisi vardır?


16

Birisi benim için olası örneklerle özetleyebilir mi, hangi durumlarda eğitim verilerinin arttırılması genel sistemi iyileştirir? Daha fazla eğitim verisi eklemenin, muhtemelen verilerin üzerine sığabileceğini ve test verileri üzerinde iyi doğruluk sağlayamayacağını ne zaman tespit ederiz?

Bu çok spesifik olmayan bir sorudur, ancak belirli bir duruma özgü olarak cevaplamak istiyorsanız, lütfen bunu yapın.


sadece merak ediyorum - bu, trene / teste 50-50'lik bir bölünmenin 75-25 den daha iyi olup olmadığıyla mı ilgili?
olasılık

Yanıtlar:


22

n=4

Bununla birlikte, daha fazla verinin yardımcı olmadığı ve hatta zarar verebileceği bir durum, ek egzersiz verilerinizin gürültülü olması veya tahmin etmeye çalıştığınız şeyle eşleşmemesi durumudur. Bir keresinde, sesli bir restoran rezervasyon sistemine farklı dil modellerini [*] taktığım bir deney yaptım. Eğitim verilerinin miktarının yanı sıra alaka düzeyini de değiştirdim: bir uçta, masa rezervasyonu yapan kişilerin dikkatlice küratörlüğünü yapan küçük bir koleksiyonum vardı, başvurum için mükemmel bir eşleşme. Öte yandan, klasik edebiyatın büyük koleksiyonundan tahmin edilen bir modelim vardı , daha doğru bir dil modeli, ancak uygulamaya çok daha kötü bir eşleşme. Şaşırtıcı bir şekilde, küçük ama ilgili model , büyük ama daha az ilgili modelden büyük ölçüde daha iyi performans gösterdi.


Çift iniş adı verilen şaşırtıcı bir durum, eğitim setinin boyutu model parametre sayısına yakın olduğunda da ortaya çıkar. Bu durumlarda, ilk önce egzersiz setinin boyutu arttıkça test riski azalır, biraz daha fazla egzersiz verisi eklendiğinde geçici olarak artar ve sonunda egzersiz seti büyümeye devam ettikçe tekrar azalmaya başlar. Bu fenomen sinir ağı literatüründe 25 yıl bildirilmiştir (bakınız Opper, 1995), ancak modern ağlarda da ortaya çıkar ( Advani ve Saxe, 2017 ). İlginç bir şekilde, bu doğrusal bir regresyon için bile olsa, SGD tarafından uygun olsa da ( Nakkiran, 2019). Bu fenomen henüz tam olarak anlaşılamamıştır ve büyük ölçüde teorik ilgi alanıdır: Kesinlikle daha fazla veri toplamak için bir neden olarak kullanmam (n == p ise eğitim seti boyutuyla uğraşabilirim ve performans beklenmedik bir şekilde kötüyse) ).


P(wn='hızlı', wn+1='Kahverengi', wn+2='tilki')



12

Bir not: daha fazla veri ekleyerek (sütunlar veya özellikler değil satırlar veya örnekler), fazla sığdırma şansınız artmak yerine azalır .

İki paragraf özeti şu şekildedir:

  • Daha fazla örnek eklemek çeşitlilik katar. Genelleme hatasını azaltır, çünkü daha fazla örnek üzerinde eğitim almanız sayesinde modeliniz daha genel hale gelir.
  • Daha fazla giriş özelliği veya sütun (sabit sayıda örneğe) eklemek fazla sığmayı arttırabilir, çünkü daha fazla özellik ilgisiz veya gereksiz olabilir ve eldeki örneklere uymak için modeli karmaşıklaştırma fırsatı daha fazladır.

Modellerin kalitesini karşılaştırmak için bazı basit kriterler vardır. Örneğin bir göz atın AIC veya en BIC .

Her ikisi de, daha fazla veri eklemenin modelleri her zaman daha iyi hale getirirken, optimumun ötesinde parametre karmaşıklığı ekleyerek model kalitesini düşürdüğünü gösteriyor.


1

Egzersiz verilerinin arttırılması her zaman bilgi ekler ve uygunluğu geliştirmelidir. Zorluk, daha sonra sınıflandırıcının performansını sadece uyum için kullanılan eğitim verilerinde değerlendirirseniz gelir. Bu iyimser önyargılı değerlendirmeler üretir ve bunun yerine bir defaya mahsus çapraz doğrulama veya bootstrap kullanılmasının sebebidir.


1

İdeal olarak, daha fazla eğitim örneğine sahip olduğunuzda, daha düşük test hatasına sahip olacaksınız (model azalmasının varyansı, daha az takma yaptığımız anlamına gelir), ancak teorik olarak, daha fazla veri her zaman yüksek önyargı modellerinden daha doğru bir modele sahip olacağınız anlamına gelmez. daha fazla eğitim örneğinden yararlanamayacak .

Buraya bakın: Makine Öğreniminde Daha İyisi: Daha Fazla Veri veya Daha İyi Algoritmalar

Yüksek varyans - eğitimi iyi temsil eden, ancak gürültülü veya temsili olmayan eğitim verilerine aşırı sığdırma riski taşıyan bir model.

Yüksek önyargı - fazla uyuma eğilimi göstermeyen, ancak önemli düzenlilikleri yakalayamayan eğitim verilerine uymayan daha basit bir model.


-1

Spektrum analizi, numunenin çeşitliliğinin analizinde yardımcı olacaktır, aslında, genellikle aşırı uydurma olarak adlandırılan "gerçek örnekler" eklenmezse, modellemede yanlış bilgi öğrenilecektir. Genellikle, numuneye göre verilen bilgiler daha azsa, yararlı bilgilerin testte kullanılabilmesini sağlamak için daha gerçek bir numune sunulması teşvik edilir. İyi şanslar!


3
Bu cevabı anlamlandırmak zor. Belki başka bir dilden makineye çevrildi mi? Bizimle paylaşmak ve fikirlerini bizimle paylaşmak istediğiniz fikirleri iletecek şekilde düzenlemenin bir yolu var mı?
whuber

Cevabın ne olduğunu anlamıyorum.
user162580

3
Bir dil problemimiz var gibi görünüyor: Gönderdiğiniz kelimeler İngilizce anlam ifade etmiyor. Onları mantıklı olacak şekilde değiştirebilir misiniz?
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.