Makine öğrenim modelimi eğitmek için ne kadar veri yeterli?


11

Bir süredir makine öğrenimi ve biyoinformatik üzerinde çalışıyorum ve bugün veri madenciliğinin ana genel sorunları hakkında bir meslektaşımla sohbet ettim.

Meslektaşım (makine öğrenimi uzmanı), onun görüşüne göre, makine öğreniminin tartışmasız en önemli pratik yönünün, makine öğrenme modelinizi eğitmek için yeterli veri toplayıp toplamadığınızı nasıl anlayacağınız olduğunu söyledi .

Bu ifade beni şaşırttı, çünkü bu konuya bu kadar önem vermedim ...

Daha sonra internette daha fazla bilgi aradım ve FastML.com raporunda bu yayını, kural olarak yaklaşık 10 kat daha fazla veri örneğine ihtiyacınız olduğunu belirten bir kural olarak buldum .

İki soru:

1 - Bu sorun özellikle makine öğrenimi ile ilgili mi?

2 - 10 kez kuralı çalışıyor mu? Bu tema için başka alakalı kaynaklar var mı?


1. Evet. 2. Bu iyi bir başlangıç ​​noktasıdır, ancak etkili serbestlik derecelerini azaltmak için düzenli bir şekilde dolaşabilirsiniz . Bu özellikle derin öğrenme ile iyi çalışır. 3. Örnek büyüklüğünün öğrenme eğrisini hataya veya puana göre çizerek probleminizdeki durumu teşhis edebilirsiniz.
Emre

@Emre Teşekkürler! Ayrıca bana bazı makaleler veya okunacak herhangi bir materyal önerebilir misiniz?
DavideChicco.it

Bu genellikle ders kitabınızdaki çapraz doğrulama ve diğer model doğrulama tekniklerinin yanı sıra ele alınacaktır.
Emre

10 kez kuralı bunu başarabilirseniz harika, ancak bazı iş ortamlarında pratik değildir. Özellik sayısının veri örneklerinden çok daha fazla olduğu birçok durum vardır (p >> n). Bu durumlarla başa çıkmak için özel olarak tasarlanmış makine öğrenme teknikleri vardır.
veri bilimi adamı

Öğrenme eğrisi grafiğini anlamanıza yardımcı olabilecek ayrıntılı bir açıklamaya ihtiyacınız varsa, şunu kontrol edin: scikit-yb.org/en/latest/api/model_selection/learning_curve.html
singh

Yanıtlar:


6

On kat kuralı benim için temel bir kural gibi görünüyor, ancak makine eğitim algoritmanızın performansının, yeterli egzersiz verileriyle beslenmemeniz durumunda düşebileceği doğrudur.

Yeterli egzersiz verisine sahip olup olmadığınızı belirlemenin pratik ve veri odaklı bir yolu, aşağıdaki örnekte olduğu gibi bir öğrenme eğrisi çizmektir:

Öğrenme eğrisi

Öğrenme eğrisi, egzersiz setinizin boyutunu artırdıkça egzersiz ve test hatalarının gelişimini temsil eder.

  • Veri kümenizin boyutunu artırdıkça egzersiz hatası artar, çünkü egzersiz setinizin artan karmaşıklığını / değişkenliğini açıklayan bir modele uymak zorlaşır.
  • Veri kümenizin boyutunu artırdıkça test hatası azalır, çünkü model daha yüksek miktarda bilgiden daha iyi genelleme yapabilir.

Çizimin en sağ kısmında görebileceğiniz gibi, çizimdeki iki çizgi ulaşma ve asimptot eğilimindedir. Bu nedenle, sonunda veri kümenizin boyutunun artırılmasının eğitimli modelinizi etkilemeyeceği bir noktaya ulaşacaksınız.

Test hatası ve eğitim hatası asimptotları arasındaki mesafe, modelinizin aşırı uyumunun bir temsilidir. Ama daha da önemlisi, bu grafik daha fazla veriye ihtiyacınız olup olmadığını söylüyor. Temel olarak, egzersiz verilerinizin daha büyük alt kümelerini artırmak için test ve egzersiz hatasını temsil ediyorsanız ve çizgiler bir asimptota ulaşmıyor gibi görünüyorsa, daha fazla veri toplamaya devam etmelisiniz.


Learning_curve fonksiyonunda geçmeli miyim X_train, y_train: Only train subsetveyaX, y: the entire dataset
Rookie_123

Bu eğri, örnek sayısını artırdıkça çapraz doğrulamanın uygulanması sonucunda oluşturulur. Bu nedenle, tüm veri kümesine ihtiyacınız vardır.
Pablo Suau

4
  1. Evet, sorun kesinlikle önemlidir, çünkü modele uyma yeteneğiniz sahip olduğunuz veri miktarına bağlı olacaktır, ancak daha da önemlisi, öngörücülerin kalitesine bağlıdır.
  2. 10 kez kural, genel bir kural olabilir (ve diğerleri de vardır), ancak bu gerçekten özelliklerinizin tahminsel kullanımına bağlıdır. Örneğin, iris veri kümesi oldukça küçüktür, ancak kolayca çözülebilir, çünkü özellikler hedeflerin iyi bir şekilde ayrılmasını sağlar. Tersine, 10 milyon örneğiniz olabilir ve özellikler zayıfsa uyum sağlayamazsınız.

Teşekkürler! Ayrıca bana bazı makaleler veya okunacak herhangi bir materyal önerebilir misiniz?
DavideChicco.it
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.