Bir süredir makine öğrenimi ve biyoinformatik üzerinde çalışıyorum ve bugün veri madenciliğinin ana genel sorunları hakkında bir meslektaşımla sohbet ettim.
Meslektaşım (makine öğrenimi uzmanı), onun görüşüne göre, makine öğreniminin tartışmasız en önemli pratik yönünün, makine öğrenme modelinizi eğitmek için yeterli veri toplayıp toplamadığınızı nasıl anlayacağınız olduğunu söyledi .
Bu ifade beni şaşırttı, çünkü bu konuya bu kadar önem vermedim ...
Daha sonra internette daha fazla bilgi aradım ve FastML.com raporunda bu yayını, kural olarak yaklaşık 10 kat daha fazla veri örneğine ihtiyacınız olduğunu belirten bir kural olarak buldum .
İki soru:
1 - Bu sorun özellikle makine öğrenimi ile ilgili mi?
2 - 10 kez kuralı çalışıyor mu? Bu tema için başka alakalı kaynaklar var mı?