Aslında, veriler arttıkça küçülecek bir sorunum var. Uygulamamdan biri, belirli bir ürünün özelliklerini kaydetti. Öznitelikler örneğin CheeseType, Marka, Ülke, Alan, MilkType, vs.dir. Her ay ya da öylesine, piyasaya giren bu zaman zaman, peynirlerin özniteliklerinin bir listesini alırım. Şimdi, bu nitelikler bir grup insan tarafından elle yazılmıştır. Bazıları yazım hatası yapar veya tüm özelliklerin değerini bilmez.
Veritabanımda arama yaparken, bu özelliklere dayanarak peynirin tadının ne olduğunu istatistiklerden tahmin etmeye çalışıyorum. Olan şudur, her özellik için bir değer aralığı ile bitirdim; bazıları geçerli, bazıları geçersiz. Bu geçersiz olanları ortadan kaldırmak veya düzeltmek ancak yeterli veriye sahipsem mümkün. Nadir fakat geçerli değerleri elimine etmeden, gerçek değerler ile gürültü arasındaki farkın yaratılmasıyla ilgilidir.
Tahmin edebileceğiniz gibi, düşük ses seviyesinde, sesleri düzgün şekilde düzeltmek için çok önemlidir. 5 Cheddar örneği varsa, 1 Brie, 1 Bri ve 1 Chedar varsa, hangisinin doğru, hangisinin yazım hatası olduğunu nasıl anlarım? Daha fazla hacimde, yazım hataları çok düşük olma eğilimindedir, ancak nadir değerler, gürültüden kaçmalarını sağlayan çok önemli artışlar elde eder (deneyim tarafından desteklenir). Bu durumda, örneğin 50000 Cheddar, 3000 Brie, 5 Bri, 15 Chedar hayal edebiliyorum.
Yani evet, bazı problemler sonunda yeterli veriye sahip olduğunuzda kendilerini çözerler.