"Boyutsallığın laneti" nin ne olduğunu anlıyorum ve bazı yüksek boyutlu optimizasyon problemleri yaptım ve üstel olasılıkların zorluklarını biliyorum.
Ancak, gerçek boyutların çoğunda "boyutsallığın laneti" mevcutsa şüphe ediyorum.
Binlerce özelliğe sahip veri toplayabiliriz ancak özelliklerin binlerce boyuta sahip bir alana tam olarak yayılması mümkün değildir. Boyut azaltma tekniklerinin bu kadar popüler olmasının nedeni budur.
Başka bir deyişle, verilerin üstel bilgi seviyesini içermemesi çok muhtemeldir, yani birçok özellik yüksek derecede ilişkilidir ve birçok özellik 80-20 kurallarını karşılar (birçok örnek aynı değere sahiptir).
Böyle bir durumda, sanırım KNN gibi yöntemler hala oldukça iyi işleyecektir. (Çoğu kitapta "boyutsallığın laneti" boyut> 10'un sorunlu olabileceğini söylüyor. Demolarında entropinin gerçekten yüksek olduğu tüm boyutlarda düzgün dağılım kullanıyorlar. Gerçek dünyada bunun olacağından şüpheliyim.)
Gerçek verilerle ilgili kişisel deneyimim, "boyutsallığın laneti" nin şablon yöntemini (KNN gibi) çok fazla etkilememesi ve çoğu durumda ~ 100 boyutları hala işe yarayacaktır.
Bu diğer insanlar için geçerli mi? (5 yıl boyunca farklı sektörlerde gerçek verilerle çalıştım, "tüm mesafe çiftlerinin benzer değerlere sahip olduğunu" kitapta açıklandığı gibi gözlemlemedim.)