Genel olarak, boyutsallığın laneti bir uzayda arama problemini çok daha zorlaştırır ve vektör alanlarını bölümleyerek "öğrenen" algoritmaların çoğunu etkiler. Optimizasyon problemimizin boyutu ne kadar yüksek olursa optimizasyon yaptığımız alanı doldurmak için o kadar fazla veriye ihtiyacımız var.
Genelleştirilmiş Doğrusal Modeller
β^= ( X'X)- 1X'y
Karar Ağaçları
Karar ağaçları da boyutsallığın lanetinden muzdariptir. Karar ağaçları, her bir düğümdeki örnek boşluğunu doğrudan bölümlere ayırır. Örnek alanı arttıkça, veri noktaları arasındaki mesafeler artar ve bu da "iyi" bir bölünmenin bulunmasını zorlaştırır.
Rastgele Ormanlar
Rastgele Ormanlar tahminlerini yapmak için bir dizi karar ağacı kullanır. Ancak, sorununuzun tüm özelliklerini kullanmak yerine, tek tek ağaçlar yalnızca özelliklerin bir alt kümesini kullanır. Bu, her ağacın optimizasyon yaptığı alanı en aza indirir ve boyutsallığın laneti sorunuyla mücadeleye yardımcı olabilir.
Boosted Tree'nin
böyle AdaBoost olarak Arttırılması algoritmaları boyutluluk laneti muzdarip ve düzenlileştirme kullanılan değilse overffit eğilimindedir. Derinlemesine gitmeyeceğim, çünkü yazı AdaBoost fazla veya daha fazla takmaya eğilimli mi?
neden benden daha iyi olduğunu açıklıyor.
Nöral ağlar
Sinir ağları, mimariye, aktivasyonlara, derinliğe vb. Bağlı olan boyutsallığın lanetinden her ikisinin de etkilendiği ve etkilenmediği anlamında gariptir. Dolayısıyla boyutsallığın lanetini tekrarlamak, giriş alanını kaplayacak şekilde boyutlar. Derin sinir ağlarını yorumlamanın bir yolu, tüm katmanların son katmanın yüksek boyutlu bir manifoldun karmaşık bir projeksiyonunu daha düşük boyutlu bir manifolda dönüştürmesini beklediğini düşünmektir, burada son katmanın üstünde sınıflandırılır. Örneğin, son katmanın bir softmax katman olduğu sınıflandırma için bir evrişimsel ağda, mimariyi daha küçük bir boyuta doğrusal olmayan bir projeksiyon yapmak ve daha sonra bu projeksiyonda çok terimli bir lojistik regresyon (softmax katmanı) yapmak olarak yorumlayabiliriz. Yani bir anlamda verilerimizin sıkıştırılmış temsili, boyutsallığın lanetini atlatmamızı sağlar. Yine bu bir yorumdur, gerçekte boyutsallığın laneti aslında sinir ağlarını etkilemektedir, ancak yukarıda özetlenen modellerle aynı düzeyde değildir.
SVM
SVM, meydana gelen aşırı düzenlenme nedeniyle genelleştirilmiş doğrusal modellerden daha fazla takılma eğilimi göstermez. Daha fazla ayrıntı için bu gönderiye bakın SVM, Overfitting, boyutsallığın laneti .
K-NN, K-Araçlar
Hem K-ortalaması hem de K-NN boyutsallığın lanetinden büyük ölçüde etkilenir, çünkü her ikisi de L2 kare mesafe ölçüsünü kullanır. Boyutların miktarı arttıkça, çeşitli veri noktaları arasındaki mesafe de artar. Bu yüzden mesafenin daha açıklayıcı olacağını ümit ederek daha fazla yer kaplamak için daha fazla noktaya ihtiyacınız var.
Yanıtlarım oldukça genel olduğu için modeller hakkında ayrıntılı bilgi almaktan çekinmeyin. Bu yardımcı olur umarım.