Boyut küfürü bazı modelleri diğerlerinden daha fazla etkiler mi?


15

Boyutsallık laneti hakkında okuduğum yerler, öncelikle kNN ve genel olarak doğrusal modellerle bağlantılı olarak açıklıyor. Veri kümesindeki 100k veri noktasına sahip binlerce özellik kullanarak Kaggle'daki en üst sıralayıcıları düzenli olarak görüyorum. Diğerleri arasında ağırlıklı olarak Artırılmış ağaçlar ve NN kullanırlar. Pek çok özellik çok yüksek görünüyor ve boyutsal lanetten etkileneceklerini hissediyorum. Ancak bu modeller onları yarışmalara soktuğundan, durum böyle görünmüyor. Peki, orijinal soruma geri dön - bazı modeller boyutsallık lanetinden diğerlerinden daha fazla etkileniyor mu?

Özellikle, aşağıdaki modellerle ilgileniyorum (sadece bunlar farkında olduğum / kullandığım modeller olduğu için):

  • Doğrusal ve Lojistik Regresyon
  • Karar Ağaçları / RandomForest / Artırılmış Ağaçlar
  • Nöral ağlar
  • SVM
  • kNN
  • k-kümeleme anlamına gelir

Kısa cevap kesinlikle evet, ama belki aslında ilgilendiğiniz modelleri istiyorsun? CV topluluğunun size boyutsallığın lanetinden etkilenen binlerce farklı modelden bahsedebileceğinden eminim. Bu nedenle, odağınızı belirli modellere daraltmak bu soruyu cevaplamanıza yardımcı olabilir.

@RustyStatistician - İlgilendiğim birkaç model ekledim
Dileep Kumar Patchigolla

Bu soru ile oldukça ilgileniyorum ama cevapsız kaldı. Yanıtları almak için bunu görünürlükte nasıl artırabilirim?
Dileep Kumar Patchigolla

Yanıtlar:


17

Genel olarak, boyutsallığın laneti bir uzayda arama problemini çok daha zorlaştırır ve vektör alanlarını bölümleyerek "öğrenen" algoritmaların çoğunu etkiler. Optimizasyon problemimizin boyutu ne kadar yüksek olursa optimizasyon yaptığımız alanı doldurmak için o kadar fazla veriye ihtiyacımız var.

Genelleştirilmiş Doğrusal Modeller

β^=(X'X)-1X'y

Karar Ağaçları
Karar ağaçları da boyutsallığın lanetinden muzdariptir. Karar ağaçları, her bir düğümdeki örnek boşluğunu doğrudan bölümlere ayırır. Örnek alanı arttıkça, veri noktaları arasındaki mesafeler artar ve bu da "iyi" bir bölünmenin bulunmasını zorlaştırır.

Rastgele Ormanlar
Rastgele Ormanlar tahminlerini yapmak için bir dizi karar ağacı kullanır. Ancak, sorununuzun tüm özelliklerini kullanmak yerine, tek tek ağaçlar yalnızca özelliklerin bir alt kümesini kullanır. Bu, her ağacın optimizasyon yaptığı alanı en aza indirir ve boyutsallığın laneti sorunuyla mücadeleye yardımcı olabilir.

Boosted Tree'nin
böyle AdaBoost olarak Arttırılması algoritmaları boyutluluk laneti muzdarip ve düzenlileştirme kullanılan değilse overffit eğilimindedir. Derinlemesine gitmeyeceğim, çünkü yazı AdaBoost fazla veya daha fazla takmaya eğilimli mi? neden benden daha iyi olduğunu açıklıyor.

Nöral ağlar
Sinir ağları, mimariye, aktivasyonlara, derinliğe vb. Bağlı olan boyutsallığın lanetinden her ikisinin de etkilendiği ve etkilenmediği anlamında gariptir. Dolayısıyla boyutsallığın lanetini tekrarlamak, giriş alanını kaplayacak şekilde boyutlar. Derin sinir ağlarını yorumlamanın bir yolu, tüm katmanların son katmanın yüksek boyutlu bir manifoldun karmaşık bir projeksiyonunu daha düşük boyutlu bir manifolda dönüştürmesini beklediğini düşünmektir, burada son katmanın üstünde sınıflandırılır. Örneğin, son katmanın bir softmax katman olduğu sınıflandırma için bir evrişimsel ağda, mimariyi daha küçük bir boyuta doğrusal olmayan bir projeksiyon yapmak ve daha sonra bu projeksiyonda çok terimli bir lojistik regresyon (softmax katmanı) yapmak olarak yorumlayabiliriz. Yani bir anlamda verilerimizin sıkıştırılmış temsili, boyutsallığın lanetini atlatmamızı sağlar. Yine bu bir yorumdur, gerçekte boyutsallığın laneti aslında sinir ağlarını etkilemektedir, ancak yukarıda özetlenen modellerle aynı düzeyde değildir.

SVM
SVM, meydana gelen aşırı düzenlenme nedeniyle genelleştirilmiş doğrusal modellerden daha fazla takılma eğilimi göstermez. Daha fazla ayrıntı için bu gönderiye bakın SVM, Overfitting, boyutsallığın laneti .

K-NN, K-Araçlar

Hem K-ortalaması hem de K-NN boyutsallığın lanetinden büyük ölçüde etkilenir, çünkü her ikisi de L2 kare mesafe ölçüsünü kullanır. Boyutların miktarı arttıkça, çeşitli veri noktaları arasındaki mesafe de artar. Bu yüzden mesafenin daha açıklayıcı olacağını ümit ederek daha fazla yer kaplamak için daha fazla noktaya ihtiyacınız var.

Yanıtlarım oldukça genel olduğu için modeller hakkında ayrıntılı bilgi almaktan çekinmeyin. Bu yardımcı olur umarım.


Merhaba Amen Sorduğum tüm modeller için büyük özlü açıklamalar. Doğrusal modellerle ilgili sorunlar benim için hala net değil: Doğrusal modeller aynı boyutta k-NN ve k-Means modellerinden daha iyi veya daha kötü performans gösteriyor mu? Ve eşdoğrusallığın doğrusal modeller için bir sorun olduğunu söylediğinizde, hiç (ya da minimal) eşzamanlılık olmadan, yüksek boyutların doğrusal modellerle ilgili bir sorun olmadığını ima ediyor musunuz?
Dileep Kumar Patchigolla

Doğrusal modellerin keyfi bir problem için k-nn veya k-araçlarından daha iyi performans gösterip göstermediğini belirlemek zordur. Sorununuz doğrusal olarak ayrılabilirse, bahislerimi doğrusal modele koyarım, alanınız biraz daha karmaşıksa, k-nn ile giderdim. Eşitsizlik boyutsallık laneti sorununu daha da kötüleştirir, kollektiflik olmasa bile boyutsallık laneti hala geçerlidir. K-araçları, her ikisi de komşu tahrikli olduğu için k-nn ile aynı ölçüde acı çekmeli ve genellikle aynı mesafe fonksiyonunu kullanmalıdır. Gerçekte, KOİ'nin ne kadar kötü olduğunu ölçmek zordur. Bu yardımcı olur umarım!
Armen Aghajanyan

Boyutsallığın laneti (CoD) tanımınız nedir? Cevabınız doğrusal modellerin CoD'den en çok acı çektiğini gösteriyor, bu yanıltıcı: küresel bir yöntem olarak, doğrusal modeller KNN gibi yerelleştirilmiş yöntemlerden çok daha az acı çekiyor.
Matifou
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.