Regresyon amacıyla öngörücülerin boyutsallığını azaltmanın avantajı nedir?

Boyut küçültme regresyonu (DRR) veya denetimli boyut küçültme (SDR) tekniklerinin geleneksel regresyon tekniklerine (boyut küçültme olmadan) uygulamaları veya avantajları nelerdir? Bu teknik sınıfı, regresyon problemi için özellik setinin düşük boyutlu bir temsilini bulur. Bu tekniklerin örnekleri arasında Dilimli Ters Regresyon, Temel Hessian Yönleri, Dilimli Ortalama Varyans Tahmini, Çekirdek Dilimli Ters Regresyon, Temel Bileşenler Regresyonu vb.

Çapraz doğrulanmış RMSE açısından, eğer bir algoritma herhangi bir boyutsal azalma olmadan bir regresyon görevinde daha iyi bir performans sergiliyorsa, o zaman regresyon için boyutsallık azalmasının gerçek kullanımı nedir? Bu tekniklerin amacını anlayamıyorum.
Bu teknikler herhangi bir tesadüf için zaman ve mekan karmaşıklığını azaltmak için kullanılıyor mu? Bu birincil avantaj ise, bu teknikler kullanıldığında yüksek boyutlu veri kümeleri için karmaşıklığın azaltılmasına ilişkin bazı kaynaklar yardımcı olacaktır. Bunu bir DRR veya SDR tekniğinin kendisinin biraz zaman ve yer gerektirmesi gerçeğiyle tartışıyorum. Düşük SD veri setindeki bu SDR / DRR + Regresyon, yalnızca yüksek dim veri kümesindeki regresyondan daha mı hızlı?
Bu ortam sadece soyut ilgi dışında mı çalışıldı ve iyi bir pratik uygulaması yok mu?

Bir yan düşünce olarak: bazen özelliklerinin ve tepkisinin ortak dağılımının bir manifoldda yattığı varsayımları vardır . Bir regresyon problemini çözmek için manifoldu bu bağlamda gözlemlenen örnekten öğrenmek mantıklıdır. $X$ $Y$

— cenaze arabası
kaynak

Manifold öğrenmesi hakkında konuşuyorsunuz, böylece aşağıdaki blog yazısı

— kjetil b halvorsen

Yanıtlar:

Manifold hipotezine göre, verilerin düşük boyutlu bir manifoldda olduğu varsayılır; bunun anlamı, artık parazittir, bu nedenle boyutsallık azaltımınızı doğru yaparsanız, sinyali gürültüden ziyade modelleyerek performansı artırmalısınız. Bu sadece bir uzay ve karmaşıklık meselesi değil.

— Emre
kaynak

ancak SIR gibi tekniklerin boyutsallık azalmasından sonra sağlam bir temelde daha iyi performans gösterdiğini görmüyorum. Yanılıyorsam veya bir regresyon ayarında bu sinyali daha iyi bulabilen bir SDR / DDR tekniğini biliyorsanız, hangi tekniğin (adın) olduğunu bana bildirin.

— cenaze arabası

Elbette bu, regresyon algoritmasına ve verilerin gerçek boyutluluğuna bağlıdır. Özellikle SIR için konuşamıyorum, ancak burada MNIST veri kümesindeki çeşitli regresyon algoritmalarını karşılaştıran bir makale , ki bu düşük boyutlu. Belki bazı sıkıntılı verileri paylaşabilirsiniz, böylece insanlar bir çatlak alabilir.

— Emre

"Manifold hipotezi" nedir?

— amip

Yüksek boyutlu verilerin düşük boyutlu bir manifoldun yakınında yatma eğilimi olduğu hipotezi .

— Emre

Bu şeylerin sinir ağlarına ve doğrusal olmayan çok boyutlu ölçeklemeye benzer olup olmadığını merak ediyorum, çünkü "her yerde harika olmalı" ama pratikte daha sınırlı sayıda durumda iyi

— sonuç veriyor

Regresyonda boyutsallığın azaltılmasının amacı düzenlileştirme.

Listelediğiniz tekniklerin çoğu çok iyi bilinmemektedir; Temel bileşenler regresyonu (PCR) dışında bunların hiçbirini duymadım. Bu yüzden PCR hakkında cevap vereceğim, ancak aynı şeyin diğer teknikler için de geçerli olacağını umuyorum.

Buradaki iki anahtar kelime aşırı uyum ve düzenlileştirme . Uzun bir tedavi ve tartışma için sizi İstatistiksel Öğrenmenin Unsurları'na atıfta bulunuyorum , ama çok kısaca, çok fazla tahmin ediciniz ( ) varsa ve yeterli örnek ( ) yoksa , standart regresyonun verileri geçersiz kılacağı ve eğitim setinde iyi bir performans sergileyen, ancak aslında herhangi bir test setinde çok düşük performans gösteren bir model oluşturun. $p$ $n$

Aşırı bir örnekte, öngörücülerin sayısı örnek sayısını aştığında (insanlar bunu problemi olarak adlandırır), aslında herhangi bir yanıt değişkeni mükemmel bir şekilde sığabilir ve görünüşte performans elde edebilirsiniz. Bu açıkça saçmalık. $p>n$ $y$ $100\%$

Aşırı uydurma ile başa çıkmak için düzenli kullanımı kullanmak gerekir ve birçok farklı düzenleme stratejisi vardır. Bazı yaklaşımlarda kişi, tahmin edicilerin sayısını büyük ölçüde azaltmaya, problemi durumuna indirmeye ve daha sonra standart regresyon kullanmaya çalışır. Regresyonun temel bileşenleri tam olarak bunu yapar. Lütfen Unsurlar , bölüm 3.4-3.6'ya bakınız. PCR genellikle yetersizdir ve çoğu durumda diğer bazı düzenleme yöntemleri daha iyi performans gösterir, ancak anlaşılması ve yorumlanması kolaydır. $p\ll n$

PCR'ın da keyfi olmadığını unutmayın (örn. boyutlarını rastgele tutmak çok daha kötü performans gösterecektir). Bunun nedeni, PCR'nin çok çeşitli durumlarda iyi çalıştığı bilinen standart bir büzülme düzenleyici olan sırt regresyonuna yakından bağlı olmasıdır. Karşılaştırma için burada cevabım bakın: Sırt regresyonu ve PCA regresyonu arasındaki ilişki . $p$

Standart regresyona kıyasla bir performans artışı görmek için, çok fazla öngörücüye ve çok sayıda örneğe sahip olmayan bir veri kümesine ihtiyacınız vardır ve kesinlikle çapraz doğrulama veya bağımsız bir test seti kullanmanız gerekir. Herhangi bir performans artışı görmediyseniz, belki de veri kümenizin boyutları yeterli değildi.

İyi cevaplar ile ilgili konular:

— amip
kaynak

Yayınları göz önüne alındığında , bunu bildiğini varsaymak güvenlidir.

— Emre

Teşekkürler @Emre, OP'nin kim olduğu hakkında hiçbir fikrim yoktu. Soruyu yanlış anlamış olabilirdim, ama şimdi tekrar okuduktan sonra nasıl farklı yorumlayabileceğimi göremiyorum. Biri PCR pratik avantajı ne soruyor, o zaman cevap olduğunu regularization; PCR aslında en standart düzenleme yöntemlerinden biri olan sırt regresyonu ile yakından ilişkilidir.

— amip

Ancak Elements'ta bile , LASSO'nun zaten PCR'ı çoğu zaman attığı ve PCR'nin ana avantajının

p > n

$p > n$

— shadowtalker

@ ssdecontrol: Katılıyorum. Konsensüs, PCR'nin hemen hemen rekabetçi olmadığı ve neredeyse her zaman daha iyi yaklaşımlar olduğunu düşünüyorum. Bu aynı zamanda cevabımda yazdım (değil mi?), Ama soru özellikle öngörücülerin boyutsal olarak azaltılması ve amacının ne olabileceği ile ilgiliydi. Cevabım, amacın düzenlenme olmasıdır.

— amip

Anladım. Ancak, sezgisel çekiciliğine rağmen aslında düzenli olmanın en iyi yolu olmadığı göz önüne alındığında, sorunun özellikle yararlılığına meydan okumak için yüklendiğini kabul edebiliriz

— shadowtalker