Regresyona dahil edilecek seyrek ana bileşen sayısının seçilmesi


9

Herhangi bir regresyon modeline dahil edilecek seyrek temel bileşenlerin sayısını seçme yaklaşımları konusunda deneyimi olan var mı?


Özellikle bu konuda deneyimim yok, ancak çapraz doğrulamanın iyi bir yaklaşım olacağını varsayıyorum (her zamanki gibi).
amip

Yanıtlar:


4

Sorunuzla ilgili doğrudan öngörülerim olmasa da , ilginizi çekebilecek bazı araştırma makaleleriyle karşılaştım . Tabii ki, seyrek PCA , temel bileşen regresyonu ve ilgili konular hakkında konuştuğunuzu doğru anlarsam . Bu durumda, işte kağıtlar:


1
Tüm bu referansları bilmiyordum. Çok iyi - teşekkürler.
Frank Harrell

@FrankHarrell: Çok hoş geldiniz! Yardımcı olduğuma sevindim.
Aleksandr Blekh

1

Çapraz doğrulama sonuçları ayrıca LSI alanı için optimal boyut sayısını belirlemek için kullanıldı. Çok az boyut, verilerin tahmin gücünden faydalanmadı; çok fazla boyut aşırı oturmaya neden oldu. Şekil 4, farklı sayıda LSI boyutuna sahip modeller için ortalama hataların dağılımını gösterir. Dört boyutlu LSI alanlarına sahip modeller, hem en az ortalama hata sayısını hem de en az ortalama hata sayısını üretti, bu nedenle son model dört boyutlu bir LSI alanı kullanılarak oluşturuldu.

http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=5876870&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D5876870

Ieee üyesi değilseniz bir kopya gönderebilirim.

Bu lisansta yazdığım bir makaleden. Lojistik regresyon modelimde kaç boyutun (Gizli Semantik Dizin Oluşturma PCA'ya benzer) karar vermem gerektiğinde bir sorun yaşadım. Yaptığım şey bir metrik (yani .5 işaretleme olasılığı kullanıldığında hata oranı) seçmekti ve farklı boyutlarda eğitilmiş farklı modeller için bu hata oranının dağılımına baktı. Daha sonra en düşük hata oranına sahip modeli seçtim. ROC eğrisinin altındaki alan gibi diğer metrikleri kullanabilirsiniz.

Sizin için boyut sayısını seçmek için aşamalı regresyon gibi bir şey de kullanabilirsiniz. Özellikle ne tür bir regresyon yapıyorsunuz?

Seyrek btw ile ne demek istiyorsun?


Seyrek PC, örneğin L1 (kement) -penalize PCA'dır. Sıradan PCA'da genellikle açıklanan varyasyon sırasına göre terimler girebiliriz. Seyrek PCA ile işler biraz daha düzensizdir, bu yüzden seçim belki de daha zordur.
Frank Harrell

Sorusu hakkında spesifik oldu seyrek temel bileşenler ve bu cevap (o iyi gibi) onu ele vermez hiç yüzden, -1.
amip

ile ilişkilere dayalı bileşenleri seçen aşamalı regresyon, özel ceza fonksiyonları dahil edilmedikçe aşırı sığmaya neden olacaktır. Y
Frank Harrell

@FrankHarrell, potansiyel olarak meydana gelebilir, ancak R kare yerine AIC kullanırsanız gerçekleşme olasılığı daha azdır
Andrew Cassidy

@ karışık
Andrew Cassidy
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.