Tekil değer ayrışmasının anlamı nedir?


9

Boyut küçültmenin neden önemli olduğunu anlamıyorum. Bazı verileri almanın ve boyutlarını azaltmanın faydası nedir?


3
Sorunun tonu yapıcı cevapları davet etmiyor. Lütfen sorunuzu yeniden yazmayı düşünün.
Sasha

2
Buradaki nokta, belirli bilgileri hafif bir doğruluk kaybı (örneğin JPEG görüntü sıkıştırma) pahasına saklamak için gereken veri hacmini azaltmak olabilir.
Sasha

2
Yorumlarınız için teşekkür ederim, @Sasha. Bu makul bir soru, bu yüzden orijinal ifadeler tarafından iletilen küntlük (kesinlikle istenmeyen) izlenimini önlemek için küçük bir düzenleme yaptım.
whuber


Olasılıksal DEĞİL konu modelleme için SVD yaparsınız. Olasılıksal konu modellemesi için LDA kullanın. Konu modellemesi YAPMADIysanız PCA kullanın.
Brad

Yanıtlar:


18

Tekil değer ayrışması (SVD), verilerin boyutsallığını azaltmakla aynı şey değildir. Bir matrisi, buraya girmeyeceğim birçok harika özelliğe sahip diğer matrislere ayrıştırma yöntemidir. SVD hakkında daha fazla bilgi için Wikipedia sayfasına bakın .

Verilerinizin boyutsallığını azaltmak bazen çok yararlı olabilir. Gözlemlerden çok daha fazla değişkeniniz olabilir; bu genomik çalışmada nadir değildir. Çok az ilişkili birkaç değişkenimiz olabilir, örneğin az sayıda altta yatan faktörden büyük oranda etkilendiklerinde ve altta yatan faktörlere biraz yaklaşmak istiyoruz. Temel bileşen analizi, çok boyutlu ölçekleme ve kanonik değişken analizi gibi boyut azaltıcı teknikler, gözlemler ve / veya başka türlü elde edemeyeceğimiz değişkenler arasındaki ilişkiler hakkında bize fikir verir.

Somut bir örnek: Birkaç yıl önce üzerinde 100'den fazla soru olan bir çalışan memnuniyeti anketini analiz ediyordum. Eh, hiçbir yönetici, özetlenmiş bile olsa 100'den fazla soruya cevap bulamayacak ve hepsinin ne anlama geldiğini tahmin etmekten daha fazlasını yapamayacak, çünkü cevapların nasıl ilişkili olduğunu ve onları neyin yönlendirdiğini kim söyleyebilir? ? 10.000'den fazla gözlem yaptığım veriler üzerinde bir faktör analizi yaptım ve tümüyle özetleyecek olan yöneticiye özgü puanlar (her faktör için bir tane) geliştirmek için kullanılabilecek çok açık ve kolayca yorumlanabilen beş faktör buldum. 100+ soru anketi. Sonuçları raporlamanın önceki yöntemi olan Excel elektronik tablo dökümünden çok daha iyi bir çözüm!


Boyutsallığı azaltmak için "ince SVD" adı verilen bir yöntem kullanılır. SVD'de Wikipedia'ya bakın.
cyborg

5

Sorunun önem derecesine ilişkin olarak, bir veri kümesi için boyut azalmasının faydaları şunlar olabilir:

  • gereken depolama alanını azaltın
  • hesaplamayı hızlandırmak (örneğin makine öğrenme algoritmalarında), daha az boyut, les computing anlamına gelir, ayrıca daha az boyut, çok sayıda boyut için uygun olmayan algoritmaların kullanımına izin verebilir
  • gereksiz özellikleri kaldırın, örneğin bir arazinin boyutunu hem metrekare hem de metrekare olarak depolamanın bir anlamı yoktur (belki de veri toplama kusurludur)
  • bir verinin boyutunu 2B veya 3B olarak azaltmak, onu çizmemize ve görselleştirmemize, belki de kalıpları gözlemlememize, içgörü kazandırmamıza izin verebilir

Bunun dışında, PCA'nın ötesinde, SVD'ler Sinyal İşleme, NLP ve daha birçok uygulamada


2

Bir göz atın bu cevabın benim. Tekil değer ayrışması, çok faydalı ve çok güçlü bir veri analizi tekniği olan temel bileşenler analizinin önemli bir bileşenidir .

Genellikle yüz tanıma algoritmalarında kullanılır ve günlük işimde bir hedge fon analisti olarak sık sık kullanıyorum.


1
SVD ve PCA (ilişkili olduğu sürece) farklı prosedürler değil mi?
B_Miner

2
Haklısın. SVD, PCA problemine bir çözüm elde etme yöntemidir.
bayerj

1
@B_Miner Evet - bu yüzden svd'nin pca'nın önemli bir bileşeni olduğunu söyledim . Pca'ya odaklandım çünkü soru boyut küçültme ile ilgilidir (bunun için pca uygun ve svd değil)
Chris Taylor

Belki de bileşen kelime seçimi @B_Miner'ı geçici olarak atmıştı. :)
kardinal
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.