PCA vs. LSA / LSI ne zaman seçilmeli


9

Soru:

PCA'nın LSA / LSI'ya uygulanması arasında karar vermek için kullanılabilecek giriş veri özellikleri ile ilgili genel yönergeler var mı?

PCA ve LSA / LSI hakkında kısa özet:

İlke Bileşen Analizi (PCA) ve Gizli Semantik Analiz (LSA) veya Gizli Semantik İndeksleme (LSI), hepsinin temel olarak Tekil Değer Ayrıştırma'nın (SVD) bir matrise uygulanmasına bağlı olması bakımından benzerdir.

LSA ve LSI, anlayabildiğim kadarıyla aynı şey. LSA, PCA'dan temelde farklı değildir, ancak SVD uygulanmadan önce matris girişlerinin ön işleme tabi tutulması açısından.

LSA'da önişleme adımı tipik olarak sütunların 'belgelere' ve satırların bir tür kelimeye karşılık geldiği bir sayım matrisinin normalleştirilmesini içerir. Girişler, bir çeşit (normalleştirilmiş) belge için kelime oluşumu olarak düşünülebilir.

PCA'da ön işleme aşaması, orijinal matristen kovaryans matrisinin hesaplanmasını içerir. Orijinal matris kavramsal olarak doğada LSA örneğinden daha 'genel' dir. PCA söz konusu olduğunda, sütunların genellikle jenerik örnek vektörlere atıfta bulunduğu ve satırların ölçülmekte olan bağımsız değişkenlere atıfta bulunduğu söylenir. Kovaryans matrisi tanım gereği kare ve simetriktir ve aslında SVD'nin uygulanması gerekli değildir, çünkü kovaryans matrisi köşegenleştirme yoluyla ayrıştırılabilir. Özellikle, PCA matrisi neredeyse kesinlikle LSA / LSI varyantından daha yoğun olacaktır - sıfır girişler sadece değişkenler arasındaki kovaryans sıfır olduğunda, yani değişkenlerin bağımsız olduğu yerde gerçekleşecektir.

Son olarak, ikisini ayırt etmek için oldukça sık yapılan bir tanımlayıcı nokta,

LSA, Frobenius normunda en iyi lineer alt alanı ararken PCA en iyi afin lineer alt alanı hedeflemektedir.

Her durumda, bu tekniklerin farklılıkları ve benzerlikleri internetler boyunca çeşitli forumlarda sıcak bir şekilde tartışılmıştır ve açıkça bazı belirgin farklılıklar vardır ve açıkça bu iki teknik farklı sonuçlar üretecektir.

Bu yüzden sorumu tekrarlıyorum: Girdi veri özellikleri ile ilgili olarak, PCA ile LSA / LSI arasında uygulama arasında karar vermek için kullanılabilecek genel kurallar var mı? Bir terim belgesi matrisine benzeyen bir şeyim varsa, LSA / LSI her zaman en iyi seçim olur mu? LSA / LSI için terim / doc matrisini hazırlayıp ardından sonuca PCA uygulayarak doğrudan SVD uygulamak yerine bazı durumlarda daha iyi sonuçlar almayı bekleyebilir misiniz?


1
LSA / LSI tanımınız bana yazışma analizine (CA) çok benziyor ve metin madenciliği kısaltması LSA'nın istatistiklerde CA'yı temsil ettiğinden şüpheleniyorum. CA ve PCA gerçekten çok yakından ilişkilidir.
ttnphns

Hey sadece bunun için bir cevap bulup bulamadığınızı bilmek istedim, aynı soruya sahibim.
Pushpendre

Ne yapmaya çalışıyorsun? Bu, hangisinin daha uygun olabileceği hakkında bir fikir verebilir. Hem dokümanlar hem de terimler açısından metin kalıpları ve anlamsal korelasyonlar veya daha düşük boyutlu bir gizli alan bulmak ister misiniz?
ui_90jax

Yanıtlar:


2

Fark ettiğim bir fark, PCA'nın size sadece terim veya Belge-Belge benzerliği verebilmesiydi (çekirdekleşme matrisini nasıl çarptığınıza bağlı olarak) AA veya AA) ancak SVD / LSA her ikisini de özvektörleriniz olduğundan her ikisini de teslim edebilir AA ve AA. Aslında PCA'yı SVD üzerinde kullanmak için bir neden göremiyorum.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.