LSA vs. PCA (belge kümeleme)


25

Belge kümelemede kullanılan çeşitli teknikleri araştırıyorum ve PCA (temel bileşen analizi) ve LSA (gizli anlamsal analiz) ile ilgili bazı şüphelerimi silmek istiyorum.

İlk şey - aralarındaki farklar nelerdir? PCA'da SVD ayrışmasının kovaryans matrisine uygulandığını biliyorum, LSA'da ise terim matrisi. Başka bir şey var mı?

İkincisi - belge kümeleme prosedüründeki rolü nedir? Şimdiye kadar okuduklarımdan, amaçlarının boyutsallığın azaltılması, gürültü azaltma ve terimler arasındaki ilişkileri temsile dahil etmektir. PCA veya LSA'nın uygulanmasından sonra, k-aracı veya aglomeratif yöntemler gibi geleneksel algoritmalar azaltılmış terim uzayına uygulanır ve kosinüs mesafesi gibi tipik benzerlik ölçümleri kullanılır. Yanılıyorsam lütfen beni düzeltin.

Üçüncüsü - PCA / LSA uygulanmadan önce TF / IDF terim vektörlerinin normalize edilip edilmediği önemli midir? Ve ondan sonra tekrar normalleşmeleri gerekir mi?

Dördüncü - diyelim ki LSA / PCA tarafından azaltılmış alan terimi üzerinde bazı kümelenmeler yaptım. Şimdi, sonuç kümelerine nasıl etiket atamalıyım? Boyutlar gerçek kelimelerle uyuşmadığından, bu zor bir konudur. Aklıma gelen tek fikir, her terim için orjinal terim vektörlerini kullanarak ve en ağırlıkları olan terimleri seçerek sentroidleri hesaplamaktır, ancak çok verimli gelmiyor. Bu problem için özel çözümler var mı? Hiçbir şey bulamadım.

Bu sorunları açıklığa kavuşturduğum için minnettar olacağım.


LSA veya LSI: aynı mı yoksa farklı mı? LSI'yi kastediyorsanız = gizli anlamsal indeksleme lütfen düzeltin ve standartlaştırın.
Nick Cox

3
LSI ve LSA iki farklı şey midir? Eşdeğer olduklarını düşündüm.
user1315305

1
Hiç bir fikrim yok; Önemli olan (lütfen) iki terimi değil bir şeyi bir terim kullanmaktır; Aksi halde sorunuzun anlaşılması daha zordur.
Nick Cox,

Tamam, bozukluğu düzelttim. İşaret ettiğiniz için teşekkür
ederim

3
Wikipedia , LSA'nın = LSI olduğu izlenimini veriyor. Ancak LSI yazışma analizidir (CA). CA, PCA gibi istatistiksel bir analiz terimi iken, LSI / LSA metin madenciliği terimidir. Öyleyse, PCA ve CA'yı karşılaştıran makaleleri arayın.
ttnphns

Yanıtlar:


8
  1. PCA ve LSA, SVD kullanan analizlerdir. PCA genel bir analiz sınıfıdır ve prensip olarak sayılan metin kuruma çeşitli şekillerde uygulanabilir. Buna karşılık LSA, metni açıkça analiz etmek ve azaltmak için çok açık bir şekilde tanımlanmış bir araçtır. Her ikisi de, anlamın bağlamdan çıkarılabileceği fikrinden yararlanıyor. LSA'da bağlam, bir terim belgesi matrisi aracılığıyla sayılarla sağlanır. PCA'da önerilen bağlam, kovaryans matrisi terimiyle (nesillerin detayları muhtemelen PCA'nız ve LSA arasındaki ilişki hakkında size daha fazla bilgi verebilecek olan detaylar) sağlanarak sağlanmıştır. Daha fazla ayrıntı için buraya bakmak isteyebilirsiniz .
  2. Burada temelde izlerin var. Kullanımlarının kesin nedenleri, verilerle oynayan kişinin bağlamına ve amaçlarına bağlı olacaktır.
  3. Cevap muhtemelen kullandığınız prosedürün uygulanmasına bağlı olacaktır.
  4. Dikkatli ve güzel sanatlarla. Çoğu, bu anlamsal modellerin boyutlarının yorumlanamaz olduğunu düşünmektedir. Neredeyse kesinlikle orada birden fazla boyutta bir boyut olmasını beklediğinizi unutmayın. Faktör analizinde birden fazla boyut olduğu zaman, birbiriyle ilişkili faktörleri elde etmek için faktör çözümünü döndürürüz. Ancak, bazı nedenlerden dolayı, bu genellikle bu modeller için yapılmaz. Yaklaşımınız sanatınıza başlamak için ilkeli bir yöntem gibi gözüküyor ... ancak boyutlar arasındaki ölçeklemenin bir küme analizi çözümüne güvenmek için yeterince benzer olduğundan emin olmasam da. Anlamla oynamak istersen, vektörlerin belirli sözcüklerle doğrudan bir ilişkiye sahip olduğu, örneğin HAL gibi daha basit bir yaklaşımı da düşünebilirsin .

6

PCI, kovaryans matrisi üzerinde hesaplanırken, LSI, belge matrisi teriminde hesaplanır; bu, LSI, veri setini tanımlamak için en iyi doğrusal alt alanı bulmaya çalışırken PCA en iyi paralel doğrusal alt alanı bulmaya çalışır.


4
Nick, en iyi doğrusal alt uzay ve en iyi paralel doğrusal alt uzay arasındaki fark hakkında daha fazla bilgi verebilir misin? Bu diklik ile mi ilgili? Bunları yeni bir soru olarak mı sormalıyım?
russellpierce

1
Hangi anlamda en iyisi? Yeniden yapılanma hatasının Frobinius normunu küçültmek? Bu durumda, bana PCA gibi kesin geliyor.
Andrew M

2

Russellpierce'in cevabına sadece bir uzantısı.

1) Temel olarak LSA, metin verilerine uygulanan PCA'dır. PCA için SVD kullanırken, kovaryans matrisine uygulanmaz, sadece LSA'daki sadece belge matrisi olan özellik örnek matrisine uygulanır. Aradaki fark, PCA'nın genellikle veriler için özellik bakımından normalleştirmeyi gerektirmesidir;

Bir var Andrew Ng güzel ders TBA ve LSA arasındaki bağlantılar gösterilmektedir.

2/3) Belge verileri çeşitli uzunluklarda olduğundan, genellikle büyüklüğü normalleştirmek yardımcı olur. Burada örnekleme normalizasyonu, özellikleme normalizasyonu kullanılmamalıdır. Uygulamada, LSI'dan önce ve sonra normalleşmeyi faydalı buldum.

Kümeleme algoritması metriği büyüklüğe bağlı değilse (kosinüs mesafesi), son normalizasyon adımı atlanabilir.

4) Bunun kümelerden anlamlı etiketler elde etmek için genel olarak zor bir sorun olduğunu düşünüyor. Bazı insanlar korpus ve küme arasındaki dağılım farkını en üst düzeye çıkaran terimler / ifadeler çıkarırlar. Başka bir yol, önceden denetlenmiş etiketlerle yarı denetimli kümelemeyi kullanmaktır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.