LDA'yı ön işleme adımı olarak kullanırken özellikleri standartlaştırma


9

Boyutsallık azalması (veya PCA yoluyla boyutsallık azalmasından sonra dönüşüm) için çok sınıflı bir Lineer Diskriminant Analizi (veya bazen Birden Çok Diskriminant Analizi de okurum) kullanılıyorsa, genel olarak bir "Z skoru normalizasyonu" (veya standardizasyonu) özellikler tamamen farklı ölçeklerde ölçülseler bile gerekli değil mi? LDA, halihazırda normalleştirilmiş Öklid mesafelerini ima eden Mahalanobis mesafesine benzer bir terim içerdiğinden?

Bu yüzden sadece gerekli olmakla kalmayacak, aynı zamanda standartlaştırılmış ve standartlaştırılmamış özelliklere ilişkin bir LDA'dan sonraki sonuçlar tamamen aynı olmalıdır !?


1
in general a "Z-score normalization" (or standardization) of features won't be necessary, even if they are measured on completely different scalesHayır, bu ifade yanlış. LDA ile standardizasyon konusu, çok değişkenli yöntemlerde olduğu gibidir. Örneğin, PCA. Mahalanobis mesafesinin bu konuyla hiçbir ilgisi yoktur.
ttnphns

Teşekkürler, örneğin PCA'daki bu "standardizasyon sorunu" hakkında yorumda bulunmanız harika olurdu. Özellikler PCA için standartlaştırılmamışsa, bazı özellikler farklı bir ölçekte ölçülür ve bana tamamen farklı bileşen eksenleri verirse daha fazla katkıda bulunan (ağırlıklı) değil mi? Ve LDA için neden gerekli olmayacak? Sonuç (doğrusal ayrımcılar) farklı mı, değilse neden?

2
Standartlaştırdığınızda (yani ortalayın, sonra ölçeklendirin) aslında korelasyonları analiz edersiniz. Standartlaştırmazsanız, sadece merkez, aslında kovaryansları analiz edersiniz. Sonuçlar farklı olacaktır, bu normaldir, çünkü farklı verilerle uğraştığınız gibi. Bu gerçek seni endişelendirmemeli. İş parçacığı istatistiklerini okumaktan keyif alabilirsiniz . Stackexchange.com/q/62677/3277 .
ttnphns

2
@SebastianRaschka, amip: Yorumumu tekrar gözden geçirmeliyim The issue of standardization with LDA is the same as in any multivariate method. Aslında LDA (örneğin, PCA aksine) ile sonuçları gerekir değil sadece merkezli ettik (LDA içten hep özü Diskriminatları için, değişkenleri merkezleri) veya veri z standardize edip farklıdır.
ttnphns

2
(Devam) Özdeğerler, standartlaştırılmış katsayılar, yapı korelasyonları, ayırt edici puanlar - her şey aynı olacaktır. Sadece özvektörler farklı olacaktır. Standardizasyonun LDA'daki ana sonuçlar üzerinde hiçbir etkisinin olmamasının nedeni , LDA'nın (PCA'nın yaptığı gibi) büyüklüğüne sahip olan kovaryansın değil, Arasında-İçi kovaryans oranını ayrıştırmasıdır .
ttnphns

Yanıtlar:


13

Bu yanıtın kredisi, yukarıdaki yorumlarda her şeyi açıklayan @ttnphns'a gidiyor. Yine de, genişletilmiş bir cevap vermek istiyorum.

Sorunuza soru: Standart ve standart olmayan özelliklerle ilgili LDA sonuçları tamamen aynı mı olacak? --- cevap Evet . Önce gayri resmi bir argüman vereceğim ve sonra biraz matematikle devam edeceğim.

Bir balonun bir tarafında dağılım grafiği olarak gösterilen 2B veri kümesini düşünün (orijinal balon resmi buradan alınır ): Bir balon üzerinde LDA

Burada kırmızı noktalar bir sınıf, yeşil noktalar başka bir sınıf ve siyah çizgi LDA sınıfı sınırdır. Şimdi ölçeklendiriliyorx veya yeksenler balonun yatay veya dikey olarak gerilmesine karşılık gelir. Bu çizginin gerilmesinden sonra siyah çizginin eğimi değişecek olsa da, sınıfların tam olarak eskisi gibi ayrılabileceği ve siyah çizginin göreceli pozisyonunun değişmeyeceği sezgisel olarak açıktır. Her test gözlemi, gerilmeden önceki ile aynı sınıfa atanacaktır. Yani gerilmenin LDA sonuçlarını etkilemediği söylenebilir.


Şimdi, matematiksel olarak, LDA, özvektörlerini hesaplayarak bir dizi ayrımcı eksen bulur W1B, nerede W ve Bsınıf içi ve sınıflar arası dağılım matrisleridir. Eşdeğer olarak, bunlar genelleştirilmiş özdeğer probleminin genelleştirilmiş özvektörleridirBv=λWv.

Ortalanmış bir veri matrisi düşünün X sütunlardaki değişkenler ve satırlardaki veri noktaları ile, toplam dağılım matrisi şu şekilde verilir: T=XX. Verilerin standartlaştırılması, her bir sütunununXbelirli bir sayıya göre, yani ; burada , ölçekleme katsayılarına (standart sapmaların tersine) sahip çapraz bir matristir her sütun). Böyle bir yeniden ölçeklemeden sonra, dağılım matrisi şu şekilde değişecektir: ve aynı dönüşüm ve .Xnew=XΛΛTnew=ΛTΛWnewBnew

Let orjinal problemin bir özvektör olmak yaniBiz çarpın bu denklem ile ederse solda ve insert önce her iki tarafta , biz elde yani yaniv

Bv=λWv.
ΛΛΛ1v
ΛBΛΛ1v=λΛWΛΛ1v,
BnewΛ1v=λWnewΛ1v,
Λ1v, eskisi gibi tam olarak aynı özdeğer ile yeniden ölçeklendirildikten sonra bir özvektördür .λ

Böylece, ayırt edici eksen (özvektör tarafından verilen) değişecektir, ancak sınıfların ne kadar ayrıldığını gösteren özdeğer, tamamen aynı kalacaktır. Ayrıca, başlangıçta tarafından verilen bu eksende izdüşüm şimdi , yani tam olarak aynı kalacaktır (belki bir ölçeklendirme faktörüne kadar).XvXΛ(Λ-1v)=Xv


2
+1. Tüm hikayenin “ahlaki” tek merkezli verileri ve standart verileri arasındaki farkın tamamen özvektörlerde saçılmasıdır. Dolayısıyla, ayırt edici puanlar üretmek için veriler karşılık gelen özvektörlerle çarpıldığında , standardizasyonun etkisi iptal edilir. XXΛΛ
ttnphns
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.