Bir sınıflandırma tekniği olan LDA'nın PCA gibi boyutsallık azaltma tekniği olarak nasıl işlev gördüğü


19

Bu makalede , yazar doğrusal diskriminant analizini (LDA) temel bileşen analizine (PCA) bağlar. Sınırlı bilgimle, LDA'nın PCA'ya nasıl benzediğini takip edemiyorum.

Her zaman LDA'nın lojistik regresyona benzer bir sınıflandırma algoritması olduğunu düşündüm. LDA'nın PCA'ya nasıl benzediğini anlamada bazı yardımları takdir edeceğim, yani boyutsallık azaltma tekniği nasıl.


2
LDA'ya sadece bir sınıflandırma tekniği demek doğru değildir. Kompozit, 2 aşamalı bir tekniktir: önce boyutsallığı azaltın, sonra sınıflandırın. Boyutsallık azalması olarak, PCA'nın aksine denetlenir. Sınıflandırma olarak, lojistik regresyondan farklı olarak marjinal olasılığı göz önünde bulundurur.
ttnphns

'Boyutsallık azaltma' teriminin sadece denetimsiz öğrenme yöntemleri, örneğin kümeleme ve artıklık analizi ile başa çıkmak için kullanılması açıktır. LDA kesinlikle gözetim altındadır, bu nedenle veri azaltmanın ilk adımında kullanılacak olsaydı aşırı uyum sağlayan bir önyargı yaratacaktır.
Frank Harrell

Daha eski çok benzer bir soru: stats.stackexchange.com/q/22884/3277 .
ttnphns

1
Frank, örneğin özellik seçimine ilişkin çeşitli stratejiler LDA'nın 1. aşamasında uygulanabilir (size karşı iğrenç olan kademeli yaklaşım dahil :-).
ttnphns

Yanıtlar:


22

Sorunuzun yorumunda belirttiğim gibi, ayrımcı analiz iki farklı aşamadan oluşan birleşik bir prosedürdür - boyutsallık azaltma (denetimli) ve sınıflandırma aşaması. Boyut azaltılmasında, orijinal açıklayıcı değişkenlerin yerini alan ayırt edici işlevler çıkarılır. Daha sonra gözlemleri (tipik olarak Bayes'in yaklaşımı ile) bu işlevleri kullanarak sınıflara ayırırız.

Bazı insanlar LDA'nın bu net iki aşamalı doğasını tanımakta başarısız olurlar, çünkü kendilerini sadece 2 sınıfla ( Fisher'in ayırt edici analizi olarak adlandırılır) LDA ile tanıştırmışlardır . Bu tür bir analizde, sadece bir ayrımcı işlev vardır ve sınıflandırma basittir ve bu nedenle her şey bir ders kitabında, alan azaltma ve Bayes sınıflandırma kavramlarını davet etmeden tek bir "geçişte" açıklanabilir.

LDA, MANOVA ile yakından ilişkilidir . İkincisi (çok değişkenli) lineer modelin bir "yüzey ve geniş" tarafı iken, "derinlik ve odaklanmış" resmi kanonik korelasyon analizidir (CCA). Mesele şu ki, çok değişkenli iki değişken kümesi arasındaki korelasyon tek boyutlu değildir ve kanonik değişkenler adı verilen birkaç "gizli" değişken ile açıklanmaktadır.

Olarak bir boyut indirgenmesi, LDA teorik olarak değişken iki grup, korelasyon "açıklayıcı" aralığı değişkenleri ve olmak için diğer bir dizi şeklindeki bir grubu olan bir CCA temsil (kodlanmış ya da diğer kontrast) yapay değişkenler k grupları, sınıflar gözlemler.k1k

CCA'da, birbiriyle ilişkili iki X ve Y kümesini haklar bakımından eşit kabul ediyoruz. Bu nedenle her iki taraftan kanonik varyasyonları çıkarırız ve çiftler oluştururlar: X kümesinden 1 ve Y kümesinden 1'i maksimum aralarında kanonik korelasyon ile değiştiririz; daha sonra daha küçük bir kanonik korelasyon, vb. ile küme 2'den ve küme Y'den 2'ye değişir. LDA'da, genellikle sınıf kümesi tarafından kanonik değişkenlerle sayısal olarak ilgilenmiyoruz; bununla birlikte açıklayıcı tarafın kanonik değişkenlerine ilgi duyuyoruz. Bunlara kanonik ayrımcı işlevler veya ayrımcı denir .

pkmin(k1,p)bkz. ).

Tekrarlamak gerekirse, bu aslında doğasında CCA'dır. 3+ sınıflı LDA'ya “kanonik LDA” denir. Buna rağmen CCA ve LDA , tipik olarak programın verimi görünümlerinde, biraz farklı algoritmik uygulanmaktadır, diğer elde edilenler üzerine bir prosedürde elde edilen (katsayılar gibi) "aynı" yeterli böylece sonuç yeniden hesaplamak mümkündür vardır. LDA özgüllüğünün çoğu, grupları temsil eden kategorik değişkenleri kodlama alanında yatmaktadır. Bu, (M) ANOVA'da görülen aynı ikilemdir. Farklı kodlama şemaları, katsayıların farklı yorumlama yollarına yol açar.

LDA (boyutsallık azalması olarak) belirli bir CCA vakası olarak anlaşılabildiğinden, CCA'yı PCA ve regresyon ile karşılaştıran bu cevabı kesinlikle araştırmanız gerekir . Ana nokta, CCA'nın bir anlamda regresyona PCA'dan daha yakın olmasıdır, çünkü CCA denetimli bir tekniktir (harici bir şeyle korelasyon için gizli bir doğrusal kombinasyon çizilir) ve PCA değil (gizli bir doğrusal kombinasyon çizilir iç kısaltmak). Bunlar boyutsallığın azaltılmasının iki kolu.

Matematik söz konusu olduğunda, temel bileşenlerin varyanslarının veri bulutunun özdeğerlerine (değişkenler arasındaki kovaryans matrisi) karşılık gelmesine rağmen, ayrımcıların varyanslarının, üretilen özdeğerlerle o kadar açık bir şekilde ilişkili olmadığını görebilirsiniz. LDA. Bunun nedeni, LDA'da özdeğerlerin veri bulutunun şeklini özetlememesidir; bunun yerine, buluttaki sınıflar arası sınıf içi varyasyon oranının soyut miktarıyla ilgilidirler .

Dolayısıyla, temel bileşenler varyansı en üst düzeye çıkarır ve ayrımcılar sınıf ayrımını en üst düzeye çıkarır; bir bilgisayarın sınıflar arasında yeterince iyi bir şekilde ayrım yapamaması, ancak bir ayrım yapabileceği basit bir durum bu resimlerdir. Ne zaman çekilmiş genellikle dik görünmüyor orijinal özellik uzay Diskriminatları çizgiler olarak (yine de, ilintisiz olmak), ancak PC'ler yapmak.


Titizlik için dipnot . Sonuçlarında, LDA'nın CCA ile tam olarak nasıl ilişkili olduğu . Tekrarlamak için: pdeğişkenler ve ksınıflar ile LDA yaparsanız ve bu pdeğişkenler olarak Set1 ile CCA ve k-1grupları temsil eden gösterge kukla değişkenler olarak Set2 (aslında, mutlaka değişkenleri göstermez - sapma veya Helmert gibi diğer kontrast değişkenleri - ), daha sonra sonuçlar Set1 için ekstrakte edilen kanonik değişkenlerle ilgili olarak eşdeğerdir - doğrudan LDA'da çıkarılan ayırt edici fonksiyonlara karşılık gelir. Tam ilişki nedir?

jj

CCA standart katsayısıLDA ham katsayısı=CCA kanonik değişken değeriLDA ayırıcı değeri=sınıf varyansı içinde varyant içinde toplanmış ayrımcı sınıf içi varyans içinde toplanmış

n-11

sınıf varyansı içinde varyant içinde toplanmış
st. ayrımcılığın sapmasıσ

CCA ve LDA arasındaki fark, LDA'nın sınıflar (gruplar) olduğunu "bilmesi" nedeniyledir: dağılım matrisleri içinde ve arasında hesaplanacak grupları doğrudan belirtirsiniz. Bu, hem hesaplamaları daha hızlı hale getirir hem de ayrımcıların daha sonraki sınıflandırmaları için daha uygun sonuçlar verir . Öte yandan CCA, sınıfların farkında değildir ve verileri sürekli değişkenler gibi işlemektedir - bu daha genel ancak daha yavaş bir hesaplama yöntemidir. Ama sonuçlar eşdeğerdir ve nasıl olduğunu gösterdim.

Şimdiye kadar, k-1aptalların CCA'ya tipik bir şekilde girildiği, yani ortalandığı (Set1 değişkenleri gibi) ima edildi . Birisi, tüm kmankenlere girmek ve onları ortalamamak (tekillikten kaçmak) mümkün mü? Evet, muhtemelen daha az uygun olsa da mümkündür. Sıfır özdeğer ek kanonik değişken görünecektir, bunun katsayıları atılmalıdır. Diğer sonuçlar geçerliliğini korur. Kanonik korelasyonların önemini test etmek için df'ler hariç . 1. korelasyon için Df p*kyanlış olacaktır ve gerçek df, LDA'da olduğu gibi p*(k-1).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.