Sorunuzun yorumunda belirttiğim gibi, ayrımcı analiz iki farklı aşamadan oluşan birleşik bir prosedürdür - boyutsallık azaltma (denetimli) ve sınıflandırma aşaması. Boyut azaltılmasında, orijinal açıklayıcı değişkenlerin yerini alan ayırt edici işlevler çıkarılır. Daha sonra gözlemleri (tipik olarak Bayes'in yaklaşımı ile) bu işlevleri kullanarak sınıflara ayırırız.
Bazı insanlar LDA'nın bu net iki aşamalı doğasını tanımakta başarısız olurlar, çünkü kendilerini sadece 2 sınıfla ( Fisher'in ayırt edici analizi olarak adlandırılır) LDA ile tanıştırmışlardır . Bu tür bir analizde, sadece bir ayrımcı işlev vardır ve sınıflandırma basittir ve bu nedenle her şey bir ders kitabında, alan azaltma ve Bayes sınıflandırma kavramlarını davet etmeden tek bir "geçişte" açıklanabilir.
LDA, MANOVA ile yakından ilişkilidir . İkincisi (çok değişkenli) lineer modelin bir "yüzey ve geniş" tarafı iken, "derinlik ve odaklanmış" resmi kanonik korelasyon analizidir (CCA). Mesele şu ki, çok değişkenli iki değişken kümesi arasındaki korelasyon tek boyutlu değildir ve kanonik değişkenler adı verilen birkaç "gizli" değişken ile açıklanmaktadır.
Olarak bir boyut indirgenmesi, LDA teorik olarak değişken iki grup, korelasyon "açıklayıcı" aralığı değişkenleri ve olmak için diğer bir dizi şeklindeki bir grubu olan bir CCA temsil (kodlanmış ya da diğer kontrast) yapay değişkenler k grupları, sınıflar gözlemler.k−1k
CCA'da, birbiriyle ilişkili iki X ve Y kümesini haklar bakımından eşit kabul ediyoruz. Bu nedenle her iki taraftan kanonik varyasyonları çıkarırız ve çiftler oluştururlar: X kümesinden 1 ve Y kümesinden 1'i maksimum aralarında kanonik korelasyon ile değiştiririz; daha sonra daha küçük bir kanonik korelasyon, vb. ile küme 2'den ve küme Y'den 2'ye değişir. LDA'da, genellikle sınıf kümesi tarafından kanonik değişkenlerle sayısal olarak ilgilenmiyoruz; bununla birlikte açıklayıcı tarafın kanonik değişkenlerine ilgi duyuyoruz. Bunlara kanonik ayrımcı işlevler veya ayrımcı denir .
pkmin(k−1,p)bkz. ).
Tekrarlamak gerekirse, bu aslında doğasında CCA'dır. 3+ sınıflı LDA'ya “kanonik LDA” denir. Buna rağmen CCA ve LDA , tipik olarak programın verimi görünümlerinde, biraz farklı algoritmik uygulanmaktadır, diğer elde edilenler üzerine bir prosedürde elde edilen (katsayılar gibi) "aynı" yeterli böylece sonuç yeniden hesaplamak mümkündür vardır. LDA özgüllüğünün çoğu, grupları temsil eden kategorik değişkenleri kodlama alanında yatmaktadır. Bu, (M) ANOVA'da görülen aynı ikilemdir. Farklı kodlama şemaları, katsayıların farklı yorumlama yollarına yol açar.
LDA (boyutsallık azalması olarak) belirli bir CCA vakası olarak anlaşılabildiğinden, CCA'yı PCA ve regresyon ile karşılaştıran bu cevabı kesinlikle araştırmanız gerekir . Ana nokta, CCA'nın bir anlamda regresyona PCA'dan daha yakın olmasıdır, çünkü CCA denetimli bir tekniktir (harici bir şeyle korelasyon için gizli bir doğrusal kombinasyon çizilir) ve PCA değil (gizli bir doğrusal kombinasyon çizilir iç kısaltmak). Bunlar boyutsallığın azaltılmasının iki kolu.
Matematik söz konusu olduğunda, temel bileşenlerin varyanslarının veri bulutunun özdeğerlerine (değişkenler arasındaki kovaryans matrisi) karşılık gelmesine rağmen, ayrımcıların varyanslarının, üretilen özdeğerlerle o kadar açık bir şekilde ilişkili olmadığını görebilirsiniz. LDA. Bunun nedeni, LDA'da özdeğerlerin veri bulutunun şeklini özetlememesidir; bunun yerine, buluttaki sınıflar arası sınıf içi varyasyon oranının soyut miktarıyla ilgilidirler .
Dolayısıyla, temel bileşenler varyansı en üst düzeye çıkarır ve ayrımcılar sınıf ayrımını en üst düzeye çıkarır; bir bilgisayarın sınıflar arasında yeterince iyi bir şekilde ayrım yapamaması, ancak bir ayrım yapabileceği basit bir durum bu resimlerdir. Ne zaman çekilmiş genellikle dik görünmüyor orijinal özellik uzay Diskriminatları çizgiler olarak (yine de, ilintisiz olmak), ancak PC'ler yapmak.
Titizlik için dipnot . Sonuçlarında, LDA'nın CCA ile tam olarak nasıl ilişkili olduğu . Tekrarlamak için: p
değişkenler ve k
sınıflar ile LDA yaparsanız ve bu p
değişkenler olarak Set1 ile CCA ve k-1
grupları temsil eden gösterge kukla değişkenler olarak Set2 (aslında, mutlaka değişkenleri göstermez - sapma veya Helmert gibi diğer kontrast değişkenleri - ), daha sonra sonuçlar Set1 için ekstrakte edilen kanonik değişkenlerle ilgili olarak eşdeğerdir - doğrudan LDA'da çıkarılan ayırt edici fonksiyonlara karşılık gelir. Tam ilişki nedir?
jj
CCA standart katsayısıLDA ham katsayısı= CCA standart değişken değeriLDA ayırıcı değeri= varyantta sınıf varyansı içinde toplanmış ayrımcı sınıf içi varyans içinde toplanmış---------------------------√
n-1
1
sınıf varyansı içinde varyant içinde toplanmış---------------------------------√
st. ayrımcılığın sapmasıσ
CCA ve LDA arasındaki fark, LDA'nın sınıflar (gruplar) olduğunu "bilmesi" nedeniyledir: dağılım matrisleri içinde ve arasında hesaplanacak grupları doğrudan belirtirsiniz. Bu, hem hesaplamaları daha hızlı hale getirir hem de ayrımcıların daha sonraki sınıflandırmaları için daha uygun sonuçlar verir . Öte yandan CCA, sınıfların farkında değildir ve verileri sürekli değişkenler gibi işlemektedir - bu daha genel ancak daha yavaş bir hesaplama yöntemidir. Ama sonuçlar eşdeğerdir ve nasıl olduğunu gösterdim.
Şimdiye kadar, k-1
aptalların CCA'ya tipik bir şekilde girildiği, yani ortalandığı (Set1 değişkenleri gibi) ima edildi . Birisi, tüm k
mankenlere girmek ve onları ortalamamak (tekillikten kaçmak) mümkün mü? Evet, muhtemelen daha az uygun olsa da mümkündür. Sıfır özdeğer ek kanonik değişken görünecektir, bunun katsayıları atılmalıdır. Diğer sonuçlar geçerliliğini korur. Kanonik korelasyonların önemini test etmek için df'ler hariç . 1. korelasyon için Df p*k
yanlış olacaktır ve gerçek df, LDA'da olduğu gibi p*(k-1)
.