Bayesian ve Fisher'ın lineer diskriminant analizine yaklaşımları


10

LDA yapmak için 2 yaklaşım, Bayesci yaklaşım ve Fisher yaklaşımı biliyorum .

Verilerin olduğunu varsayalım , burada , boyutlu tahmin edicidir ve , sınıflarının bağımlı değişkenidir .(x,y)xpyK

Tarafından Bayes yaklaşım , posterior hesaplamak , ve benzeri gibi Kitaplarda, olduğunu varsayalım , şimdi sınıfı için ayırıcı işlevimiz var , doğrusal olduğunu görebiliyorum fonksiyonu , yani tüm sınıfları için lineer ayırıcı fonksiyonlarımız var.

p(yk|x)=p(x|yk)p(yk)p(x)p(x|yk)p(yk)
p(x|yk)k
fk(x)=lnp(x|yk)+lnp(yk)=ln[1(2π)p/2|Σ|1/2exp(12(xμk)TΣ1(xμk))]+lnp(yk)=xTΣ1μk12μkTΣ1μk+lnp(yk)
fk(x)xKK

Bununla birlikte, ile Fisher yaklaşım ne proje deneyin için yeni özellikler en aza indirir çıkarmak için boyutlu bir alan içinde sınıf varyans ve en üst seviyeye çıkarır arası sınıf varyansı, izin projeksiyon matrisidir ki her bir sütun, bir çıkıntı olması ile yön. Bu yaklaşım daha çok boyut küçültme tekniğine benzer.xG(K1)W

Sorularım

(1) Bayesci yaklaşımı kullanarak boyut küçültme yapabilir miyiz? Yani, yeni için en büyük değeri veren ayırıcı işlevlerini bularak sınıflandırma yapmak için Bayesci yaklaşımı kullanabiliriz , ancak bu ayırıcı işlevler düşük boyutlu alt için kullanılabilir ? Tıpkı Fisher'in yaklaşımı yok.fk(x)xfk(x)x

(2) İki yaklaşım birbiriyle nasıl ilişkilidir? Aralarında herhangi bir ilişki görmüyorum, çünkü biri sadece değeri ile sınıflandırma yapabiliyor gibi görünüyor ve diğeri öncelikle boyut küçültmeyi hedefliyor.fk(x)

GÜNCELLEME

@ Amoeba sayesinde ESL kitabına göre şunu buldum: resim açıklamasını buraya girin

ve bu, Bayes teoremi artı aynı kovaryans matrisine sahip tüm sınıfların varlığını varsayarak doğrusal ayırıcı fonksiyon . Ve bu ayrımcı işlev, yukarıda yazdığım işlevinin AYNI .f k ( x )Σfk(x)

Boyut küçültme yapmak için 'yi projelendirme yönü olarak kullanabilir miyim ? Bundan emin değilim, çünkü AFAIK, boyut küçültme aralarında varyans analizi yaparak elde edilir . xΣ1μkx

TEKRAR GÜNCELLEME

Bölüm 4.3.3'ten, bu projeksiyonlar şu şekilde türetilmiştir:

resim açıklamasını buraya girin

ve elbette, sınıflar arasında ortak bir kovaryans varsayıyor, yani ortak kovaryans matrisi (sınıf içi kovaryans için)W , değil mi? Benim sorunum bu verilerden nasıl hesaplamak olduğunu ? Ben olurdu bu yana farklı sınıf içi kovaryans matrisleri ben hesaplamak çalışırsanız verilerden. Yani bunu yapmak zorunda mıyım havuz ortak bir tane elde etmek hep birlikte sınıf kovaryansını?K WWKW


1
Sorunuz iki şeyi karıştırıyor. Sanırım önceki sorunuzla ilgili sohbetimizi sindirmediniz . İlk önce tanımladığınız sınıflandırma için Bayesci yaklaşımdır ("LDA'ya Bayesli yaklaşım" değil). Bu yaklaşım (1) sınıflandırıcı olarak orijinal değişkenlerle veya (2) sınıflandırıcı olarak LDA'da elde edilen ayrımcılarla kullanılabilir. O zaman Fisher'ın yaklaşımı nedir?
ttnphns

1
(Devam) Peki, "Fisher LDA" basitçe K = 2 olan LDA'dır. Böyle bir LDA içinde sınıflandırma yaparken Fisher sınıflandırma yapmak için kendi formüllerini icat etti. Bu formüller K> 2 için de kullanılabilir. Sınıflandırma yöntemi günümüzde pek kullanılmamaktadır çünkü Bayes yaklaşımı daha geneldir.
ttnphns

1
@ttnphns, kafamı karıştırmamın nedeni, bu Bayesci yaklaşımı kullanarak LDA hakkında konuştuğum hemen hemen her kitabın LDA'yı üretken bir model olarak anlatması, gruplar arası varyans ve grup vairance oranından bahsetmemesi. .
avokado

1
@loganecolss: Cevabımı aşağıda gördün mü? Bu konuda herhangi bir sorunuz var mı? Biraz kafam karıştı, çünkü şimdi tekrar ne istediğini açıkladığımı düşündüm. "Arasında-varyans" yaklaşımı, eşit kovaryans varsayımı ile matematiksel olarak "Bayesci yaklaşıma" eşdeğerdir. İsterseniz bunu şaşırtıcı bir matematik teoremi olarak düşünebilirsiniz. Kanıt, Hastie'nin çevrimiçi olarak ücretsiz erişilebilen kitabında ve diğer bazı makine öğrenimi ders kitaplarında da verilmektedir. Bu yüzden "LDA yapmanın tek özgün yolunun" ne anlama gelebileceğinden emin değilim; bu iki özdeş yol.
amip

1
@loganecolss: İnan bana, eşdeğerler :) Evet, projeksiyonları türetebilmelisin, ancak ek bir eşit kovaryans matrisi varsayımına ihtiyacım var (cevabımda yazdığım gibi). Aşağıdaki yorumuma bakın.
amip

Yanıtlar:


11

Sadece kısa bir gayri resmi cevap vereceğim ve ayrıntılar için sizi İstatistiksel Öğrenmenin Unsurları bölüm 4.3'e yönlendireceğim .

Güncelleme: "Öğeler" , güncellemenizde yazdıklarınız da dahil olmak üzere tam olarak burada sorduğunuz soruları ayrıntılı olarak ele alıyor. İlgili bölüm 4.3 ve özellikle 4.3.2-4.3.3'tür.

(2) İki yaklaşım birbiriyle nasıl ilişkilidir?

Kesinlikle yaparlar. "Bayesian" yaklaşımı olarak adlandırdığınız yaklaşım daha geneldir ve yalnızca her sınıf için Gauss dağılımını varsayar. Olabilirlik fonksiyonunuz temelde Mahalanobis'ten her sınıfın merkezine olan mesafedir .x

Elbette her sınıf için doğrusal bir fonksiyonu olduğu konusunda haklısınız . Bununla birlikte, iki farklı sınıf için olasılık oranının (gerçek bir sınıflandırma gerçekleştirmek için kullanacağınız, yani sınıflar arasında seçim yapabileceğiniz) olduğuna dikkat edin - farklı sınıflar farklıysa bu oran cinsinden doğrusal olmayacaktır. kovaryans matrisleri. Aslında, eğer sınıflar arasında sınırlar çıkarsa, kuadratik hale gelirler, bu yüzden buna kuadratik ayrımcı analiz , QDA denir.xxx

Önemli bir içgörü, eğer bütün sınıflar aynı kovaryansa sahip olduğunu varsayarsa, denklemlerin büyük ölçüde basitleştirdiği yönündedir [ Güncelleme: eğer bunu baştan sona varsaydıysanız, bu yanlış anlaşılmanın bir parçası olabilir] . Bu durumda karar sınırları doğrusal hale gelir ve bu yüzden bu prosedüre doğrusal ayırıcı analiz, LDA denir.

Bu durumda formüllerin aslında Fisher'ın yaklaşımını kullanarak çalıştığı şeyle tamamen eşdeğer olduğunu anlamak için bazı cebirsel manipülasyonlar gerekir. Bunu matematiksel bir teorem olarak düşünün. Tüm matematik için Hastie'nin ders kitabına bakınız.

(1) Bayesci yaklaşımı kullanarak boyut küçültme yapabilir miyiz?

Eğer "Bayesci yaklaşım" ile her sınıfta farklı kovaryans matrisleri ile uğraşıyorsanız, hayır. En azından yukarıda yazdıklarım nedeniyle doğrusal bir boyutsal azalma (LDA'nın aksine) olmayacak.

Ancak, paylaşılan kovaryans matrisini varsaymaktan memnunsanız, evet, kesinlikle, çünkü "Bayesci yaklaşım" sadece LDA'ya eşdeğerdir. Ancak, Hastie , yazdığınız gibi tarafından doğru projeksiyonların verilmediğini (bunun ne anlama geldiğini bile anlamıyorum: bu projeksiyonlar , ve genellikle projeksiyon ile kastedilen, tüm sınıflardan tüm noktaları aynı düşük boyutlu manifolda yansıtmanın bir yoludur), ancak ilk önce , burada , sınıf centroids bir kovaryans matrisidir . k Σ - 1 M MΣ1μkkΣ1MMμk


1
+1. Ayrıca QDA istatistiklerinden söz eden cevabımla bağlantı kurabilirim . Stackexchange.com/a/71571/3277 .
ttnphns

Sorumu yanıtlama kısmı için +1 2). Aralarında varyans analizi yaparak , orijinal değişkenini yansıtmak ve bu ayrımcıları elde etmek için en iyi yönleri bulabileceğimi biliyorum . Şu anda mücadele ettiğim şey , bu projeksiyon yönlerini Bayes kullanarak, aradaki varyans oranına bakmadan bulabilir miyim ? X
avokado

@loganecolss: Dediğim gibi, ek olarak tüm sınıfların aynı kovaryans matrisine sahip olduğunu varsaymalısınız! Daha sonra Bayesian yaklaşımınız + bu varsayımla başlayarak standart LDA projeksiyonlarını elde edebilirsiniz. Fikir köşegenleştirmektir . Bu, İstatistiksel Öğrenmenin Unsurları, bölüm 4.3'te ayrıntılı olarak yazılmıştır. Σ
amip

Bu bölümü daha sonra okuyacağım. Söylediğiniz gibi, aynı kovaryans matrisine sahip tüm sınıfları varsayarsak, yazdığım bir fonksiyon türetebilirim , değil mi? Ve gerçekten de lineer bir fonksiyonudur , ve yorum göre, LDA izdüşüm matrisi olmalıdır? f k ( x ) x Σ - 1 μ kfk(x)fk(x)xΣ1μk
avokado

Ben bölüm 4.3 bir klip ekleyerek benim sonrası güncelleme
Avokado
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.