LDA karar sınırını hesaplayın ve grafiğini çizin


19

İstatistiksel Öğrenmenin Unsurları'nın karar sınırları olan bir LDA (doğrusal ayrımcı analiz) planı gördüm :resim açıklamasını buraya girin

Verilerin daha düşük boyutlu bir alt uzaya yansıtıldığını anlıyorum. Bununla birlikte, karar sınırlarını daha düşük boyutlu bir alt uzaya yansıtabilmem için orijinal boyuttaki karar sınırlarını nasıl aldığımızı bilmek istiyorum (yukarıdaki resimde siyah çizgileri sever).

Orijinal (yüksek) boyutta karar sınırlarını hesaplamak için kullanabileceğim bir formül var mı? Evet ise, bu formülün hangi girdilere ihtiyacı vardır?


3
Karar sınırlarından ziyade, muhtemelen sınıf üyeliğinin posterior olasılıklarını göz önünde bulundurmada daha fazla fayda bulacaksınız. Bu, politom (multinomial) lojistik regresyon kullanılarak daha az varsayımla yapılabilir, ancak LDA (posterior olasılıklar) ile de yapılabilir.
Frank Harrell

2
LDA içinde, bu sınıflandırma sınırları bölgesel harita olarak bilinen şeyi oluşturur . SPSS ile çalışıyorum ve metin biçiminde olmasına rağmen çiziyor . Bir SPSS tasarımcısına göre , sınırlar pratik bir yaklaşımla kolayca bulunabilir:
ttnphns

3
(devam) ince bir ızgaranın her noktası LDA olarak sınıflandırılır ve daha sonra bir nokta komşuları olarak sınıflandırılırsa bu nokta gösterilmez. Böylece sonunda sadece “belirsizlikler” olarak sınırlar kalır. Citation: they (bondaries) are never computed. The plot is drawn by classifying every character cell in it, then blanking out all those surrounded by cells classified into the same category.
ttnphns

Yanıtlar:


22

Hastie ve ark. sınıf sınırları denklemleri hesaplanmadan üretilmiştir. Bunun yerine, yorumlarda @ttnphns tarafından belirtilen algoritma kullanılmıştır, bkz. Bölüm 4.3, sayfa 110, dipnot 2:

Bu şekil ve kitaptaki birçok benzer figür için karar sınırlarını kapsamlı bir şekillendirme yöntemiyle hesaplıyoruz. Karar kuralını ince bir nokta kafesinde hesaplıyoruz ve sonra sınırları hesaplamak için konturlama algoritmaları kullanıyoruz.

Ancak, LDA sınıfı sınırlarının denklemlerinin nasıl elde edileceğini açıklamaya devam edeceğim.

Basit bir 2D örnekle başlayalım. İşte Iris veri kümesinden veriler ; Petal ölçümlerini atıyorum ve sadece sepal uzunluğu ve sepal genişliği dikkate alıyorum. Üç sınıf kırmızı, yeşil ve mavi renklerle işaretlenmiştir:

İris veri kümesi

Sınıf araçlarını (centroids) . LDA tüm sınıfların sınıf içi aynı kovaryansa sahip olduğunu varsayar; veriler göz önüne alındığında, bu paylaşılan kovaryans matrisi (ölçeklendirmeye kadar) , burada toplam tüm veri noktalarının üzerindedir ve ilgili sınıfın centroidi her noktadan çıkarılır.μ1,μ2,μ3W=i(xiμk)(xiμk)

Her sınıf çifti için (örneğin sınıf ve ) aralarında bir sınıf sınırı vardır. Sınırın iki sınıf sentroidi arasındaki orta noktadan geçmesi gerektiği açıktır . Merkezi LDA sonuçlarından biri, bu sınırın dik düz bir çizgi . Bu sonucu elde etmenin birkaç yolu vardır ve sorunun bir parçası olmasa da, aşağıdaki Ekte bunlardan üçüne kısaca değineceğim.12(μ1+μ2)/2W1(μ1μ2)

Yukarıda ne yazılı olduğunu Note zaten sınırın kesin şartname. Eğer standart biçiminde bir çizgi denklemine sahip olmak isterse , ve katsayıları hesaplanabilir ve bazı dağınık formüllerle verilecektir. Bunun gerekli olacağı bir durumu hayal bile edemiyorum.y=ax+bab

Şimdi bu formülü İris örneğine uygulayalım. Her sınıf çifti için bir orta nokta buluyorum ve dik bir çizgi :W1(μiμj)

İris veri kümesinin LDA'sı, karar sınırları

Beklendiği gibi üç çizgi bir noktada kesişir. Karar sınırları kesişim noktasından başlayarak ışınlar tarafından verilir:

İris veri kümesinin LDA'sı, nihai karar sınırları

Sınıf sayısı , o zaman çift ​​sınıf ve çok sayıda satır olacağını ve bunların hepsinin karışık bir karmaşa içinde kesiştiğini unutmayın. Hastie ve arkadaşlarından olduğu gibi güzel bir resim çizmek için, sadece gerekli segmentleri tutmanız gerekir ve bu kendi içinde ayrı bir algoritmik problemdir (herhangi bir şekilde LDA ile ilgili değildir, çünkü bunu yapmak gerekmez) bir noktayı sınıflandırmak için ya her sınıfa Mahalanobis mesafesini kontrol edin ve en düşük mesafeye sahip olanı seçin ya da bir seri ya da çift LDA kullanın).K2K(K1)/2

İçinde boyutları, formül kalır aynı : sınırıdır ortogonal ve geçer . Bununla birlikte, daha yüksek boyutlarda bu artık bir çizgi değil, boyutlarının bir hiper düzlemidir . Örnekleme amacıyla, veri kümesini ilk iki ayırıcı eksene yansıtabilir ve böylece problemi 2D kasaya indirebilir (Hastie ve arkadaşlarının bu rakamı üretmek için yaptıklarına inanıyorum).D>2W1(μ1μ2)(μ1+μ2)/2D1

apandis

Sınırın dik düz bir çizgi olduğunu nasıl görebilirim ? Bu sonucu elde etmenin birkaç olası yolu:W1(μ1μ2)

  1. Süslü yol: uçakta Mahalanobis metriğini indükler; bu metrik olan sınır ile dik olmalıdır .W1μ1μ2

  2. Standart Gauss yol: her iki sınıf Gauss dağılımları, daha sonra bir noktaya, bu günlük-olabilirlik ile tarif edilir ise sınıf ait ile orantılıdır . Sınırda, sınıf ve ait olma olasılıkları eşittir; yazın, basitleştirin ve hemen , QED.xk(xμk)W1(xμk)12xW1(μ1μ2)=const

  3. İşbirliği yaratan ama sezgisel bir yol. bir kimlik matrisi, yani tüm sınıfların küresel olduğunu düşünün . O zaman çözüm açıktır: sınır sadece . Eğer sınıflar küresel değilse, o zaman onları küreyle bu şekilde yapabilirsiniz. Ve eigen-bozunma ise olan , daha sonra matris hile yapacak (örneğin buraya bakınız ). uygulandıktan sonra sınır . Bu sınırı alırsak,μ 1 - μ 2 W B = U D uS = D - 1 / 2 uS S ( μ 1 - μ 2 ) S - 1 SS ( μ 1 - μ 2 ) SWμ1μ2WW=UDUS=D1/2USS(μ1μ2)S1 ve şimdi neyin dikey olduğunu sorun, cevap (alıştırma olarak bırakılır): to . ifadesini QED elde ederiz.SS(μ1μ2)S


Cevabını incelemedim. Sofistike görünüyor ve doğru olabilir. Bir yorumda özetlediğim pratik ve daha kolay "noktaları serpin, sınıflandırın, sonra sınırları kesinleştirin" yaklaşımı nedir? Yaklaşımınız sonuçlarıyla karşılaştırılabilir mi (ki bu kesinlikle doğru)? Ne düşünüyorsun?
ttnphns

1
@ttnphns: Cevabımın tek teknik kısmı (3 maddeden oluşan numaralı bir liste) bazı kanıtlar sağlayarak güvenli bir şekilde atlanabilir. Gerisi, sanırım, özellikle sofistike değil! Belki de bu "ekstra" kısmı bir ek olarak aşağı taşımalıyım? Yorumlarınızla ilgili olarak: Bunun geçerli bir yaklaşım olduğunu düşünüyorum ve ASCII'nin SPSS "bölgesel haritasının" görünümünü beğendim. Belki yorumlarınızı ayrı bir cevaba taşıyabilirsiniz (ve SPSS haritasının örnek bir resmini verebilirsiniz), bence gelecekteki referanslar için yararlı olacaktır. Sonuçlar elbette eşdeğer olmalıdır.
amip diyor Reinstate Monica

@ttnphns: Görünüşe göre Hastie ve ark. OP'de üretilenler de dahil olmak üzere, figürlerini çizmek için tam olarak burada tarif ettiğiniz yöntemi kullandı. Tam olarak söyleyen bir dipnot buldum (ve cevabımı güncelledim, başlangıçta alıntıladım).
amip diyor Reinstate Monica

Waouh! mükemmel cevap (3 yıl sonra!) Bu sorundaki segmentleri nasıl çizmeniz gerektiğini sorabilir miyim?
Xavier Bourret Sicotte
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.