Bu durumda en az kare çözüm neden kötü sonuçlar veriyor?


21

Piskopos tarafından "Örüntü tanıma ve makine öğrenmesi" nin 4. bölümünde sayfa 204'te En Az kare çözümünün neden kötü sonuç verdiğini anlamadığım bir görüntü var:

görüntü tanımını buraya girin

Önceki paragraf, en küçük karelere sahip çözümlerin aşağıdaki resimde gördüğünüz gibi aykırılıklara karşı sağlam olmadıkları gerçeğiyle ilgiliydi, ancak diğer görüntüde neler olup bittiğini ve LS'nin neden kötü sonuçlar verdiğini anlamıyorum.

görüntü tanımını buraya girin


Bu kümeler arasındaki ayrımcılık üzerine bir bölümün bir parçası gibi görünüyor. İlk grafik çiftinizde, soldaki grafik açıkça üç nokta kümesi arasında ayrım yapmıyor. senin sorunun cevabı bu mu? Eğer değilse, netleştirebilir misiniz?
Peter Flom - Eski Monica

@PeterFlom: LS çözümü birincisi için kötü sonuçlar veriyor, nedenini bilmek istiyorum. Ve evet, tüm bölümün Doğrusal ayırma fonksiyonları ile ilgili olduğu, LS sınıflandırmasıyla ilgili bölümün son paragrafı.
Gigili

Yanıtlar:


6

3

Gelen ESL , sayfa 105 Şekil 4.2, fenomen denir maskeleme . Ayrıca bakınız ESL Şekil 4.3. En küçük kareler çözümü, diğer iki sınıf için öngörücüler tarafından çoğunlukla baskın olan orta sınıf için bir yordayıcının ortaya çıkmasına neden olur. LDA veya lojistik regresyon bu sorundan muzdarip değil. Biri, maskelemeye neden olan (olasılıkla en küçük karelerden elde ettiğiniz şeydir) lineer sınıf olasılık modelinin katı yapısı olduğunu söyleyebilir.

Yalnızca iki sınıfla fenomen oluşmaz ayrıca LDA çözümü ile iki sınıftaki en küçük kareler çözümü arasındaki ilişki hakkında ayrıntılı bilgi için bkz. ESL'deki 4.2.-

Düzenleme: Maskeleme iki boyutlu bir sorun için belki de en kolay şekilde görselleştirilir, ancak tek boyutlu durumda da bir problemdir ve burada matematiğin anlaşılması özellikle basittir. Tek boyutlu giriş değişkenlerinin aşağıdaki gibi sıralandığını varsayalım.

x1<...<xk<y1<...ym<z1<...<zn

ile 'in sınıfı 1, ' sınıfı iki gelen s ve 'aşağıdaki gibi verileri düzenli üç boyutlu ikili vektörleri gibi sınıflar için kodlama şeması ile birlikte sınıf 3'ten sxyz

1...10...00...0TT0...01...10...00...00...01...1xTx1...xky1...ymz1...zn

En küçük kareler çözümü, 'de deki sütunların her birinin üç regresyonu olarak verilir . İlk sütun için, sınıfı, eğim negatif olacaktır (tümü sol üsttedir) ve son sütun için sınıfı, eğim pozitif olacaktır. Orta sütun içinTxxzysınıfında, lineer regresyonun iki dış sınıf için sıfırları orta sınıftakilerle dengelemesi gerekecektir, bu da oldukça düz bir regresyon çizgisine ve bu sınıf için koşullu sınıf olasılıklarının özellikle zayıf bir uyumuna neden olur. Görünüşe göre, iki dış sınıf için regresyon çizgilerinin maksimumu, giriş değişkeninin çoğu değerleri için orta sınıf için regresyon hattına hükmeder ve orta sınıf dış sınıflar tarafından maskelenir .

görüntü tanımını buraya girin

Aslında, eğer ise, giriş değişkenlerinin yukarıdaki gibi sıralanıp sıralanmadığı bir sınıf her zaman tamamen maskelenecektir. Sınıf boyutlarının hepsi eşitse, üç regresyon çizgisinin tümü noktadan ; burada Bu nedenle, üç çizginin tümü aynı noktada kesişir ve en fazla ikisinin üçte biri hakimdir.k=m=n(x¯,1/3)

x¯=13k(x1+...+xk+y1+...+ym+z1+...+zn).

2

Aşağıda verilen bağlantıya dayanarak, LS
ayrımcısının sol üstteki grafikte iyi performans göstermemesinin nedenleri aşağıdaki gibidir: -Aşağıdakilere sağlamlık eksikliği.
- En küçük kareler sınıflandırması için uygun olmayan bazı veri setleri.
- Karar sınırı, Gauss koşullu dağılımı altındaki ML çözümüne karşılık gelir. Ancak ikili hedef değerlerin Gaussian'dan uzak bir dağılımı vardır.

En Küçük Karelerin Dezavantajları sayfa 13'e bakın .


1

İlk grafiğinizdeki sorunun "maskeleme" olarak adlandırıldığına inanıyorum ve "İstatistiksel Öğrenmenin Öğeleri: Veri madenciliği, çıkarım ve tahmin" (Hastie, Tibshirani, Friedman. Springer 2001), sayfa 83-84'te bahsedilmiştir.

Sezgisel (yapabileceğimin en iyisi) Bunun bir OLS regresyonunun tahminlerinin [0,1] ile sınırlı olmadığı, dolayısıyla gerçekten 0 gibi bir şey istediğinizde -0.33 öngörüsüyle sonuçlanabileceğine inanıyorum. İki sınıf durumunda inceltebileceğiniz 1, ancak ne kadar fazla sınıfa sahipseniz bu uyumsuzluk o kadar fazla sorun yaratır. Bence.


1

En küçük kareler ölçeğe karşı hassastır (çünkü yeni veriler farklı ölçeklerde olduğundan karar sınırını çarpıtacaktır), genellikle birinin ağırlık uygulamasına ihtiyacı vardır (optimizasyon algoritmasına girmek için kullanılan verinin aynı ölçekte olması gerekir) veya uygun bir dönüşüm gerçekleştirmesi gerekir. (ortalama merkez, log (1 + veri) ... vb) bu ​​gibi durumlarda veri. Bu, eğer en azından iki çıkış sınıfını birleştirmek ve bu durumda iki çıkış sınıfını birleştirmek için 3 sınıflandırma işlemi yapmasını istersen, En Az Meydanın mükemmel çalışacağı görülüyor.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.