Verileri neden sınıfların doğrusal olarak ayrılabildiği yüksek boyutlu bir özellik alanına dönüştürmek aşırı sığmaya yol açar?


10

SVM'ler ve doğrusal olarak ayrılamayan veriler hakkındaki bölümde kitabımda (Webb ve Wiley'in istatistiksel örüntü sınıflandırması) okudum:

Birçok gerçek dünya pratik probleminde sınıfları ayıran doğrusal bir sınır olmayacaktır ve optimal bir ayırma köprüsü arama problemi anlamsızdır. Biz, gelişmiş özelliklere vektörlerin kullanılması bile, , sınıflar doğrusal olarak ayrılabilir olduğu bir yüksek-boyutlu özelliği boşluğuna verileri dönüştürmek için, bu, veri ve bu yüzden zayıf genelleştirme kabiliyetinin aşırı uydurma yol açar.Φ(x)

Verileri neden sınıfların doğrusal olarak ayrılabildiği yüksek boyutlu bir özellik alanına dönüştürmek aşırı uyuma ve zayıf genelleme yeteneğine yol açar?

Yanıtlar:


8

@ffriend'in bu konuda iyi bir yazısı var, ancak genel olarak konuşursak, eğer yüksek boyutlu bir özellik alanına dönüşür ve oradan antrenman yaparsanız, öğrenme algoritması hiçbir şeyleri olmasa bile daha yüksek alan özelliklerini hesaba katmaya 'zorlanır'. orijinal verilerle ilgilidir ve hiçbir öngörücü nitelik sunmaz.

Bu, eğitim sırasında bir öğrenme kuralını uygun şekilde genelleştirmeyeceğiniz anlamına gelir.

Sezgisel bir örnek alın: Ağırlığı boydan tahmin etmek istediğinizi varsayalım. İnsanların ağırlıklarına ve yüksekliklerine karşılık gelen tüm bu verilere sahipsiniz. Genel olarak doğrusal bir ilişki izlediklerini söyleyelim. Yani, ağırlığı (W) ve yüksekliği (H) şöyle tanımlayabilirsiniz:

W=mHb

mb

Deneyimli bir biyolog olduğunuzu ve ilişkinin doğrusal olduğunu bildiğinizi varsayalım . Verileriniz yukarı doğru giden bir dağılım grafiğine benziyor. Verileri 2 boyutlu alanda tutarsanız, içinden bir çizgi sığacaksınız. O isabet olmayabilir tüm noktaları ama thats Tamam - Eğer ilişki doğrusal olduğunu biliyoruz ve yine iyi bir yaklaşım istiyoruz.

HH2H3H4H5H2+H7

ci

W=c1H+c2H2+c3H3+c4H4+c5H5+c6H2+H7

H2+H7

Bu nedenle, verileri körü körüne daha yüksek sipariş boyutlarına dönüştürürseniz, genelleme yapmama ve çok fazla takılma riski taşırsınız.


6

Diyelim ki, doğrusal regresyon kullanarak (aslında SVM'nin yaptığı hemen hemen budur) düzlükteki 2B nokta kümesine yaklaşan bir fonksiyon bulmaya çalışıyoruz. Aşağıdaki 3 görüntüde kırmızı çarpılar gözlemlerdir (antrenman verileri) ve 3 mavi çizgi regresyon için kullanılan farklı polinom derecelerine sahip denklemleri temsil eder.

resim açıklamasını buraya girin

İlk görüntü doğrusal denklem ile oluşturulur. Gördüğünüz gibi, noktaları oldukça kötü yansıtıyor. Buna uyumsuzluk denir , çünkü öğrenme algoritmasına çok az "özgürlük derecesi" (çok küçük derecede polinom) verdik. İkinci görüntü çok daha iyi - ikinci derecede polinom kullandık ve oldukça iyi görünüyor. Ancak, "serbestlik derecesini" daha da arttırırsak 3. görüntü elde ederiz. Oradaki mavi çizgi haçların arasından geliyor, ancak bu çizginin gerçekten bağımlılığı tanımladığına inanıyor musunuz? Ben öyle düşünmüyorum. Evet, eğitim seti öğrenme hatası (haçlar ve çizgi arasındaki mesafe) çok küçüktür, ancak bir gözlem daha eklersek (örneğin, gerçek verilerden), büyük olasılıkla hata, ikinci denklemi kullandığımızdan çok daha büyük olacaktır. görüntüsü. Bu etkiye aşırı takma denirxxx2x3. Kısacası, verilerinizi örneğin 10 bölüme ayırırsınız, bunlardan 9 tanesini eğitim için ve 1 tanesini doğrulama için alırsınız. Doğrulama setindeki hata, tren setindeki hatadan çok daha yüksekse, fazla abartı var demektir. Çoğu makine öğrenme algoritması, aşırı sığmanın üstesinden gelmeye izin veren bazı parametreler (örneğin SVM'deki çekirdek parametreleri) kullanır. Ayrıca, burada bir popüler bir kelime düzenlilestirme - algoritmasının modifikasyonu doğrudan anlamıyla o "çok yakından eğitim verileri uymayan" diyerek, optimizasyon süreci etkilediğini.

BTW, DSP'nin bu tür sorular için doğru site olduğundan emin değilim, muhtemelen CrossValidated'ı da ziyaret etmek isteyeceksiniz .


Andrew Ng'in Machine Learning hakkındaki video derslerinden ödünç alındı. Tabii sen değilsen Dr. Ng. Bu durumda laboratuvarınız için doktora öğrencisi mi arıyorsunuz? (Dersler, ilgilenenler için coursera.com adresinde bulunabilir)
CyberMen

@CyberMen: images.google.com'dan çalındı ​​:) Ama evet, gösterim Ng'inkine çok benziyor. Ve kesinlikle dersini (ve diğer makalelerini) makine öğrenimine giriş için öneririm.
ffriend

Bence DSP en azından diğer SE siteleri arasında bu tür sorular için doğru yer.
Gigili

2

Daha fazla okudun mu?

6.3.10 bölümünün sonunda:

Ancak, genellikle çekirdek parametreleri ayarlanmalıdır ve kötü bir seçim kötü genellemeye yol açabilir. Belirli bir sorun için en iyi çekirdek seçimi çözülmez ve örneğin belge sınıflandırması gibi belirli sorunlar için özel çekirdekler türetilir "

bu da bizi bölüm 6.3.3'e götürür:

" Kabul edilebilir çekirdekler , bir özellik alanında bir iç ürün olarak ifade edilebilir olmalı, yani Mercer'in koşullarını yerine getirmelidirler"

Çekirdek kendi oldukça zor bölgelerine göre, farklı bölümlerde yumuşatma gibi farklı parametreler uygulamak gereken büyük verilere sahip olabilirsiniz, ancak tam olarak ne zaman bilmiyorum. Bu nedenle böyle bir şeyi genellemek oldukça zordur.


Dediğim gibi "4.2.5 Destek vektör makineleri" ni okuyorum, hangi bölümden bahsettiğinizi bilmiyorum. Soruda bahsettiğim paragraftan sonraki paragrafta hiçbir şey olmadığı için, burada sormam daha iyi olur diye düşündüm.
Kasım'da Gigili

Maalesef, şu anda baktığım ve aynı bölümlere sahip olan Webb tarafından da İstatistiksel Desen Tanıma ile karıştırdım .
sigrlami
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.