Occam'ın Razor prensibi Makine öğreniminde nasıl çalışır?


11

Görüntüde gösterilen aşağıdaki soru yakın zamanda yapılan sınavlardan birinde sorulmuştur. Occam'ın Razor prensibini doğru anladığımdan emin değilim. Soruda verilen dağılımlara ve karar sınırlarına göre ve Occam'ın Tıraş Makinesi'ni takip eden her iki durumda da karar sınırı B olmalıdır. Çünkü Occam'ın Razor'una göre, karmaşık olandan ziyade iyi bir iş yapan daha basit sınıflandırıcıyı seçin.

Birisi anlayışımın doğru olup olmadığını ve seçilen cevabın uygun olup olmadığını ifade edebilir mi? Lütfen makine öğrenimine yeni başlayan biri olduğum için yardım et

soru


2
3.328 "Eğer bir işaret gerekli değilse, o zaman anlamsızdır. Occam'ın Razor'unun anlamı budur." Wittgenstein'dan Tractatus Logico-Philosophicus'tan
Jorge Barrios

Yanıtlar:


13

Occam'ın tıraş bıçağı prensibi:

Aynı ampirik riski (burada, eğitim hatası) olan iki hipoteze (burada, karar sınırları) sahip olmak, kısa bir açıklama (burada, daha az parametreye sahip bir sınır), uzun bir açıklamadan daha geçerli olma eğilimindedir.

Örneğin, hem A hem de B'nin sıfır eğitim hatası vardır, bu nedenle B (daha kısa açıklama) tercih edilir.

Egzersiz hatası aynı değilse ne olur?

A sınırında B'den daha küçük bir eğitim hatası varsa, seçim zorlaşır. "Açıklama boyutu" nu "ampirik risk" ile aynı olarak ölçmeli ve ikisini bir puanlama fonksiyonunda birleştirmeliyiz, sonra A ve B'yi karşılaştırmaya devam etmeliyiz . Bir örnek , ampirik riski (negatif ile ölçülen) birleştiren Akaike Bilgi Ölçütü (AIC) olacaktır. log olabilirliği) ve açıklama boyutu (parametre sayısı ile ölçülür) bir puan olarak.

Bir yan not olarak, AIC tüm modeller için kullanılamaz, AIC'ye de birçok alternatif vardır.

Doğrulama kümesiyle ilişki

Birçok pratik durumda, model daha düşük bir eğitim hatasına ulaşmak için daha fazla karmaşıklığa (daha büyük açıklama) doğru ilerlediğinde, AIC ve benzerleri bir doğrulama setiyle (modelin eğitilmediği bir set) değiştirilebilir. Doğrulama hatası (doğrulama setindeki model hatası) artmaya başladığında ilerlemeyi durdururuz. Bu şekilde, düşük eğitim hatası ile kısa açıklama arasında bir denge kurarız.


3

Occam Razor, Parsimony müdürünün eş anlamlısıdır. (KISS, Basit ve aptalca tutun.) Çoğu algos bu prensipte çalışır.

Yukarıdaki soruda basit ayrılabilir sınırlar tasarlanırken düşünülmelidir,

ilk resimde olduğu gibi D1 cevabı B'dir. 2 numuneyi ayıran en iyi çizgiyi tanımladığı için, a polinomdur ve aşırı uydurma ile sonuçlanabilir. (SVM kullansaydım bu çizgi gelirdi)

Şekil 2'de benzer şekilde D2 cevabı B'dir.


2

Veri uydurma görevlerinde Occam'ın ustura:

  1. İlk önce lineer denklemi deneyin
  2. (1) çok yardımcı olmazsa - daha az terim ve / veya daha küçük değişken dereceleri olan doğrusal olmayan bir tane seçin.

D2

Baçıkça kazanır, çünkü verileri güzelce ayıran lineer sınırdır. ("Güzel" nedir şu anda tanımlayamıyorum. Bu duyguyu deneyimle geliştirmelisiniz). Asınır yüksek derecede doğrusal değildir, bu da sinirli bir sinüs dalgası gibi görünür.

D1

Ancak bundan emin değilim. Asınır bir daire gibidir ve Bkesinlikle doğrusaldır. IMHO, benim için - sınır çizgisi ne daire segmenti ne de çizgi segmenti, - parabol benzeri bir eğri:

resim açıklamasını buraya girin

Ben bir C:-) tercih


Hala D1 için neden bir ara çizgi istediğinizden emin değilim. Occam'dan Razor, işe yarayan basit çözümü kullandığını söylüyor. Daha fazla veri yoksa B, verilere uyan son derece geçerli bir bölümdür. B'nin veri kümesine daha fazla eğri öneren daha fazla veri alırsak, argümanınızı görebiliyordum, ancak C istemek, işleyen doğrusal bir sınır olduğu için (1) noktanıza karşı çıkıyor.
Delioth

Olmadığı için boş alan çok gelen Bnoktaların sol dairesel küme doğru çizgi. Bu, gelen herhangi bir yeni rastgele noktanın soldaki dairesel kümeye atanma şansının çok yüksek olduğu ve sağdaki kümeye atanma şansının çok düşük olduğu anlamına gelir. Dolayısıyla, Bdüzlemde yeni rastgele noktalar olması durumunda çizgi en uygun sınır değildir. Ve verilerin rasgele göz ardı edilemez, çünkü genellikle her zaman rastgele bir nokta yer değiştirmesi vardır
Agnius Vasiliauskas

0

Occam'ın Razor prensibini doğru anladığımdan emin değilim.

İlk olarak Occam'ın tıraş makinesine hitap edelim:

Occam'ın tıraş makinesi [..] “daha ​​basit çözümlerin karmaşık olanlardan daha doğru olma olasılığının yüksek olduğunu” belirtmektedir. - Wiki

Ardından, cevabınızı ele alalım:

Çünkü Occam'ın Razor'una göre, karmaşık olandan ziyade iyi bir iş yapan daha basit sınıflandırıcıyı seçin.

Bu doğrudur, çünkü makine öğreniminde aşırı uydurma bir sorundur. Daha karmaşık bir model seçerseniz, sorununuzun gerçek davranışını değil test verilerini sınıflandırma olasılığınız daha yüksektir. Bu, yeni veriler üzerinde tahminler yapmak için karmaşık sınıflandırıcıyı kullandığınızda, basit sınıflandırıcıdan daha kötü olma ihtimali olduğu anlamına gelir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.