CV / Bootstrap kullanarak makine öğrenim algoritmalarını çalıştırabilir misiniz?


34

Bu soru kesin bir cevap alamayacak kadar açık uçlu olabilir, ama umarım değil.

SVM, GBM, Rastgele Orman vb. Gibi makine öğrenmesi algoritmaları, genellikle bazı rehberlik kurallarının ötesinde, her bir veri setine ayarlanması gereken bazı ücretsiz parametrelere sahiptir. Bu genellikle, en iyi genelleme hatasını veren parametre setine uyması için bir çeşit yeniden örnekleme tekniği (önyükleme, CV vb.) İle yapılır.

Sorum şu ki, burada fazla ileri gidebilir misin? İnsanlar şebeke aramaları yapmaktan bahsediyorlar, ama neden bunu sadece bir optimizasyon problemi olarak ele almıyor ve mümkün olan en iyi parametre setini incelemiyorlar? Bu soruda bunun mekaniğinden bahsettim ama fazla ilgi görmedi. Belki de soru kötü bir şekilde sorulmuştu, ama belki de sorunun kendisi genellikle insanların yapmadığı kötü bir yaklaşımı temsil ediyor?

Beni rahatsız eden şey düzenlileşmenin olmaması. Bu veri seti için bir GBM'de yetişecek en fazla ağaç sayısının 647 olduğunu ve etkileşim derinliği 4 olan 647 olduğunu, ancak bunun yeni veriler için geçerli olacağından nasıl emin olabilirim (yeni popülasyonu varsayarak) Eğitim seti ile aynı mı? 'Küçültmek' için makul bir değer olmadan (veya yapacaksanız, önceden bilgilendirici hiçbir bilgi yoksa) yeniden örnekleme yapabileceğimizin en iyisine benziyor. Sadece bununla ilgili bir konuşma duymuyorum, bu yüzden eksik olduğum bir şey olup olmadığını merak ediyorum.

Açıkça görülüyor ki, bir modele ait son tahminde bulunma gücünün her bitini sıkmak için birçok yinelemenin yapılmasıyla ilgili büyük bir hesaplama maliyeti vardır, bu yüzden açıkça optimizasyonu yapmak için her zaman / huyunuz varsa yapabileceğiniz bir şeydir. performans iyileştirme değerlidir.


CV farklı şeyler için kullanılabilir. Açıkçası, 'şebeke arama' ya da 'hiperparametre ayarlama' derken, model seçiminden bahsediyorsunuz , özellik seçiminden değil , hatta sadece sınıflandırma hatasını tahmin ediyorsunuz .
smci

Yanıtlar:


30

Bu sorunun kesin bir cevabı var: "evet, çapraz onaylama temelli bir model seçim kriterini aşmak ve sonuçsuzca genelleşen bir modelle sonuçlanmak mümkün! ". Benim görüşüme göre, bu yaygın olarak kabul görmüyor gibi görünüyor, ancak makine öğrenme yöntemlerinin uygulanmasında kayda değer bir sorun ve mevcut araştırmamın ana odağı; Konuyla ilgili şu ana kadar iki bildiri yazdım

GC Cawley ve NLC Talbot, Model seçiminde aşırı uydurma ve performans değerlendirmesinde sonraki seçim önyargısı, Makine Öğrenimi Araştırma Dergisi, 2010. Research, vol. 11, sayfa 2079-2107, Temmuz 2010. ( www )

Bu, model seçiminde aşırı uygunluğun, makine öğreniminde önemli bir sorun olduğunu göstermektedir (ve performans değerlendirmesi sırasında model seçiminde köşeleri keserseniz ciddi şekilde önyargılı performans tahminleri alabilirsiniz) ve

GC Cawley ve NLC Talbot, Hiper parametrelerin Bayesian düzenlenmesi yoluyla model seçiminde aşırı uyumu önleme, Makine Öğrenimi Araştırma Dergisi, cilt 8, sayfa 841-861, Nisan 2007. ( www )

çapraz validasyona dayalı model seçim kriterinin model seçiminde aşırı uydurmayı denemek için düzenli olduğu (birçok hiper parametresi olan bir çekirdek kullanıyorsanız, bu önemli bir sorundur).

Şu anda şebeke arama tabanlı model seçimiyle ilgili bir yazı yazıyorum, ki bu, çok iyi seçilmiş bir ızgarayı kullanmanızın mümkün olduğunu gösterir. kaba ızgara (Bu, yığın araştırmasına bakmak için beni ilham alan StackExchange'teki bir soruydu).

Bu yardımcı olur umarım.

PS Tarafsız performans değerlendirmesi ve güvenilir model seçimi gerçekten hesaplamalı olarak pahalı olabilir, ancak benim deneyimime göre çok değerli. Dış çapraz doğrulamanın performans tahmini için kullanıldığı ve model seçimi için iç çapraz doğrulamanın kullanıldığı iç içe çapraz doğrulama iyi bir temel yaklaşımdır.


Mükemmel! Görünüşe göre bu belgeler tam olarak benim peşimde. Bunun için teşekkürler.
Bogdanovist

Makaleler hakkında herhangi bir sorunuz olursa bana bildirin (e-postayla - ilk yazarım ve e-posta adresim kağıdın üzerindedir).
Dikran Marsupial

@DikranMarsupial Model seçimi ve tren ile test setleri arasındaki örnekleme uyumsuzluğundan dolayı aşırı uyumu nasıl ayırt ediyorsunuz?
image_doctor

1
Prensip olarak, zemin gerçeğinin uygun olduğu sentetik bir veri kümesi kullanarak, o zaman hiçbir örnekleme uyuşmazlığı olmadığı için, ileri düzdür; Eğitim seti, altta yatan dağıtımdan sadece rastgele bir örnektir ve hatayı sınırlı bir örnek yerine dağıtımın kendisinden tahmin edebilirsiniz. Gerçek sözcük veri kümeleri için, AFAICS'in yönetebileceği en iyi şey, yeniden örnekleme kullanmak ve model seçim kriterinin birçok rastgele test / eğitim bölümü üzerinde aşırı uydurma etkilerini belirlemektir.
Dikran Marsupial

2
Maalesef reddedildi, ancak gözden geçirenleri (çok yararlı) yorumları göz önünde bulundurarak revize edeceğim ve başka bir dergiye tekrar göndereceğim.
Dikran Marsupial

7

Çapraz doğrulama ve önyükleme işleminin, neredeyse doğru olmayan ve bazı durumlarda çapraz doğrulama üzerinden önyükleme tarafından daha doğru bir şekilde hata oranı tahminleri verdiği gösterilmiştir. Yeniden ikame gibi diğer yöntemlerle ilgili sorun, sınıflandırıcıya uyacağınız aynı veri setindeki hatayı tahmin ederek, hata oranını büyük ölçüde hafife alabilmeniz ve çok fazla parametre içeren algoritmalara yönlendirilebilmesi ve gelecekteki değerleri kesin olarak tahmin etmeyecek olmasıdır. küçük bir parametre setine uyan bir algoritma. İstatistiksel yöntemleri kullanmanın anahtarı, sınıflandırıcıya yerleştirmek zorunda olduğunuz verilerin, gelecekte sınıfların eksik olduğu ve sınıflayıcı tarafından tahmin edilmesi gerektiği durumlarda göreceğiniz verilerin tipik olmasıdır. Gelecekteki verilerin çok farklı olabileceğini düşünüyorsanız, istatistiksel yöntemler yardımcı olamaz ve ben


Cevap için teşekkürler. Nüfustaki tren ve test setleri arasındaki değişiklikleri sormadığımı açıkça belirtmek için soruyu değiştirdim. Bunun, bu soru ile ilgilenmediğim tamamen farklı bir soru olduğunun farkındayım.
Bogdanovist

1
+1 Bu durumda, anlamsızlık esasen önemsizdir. Çapraz doğrulama tahminindeki varyans, bir problemden daha fazlası olabilir. Bir model seçim kriteri için, kriterin minimumunun genelleme hatasının minimumuna güvenilir bir şekilde yakın olması gerekir (hiper parametrelerinin bir fonksiyonu olarak). Ortalama olarak doğru yerde ise faydasızdır, ancak minima fror'unun farklı sonlu veri örneklerinin yayılması her yerdedir.
Dikran Marsupial

1
Elbette doğruluk önyargı ve varyansın bir birleşimidir ve büyük bir varyansa sahip tarafsız bir tahmin, küçük bir varyansa sahip hafif bir önyargılı tahminci kadar iyi değildir. Hata oranının önemli tahmini, yeniden ikame olup büyük bir önyargıya sahiptir. Önyükleme 632 ve 632+ çok iyi çalışır, çünkü sapmada çok fazla bir artış olmadan önyargı için iyi bir iş çıkarırlar. Bu nedenle doğrusal ayırt edici işlevler ve ikinci dereceden ayırt edici işlevler için, çapraz onaylamanın bir kez bırakılma sürümünden çok daha iyi çalışırlar.
Michael R. Chernick

Sınıflandırma ağacı toplulukları ile bootstrap'ın daha iyi olduğu kanıtlanmamıştır.
Michael R. Chernick

1
Belki de zorluklardan biri, aşırı uydurmanın sıklıkla makine öğrenmesi ve istatistikte farklı şeyler ifade etmesidir. Bana göre istatistikçiler bazen gözlemlere çok yakından uymak yerine (eğitim kriteri tarafından ölçüldüğü gibi) kullanılmasının gerekenden daha fazla parametreye sahip bir model olduğu anlamına geliyor. Normalde bu durumda "aşırı parametrelenmiş" ifadesini kullanırdım ve genelleme performansı pahasına gözlemlere çok yakın bir şekilde bir modelin takıldığı anlamına gelen "aşırı sığdırmayı" kullanırdım. Belki de çapraz amaçlarla konuştuğumuz yer burasıdır?
Dikran Marsupial

4

Buradaki bir cevabın, optimizasyon bağlamında, bulmaya çalıştığınız şeyin bir noisymaliyet işlevinde küresel bir asgari olduğu şüphesi var . Bu nedenle, çok boyutlu bir küresel optimizasyonun tüm zorluklarına ek olarak maliyet fonksiyonuna eklenen stokastik bir bileşene sahipsiniz.

Yerel minima zorlukları ve pahalı bir arama alanı ile başa çıkmak için kullanılan yaklaşımların birçoğu, benzetilmiş tavlama veya monte edilmiş carlo yöntemleri gibi ayar gerektirebilecek parametrelere sahiptir.

İdeal, hesaplamalı olarak sınırlandırılmamış bir evrende, parametre fonksiyonunuzun global bir minimumunu, hata fonksiyonuna ilişkin tahmininizin önyargı ve sapması üzerinde uygun bir şekilde sınırlı sınırlarla bulmaya çalışacağınızdan şüpheleniyorum. Bu senaryonun düzenlenmesi, reklam sonsuzluğunu yeniden örnekleyebileceğinizden bir sorun olmaz mıydı?

Gerçek dünyada, kendinizi yerel bir asgari düzeyde kolayca bulabileceğinizden şüpheleniyorum.

Bahsettiğiniz gibi, bu ayrı bir konudur, ancak bu hala sizin için mevcut olan verilerle ilişkili örnekleme sorunları nedeniyle örnekleme sorunlarına ve sizi örnek alanın gerçek altta yatan dağılımı ile olan ilişkisine bağlı olarak bırakmaya açık bırakmaktadır.


4

Bu, algoritmaya kesinlikle bağlıdır, ancak kesinlikle yapabilirsiniz - çoğu durumda sadece iyi bir çaba kaybı olacaktır.

f(x)xxoptf(x)+ϵϵxfXoptxoptf+ϵ

xoptXoptXoptf

f

Bu nedenle, (iyi dergilerde mevcut olan uygulamalara dayanarak) tam, parametre seçiminin harici olarak doğrulanması, titizlikle yapmanız gereken bir şey değildir (özellik seçiminin onaylanmasından farklı olarak), ancak yalnızca optimizasyonun elverişli olması ve sınıflandırmanın oldukça hassas olması durumunda parametreler.


4

Evet, parametreler çapraz değerlendirme veya ön yükleme sırasında eğitim ve test setine "takılabilir". Ancak, bunu önlemek için bazı yöntemler vardır. İlk basit yöntem, veri kümenizi 3 bölüme ayırıyorsunuz, biri test etmek için (~% 20), biri optimize edilmiş parametreleri test etmek için (~% 20) diğeri de sınıflandırıcıyı set parametrelerine uydurmak için. Sadece oldukça büyük bir veri kümeniz varsa mümkündür. Diğer durumlarda çift çapraz değerlendirme önerilmektedir.

Romain François ve Florent Langrognet, "Model Bazlı Sınıflandırma için Çift Çapraz Doğrulama", 2006

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.