Uygun PAC öğrenme VC boyut sınırları


11

VC boyutu olan konsept sınıfı için O \ left (\ frac {d} {\ varepsilon} \ log \ frac {1} {\ varepsilon} \ right) elde etmek yeterli olduğu iyi bilinmektedir. PAC learn \ mathcal {C} etiketli örnekler . PAC öğrenme algoritmasının (bu birçok örneği kullanan) uygun veya uygunsuz olup olmadığı bana açık değil mi? Kearns ve Vazirani'nin yanı sıra Anthony ve Biggs'in ders kitaplarında PAC öğrenme algoritması yanlış gibi görünüyor (yani, çıkış hipotezi \ mathcal {C} 'da değil ) d O ( dCdCCO(dεlog1ε)CC

  1. Birisi benzer bir üst sınırın uygun PAC öğrenme ortamı için de geçerli olup olmadığını açıklığa kavuşturabilir mi? Öyleyse, bunun açıkça belirtildiği ve bağımsız bir kanıt içerdiği durumlarda bana bir referans verebilir misiniz?

  2. Son zamanlarda Hanneke bu sınırı log(1/ε) faktöründen kurtularak geliştirdi . Birisi log(1/ε) Uygun PAC öğrenme ayarı için çıkarılabilir olup olmadığını açıklayabilir mi? Yoksa hala açık bir soru mu?


Bahsettiğiniz bu Hanneke belgesi hangisidir?
gradstudent

Yanıtlar:


9

Bu soruya dikkatimi çektiği için Aryeh'e teşekkür ederim .

Diğerleri de gibi, (1) cevabı Evet ve ampirik riskin en aza indirilmesi basit bir yöntem elde etmektedir örnek karmaşıklığı ( bkz. Vapnik ve Chervonenkis, 1974; Blumer, Ehrenfeucht, Haussler ve Warmuth, 1989).CO((d/ε)log(1/ε))

İçin olduğu gibi (2), aslında boşluk var olduğunu bilinmektedir bir daha uygun öğrenme algoritması ulaşır örnek karmaşıklığı ve dolayısıyla uygun öğrenme optimal örnek karmaşıklığına . Bildiğim kadarıyla, bu gerçek hiç yayınlanmadı, ancak Daniely ve Shalev-Shwartz'ın (COLT 2014) ilgili bir argümanından kaynaklanıyor (başlangıçta çok sınıflı öğrenmede farklı, ancak ilgili bir soru için formüle edildi).C Ω ( ( d / ε ) günlüğü ( 1 / ε ) ) O ( d / ε )Ω((d/ε)log(1/ε))O(d/ε)

Düşünün basit bir durum ve alan koymak olarak ve olan singletons :, her sınıflandırıcı olarak ile ilgili sınıflandırır tam olarak bir nokta olarak ve diğerleri . Alt sınır için, hedef fonksiyonu rastgele bir singleton olarak ele alalım , burada ve , marjinal dağılımı , ilgili üniformd=1X{1,2,...,1/ε}Cfz(x):=I[x=z],zXCX10fxxUniform(X)PXX{x}. Şimdi öğrenen herhangi örnekler etiketli görmemesini , ama bir nokta seçmelisiniz için tahmin etiketli (önemlisi `` tamamı sıfır '' işlevi olduğu değil de , herhangi uygun öğrenen böylece gerekir bazı tahmin ) ve her noktasına gördü kadar en az olan (yanlış tahmin şansını yani, arka olasılık olan en az ). Kupon tahsildarı argümanı, gerektireceği anlamına gelir1z1 z X{ x * } 1 / 2 f z z X1CzX{x}1/2fzzx1/2Ω((1/ε)log(1/ε))x{ x * } Ω ( ( 1 / ε ) günlük ( 1 / ε ) ) içindeki her noktayı görmek için örnekleri . Bu , tüm uygun öğrenenler için alt sınırını kanıtlar .X{x}Ω((1/ε)log(1/ε))

Genel için , aldığımız olarak almak sınıflandırıcılarınız , tam olarak boyutlu kümeleri için , den rastgele hedef işlevini seçin ve hedef işlevin sınıflandırdığı noktalarda tekrar düzgün olarak alın (böylece öğrenci hiçbir zaman görmez) ) etiketli bir nokta . Daha sonra kupon toplayıcı argümanının genelleştirilmesi, en azından en azından görmek için örneklerine ihtiyacımız olduğunu gösterir. d>1X{1,2,...,d/(4ε)}CIAAXdCP01Ω((d/ε)log(1/ε))|X|2dfarklı noktalar ve herhangi uygun bir öğrenci en az olan bu birçok farklı noktaları görmeden büyüktür alma şansı onun tahminim ait bir onun seçtiği hipotez yanlış noktalarda , yani hata oranı büyük . Bu durumda, örnek karmaşıklığı 'den daha küçük olan uygun bir öğrenci yoktur, bu da uygun bir öğrenicinin optimal örnek karmaşıklığı elde etmediği anlamına gelir. .X1/3d/4AdhAεΩ((d/ε)log(1/ε))O(d/ε)

Sonucun, inşa edilen alanına oldukça özgü olduğunu unutmayın . Uygun öğrencilerin optimal örnek karmaşıklığına ve hatta tam tam ifade ulaşabilecekleri alanları vardır. (Hanneke, 2016a). Genel ERM öğrenenleri için bazı üst ve alt sınırlar (Hanneke, 2016b) 'de, alan özellikleri açısından nicelenmiş olarak geliştirilmiştir ve belirli uygun öğrencilerin bazen en iyi duruma getirebileceği bazı daha özel durumları tartışır. örnek karmaşıklığı.CCO(d/ε)O((d/ε)+(1/ε)log(1/δ))C

Referanslar:

Vapnik ve Chervonenkis (1974). Örüntü Tanıma Teorisi. Nauka, Moskova, 1974.

Blumer, Ehrenfeucht, Haussler ve Warmuth (1989). Öğrenilebilirlik ve Vapnik-Chervonenkis boyutu. Bilgisayar Makineleri Derneği Dergisi, 36 (4): 929–965.

Daniely ve Shalev-Shwartz (2014). Çok Sınıflı Problemler için Optimal Öğrenciler. 27. Öğrenme Teorisi Konferansı Bildiriler Kitabı.

Hanneke (2016a). PAC Öğrenmenin Optimal Örnek Karmaşıklığı. Makine Öğrenimi Araştırmaları Dergisi, Vol. 17 (38), sayfa 1-15.

Hanneke (2016b). Çeşitli Öğrenme Algoritmaları için Rafine Hata Sınırları. Makine Öğrenimi Araştırmaları Dergisi, Vol. 17 (135), s. 1-55.


İlginç ... Uygun PAC öğreniminin örnek olarak optimal olduğu sınıflarının birleşik karakterizasyonu var mı ? Veya en azından yeterli koşullar (kavşak altında kapanma, sendika?)C
Clement

2
@ClementC. Hangi sınıfların genel olarak uygun öğrenciler tarafından elde edilebilecek en uygun oranlara sahip olduğu bilinen tam bir karakterizasyon yoktur. Referans verilen "Rafine hata sınırları ..." makalesi, hangi sınıfların tüm ERM öğrencileri için en uygun oranları kabul ettiği birleşik bir karakterizasyon sağlar (Corollary 14). İlgili miktar "yıldız sayısı" dır: bir tanesi diğerlerini değiştirmeden herhangi bir tek noktanın etiketini çevirebilecek en büyük nokta sayısıdır (Tanım 9). Kavşak-kapalı sınıflar optimal bir uygun öğreniciye sahiptir: "kapanış" alg (gazetede Teorem 5 ve ayrıca Darnstädt, 2015 tarafından kanıtlanmıştır).
S. Hanneke

Teşekkür ederim!
Clement

6

(1) ve (2) sorularınız birbiriyle ilişkilidir. İlk olarak, uygun PAC öğrenimi hakkında konuşalım. Sıfır örnek hatası elde eden, ancak örnekleri gerektiren uygun PAC öğrenicileri olduğu bilinmektedir . bağımlılığının basit bir kanıtı için , eşit dağılım altındaki aralık konsept kavramını göz önünde bulundurun . En küçük tutarlı aralığı seçersek, aslında örnek karmaşıklığını elde ederiz . Bununla birlikte, en büyük tutarlı aralığı seçtiğimizi ve hedef kavramın gibi bir nokta aralığı olduğunu varsayalım.ϵ[a,b][0,1]O(1/ϵ)[0,0]1Ω(dϵlog1ϵ)ϵ[a,b][0,1]O(1/ϵ)[0,0]. Sonra basit bir kupon toplayıcı argümanı, kabaca örnekleri , negatif örnekler arasındaki boşluğa aldatılacağımızı gösterir (göreceğimiz tek tür) ) - homojen dağılım altında karakteristik davranışı [örnek büyüklüğü] olan. Bu türden daha genel alt sınırlar 1/1ϵlog1ϵ1/

Auer, R. Ortner. Kavşak kapalı konsept sınıflarına yeni bir PAC bağlandı. Makine Öğrenmesi 66 (2-3): 151-163 (2007) http://personal.unileoben.ac.at/rortner/Pubs/PAC-intclosed.pdf

Uygun PAC ile ilgili olan şey, soyut durumda olumlu sonuçlar için, ERM'nin ötesinde, "etiketli örnekle tutarlı bir konsept bul" yazan bir algoritma belirtilememesidir. Aralıklar gibi ek bir yapıya sahip olduğunuzda, yukarıdaki gibi iki farklı ERM algoritmasını inceleyebilirsiniz: minimum ve maksimum tutarlı segment. Ve bunların farklı örnek karmaşıklıkları var!

Uygunsuz PAC'ın gücü, çeşitli oylama şemaları tasarlamanızdır (Hanneke'nin böyle bir sonuçtur) - ve bu ek yapı, gelişmiş oranları kanıtlamanızı sağlar. (ERM size sabitlere kadar mümkün olan en kötü durum oranını veren agnostik PAC için hikaye daha basittir.)

Düzenle. Şimdi bana öyle geliyor ki D. Haussler, N. Littlestone, Md K. Warmuth'un 1-içerme grafiği tahmin stratejisi. {0,1} -Rastgele Çizilmiş Noktalardaki Fonksiyonlar. Enf. Comput. 115 (2): 248-292 (1994) evrensel uygun PAC öğrenicisi için doğal bir aday olabilir .O(d/ϵ)


Teşekkürler! Tamam, eğer sizi doğru anlarsam, yanlış PAC öğrenmenin örnek karmaşıklığı ve düzgün PAC öğrenimi için , verdiğiniz örnek için elde edilen alt sınır için alt sınır. Bu doğru mu? Θ ( d / ϵ günlüğü ( 1 / ϵ ) )Θ(d/ϵ)Θ(d/ϵlog(1/ϵ))
İsimsiz

Evet, uygun olmayan PAC için sadece eski bir ERM değil, belirli bir algoritma (Hanneke) kullanmanız gerektiğine dair hafif bir rezervasyon. Cevabı kabul etmekten çekinmeyin :)
Aryeh

Partiye geç kaldım, ancak yukarıda belirtilen Proper-PAC alt sınırı yalnızca belirli bir öğrenme algoritması (veya kısıtlı sınıfı) için bir örnek karmaşıklığı alt sınırı değil mi? Yani, böyle bir kısıtlama olmaksızın, bilgi teorik olarak uygun ve uygunsuz PAC arasında bir ayrım yoktur, değil mi? (Ve böylece veya benzeri gibi hesaplama varsayımları olmadan hiçbir ayrım )?)NPRP
Clement C.

1
PAC öğrenilebilirliğinin olağan tanımı, poli zaman algoritmalarını ister. Demek istediğim, (i) rahat ve uygun olmayan aynı örnek karmaşıklığa sahip olması; (ii) bu gereklilik ile, uygun ve uygunsuz arasındaki koşulsuz bir ayrımı kanıtlayamayız (aslında NP gibi bir şeyin RP'ye eşit olmadığını kanıtlayacağı için). (Yine de , Aryeh'in referansının yaptığı şey olduğunu anladığım kadarıyla, belirli uygun öğrenme algoritmalarının örnek karmaşıklığı üzerinde daha düşük sınırlar olduğunu kanıtlayabiliriz .)
Clement C.

1
@ClementC. Önceki yorumlarınızdan birinde, uygun olmayan bir PAC algoritması çalıştırdıktan sonra bahsetmiştiniz, bir öğrenci muhtemelen uygunsuz bir hipotez elde eder ve daha sonra öğrenci konsept sınıfından en yakın uygun hipotezi bulabilir (daha fazla örnek olmadan). Fakat öğrenci, kendisine örnek verilen dağılımı bilmeden bunu nasıl yapabilir? En yakın olanı bilinmeyen bir dağılıma göre ölçülmez mi?
Anonim

5

Şu anda kabul edilen cevaba eklemek için:

  1. Evet. örnek karmaşıklık üst sınırı uygun PAC öğrenimi için de geçerlidir(hesaplamalı olarak etkili bir öğrenme algoritmasına yol açmayabileceğini belirtmek önemlidir, ancak bu normaldir, çünküNP=RPolmadığı sürecebazı sınıfların PAC öğrenilebilir Cf.Örneğin, Kearns'taki Theorem 1.3 - bahsettiğiniz Vazirani kitabında). Bu aslında Kearns — Vazirani kitabında (Teorem 3.3) gösterilmiştir, çünküLhipotez sınıfıH=Colan tutarlı bir hipotez bulucu vardır. Ayrıca bakınız [1].

    O(dεlog1ε)
    NP=RPLH=C
  2. log(1/ε)

    log(1/ε)(ε,δ)

    (Aynı makalede yer alan Dipnot 1 de geçerlidir)


[1] A. Blumer, A. Ehrenfeucht, D. Haussler ve MK Warmuth. Öğrenilebilirlik ve Vapnik-Chervonenkis boyutu. ACM Dergisi, 36 (4): 929–965, 1989.

[2] S. Hanneke. PAC öğreniminin optimal örnek karmaşıklığı. J. Mach. Öğrenin. Res. 17, 1, 1319-1333,2016.

[3] S. Arunachalam ve R. de Wolf. Öğrenme algoritmalarının optimal kuantum örnek karmaşıklığı. 32. Hesaplamalı Karmaşıklık Konferansı Bildiriler Kitabı (CCC), 2017.


Haussler ve ark. böyle bir optimal PAC öğrenicisi nedir?
Aryeh

@Aryeh emin değilim. Bulabildiğim kadarıyla, Warmuth 2004'te böyle varsaydı. Bundan daha fazlasını bilmiyorum.
Clement C.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.