Çapraz doğrulamaya (CV) dayalı tahmin aralığı


19

Ders kitaplarında ve youtube derslerinde destekleme gibi yinelemeli modeller hakkında çok şey öğrendim, ama bir tahmin aralığı türetmekle ilgili hiçbir şey görmedim.

Çapraz doğrulama aşağıdakiler için kullanılır:

  • Model seçimi : Farklı modelleri deneyin ve en uygun olanı seçin. Artırma durumunda, ayarlama parametrelerini seçmek için CV kullanın.
  • Model değerlendirmesi : Seçilen modelin performansını tahmin edin

Model değerlendirmesinde birkaç parametre önemlidir, bunlardan biri beklenen tahmin hatasıdır. Çapraz doğrulama, "İstatistiksel Öğrenmenin Unsurları" kitabında da açıklanan tahmin hatasının iyi bir tahminini sunar.

Ancak bir tahmin aralığı oluşturmak için beklenen tahmin hatasını nasıl kullanırız?

Örneğin, bir evin fiyatını tahmin ederseniz, 500.000 € 'luk bir ev için tahmin aralığı 200.000 €' luk bir evden daha yüksek olacaktır. Çapraz tahmin kullanarak bu tahmin aralıklarını nasıl tahmin ederiz?



Bence aradığın şey konformal tahminler. Shafer ve Vovk'un makalesine bakınız jmlr.csail.mit.edu/papers/volume9/shafer08a/shafer08a.pdf .
Alexey Zaytsev

500k'lık bir ev için tahmin aralığının neden 200k'lık bir evle karşılaştırıldığında "daha yüksek" olduğuna inandığınızı açıklar mısınız? Bu örnek sayısının bir fonksiyonu mu? Toplam dağıtımdan numunelerin alındığını varsayabilir misiniz?
justanotherbrain

Yanıtlar:


3

Bu soruyu tekrar okuduktan sonra, size aşağıdaki sınırı verebilirim:

B1-δ

E[E(h)]E^(h)+Bgünlük1δ2m

m1-δ

mE[E(h)] genelleme hatasıdır ve E^(h) hipotez için test hatasıdır.

Lütfen sadece çapraz doğrulama hatasını veya test hatasını bildirmeyin , bunlar sadece nokta tahminleri olduğu için genel olarak anlamsızdır.


Kayıt için eski gönderi:

Sorunuzu tamamen anladığımdan emin değilim, ama buna bir bıçakla bakacağım.

İlk olarak, model seçimi için bir tahmin aralığını nasıl tanımlayacağınızdan emin değilim, çünkü anladığım kadarıyla, tahmin aralıkları bazı dağıtım varsayımları yapar. Bunun yerine, rastgele bir değişkeni bazı olasılıklar için varyansıyla bağlayan konsantrasyon eşitsizlikleri elde edebilirsiniz. Konsantrasyon eşitsizlikleri, gelişmiş artırma teorisi de dahil olmak üzere düşünce makinesi öğreniminde kullanılır. Bu durumda, genelleme hatasını (genel olarak hatanız, görmediğiniz noktalar) ampirik hatanızla (test setindeki hatanız) artı bazı karmaşıklık terimiyle ve varyansla ilgili bir terimle sınırlandırmak istersiniz.

Şimdi, son derece yaygın olan çapraz doğrulama hakkında bir yanlış anlaşılmayı ortadan kaldırmam gerekiyor. Çapraz doğrulama size sadece bir SABİT ÖRNEK BOYUT İÇİN bir modelin beklenen hatası hakkında tarafsız bir tahmin verecektir. Bunun kanıtı yalnızca dışarıda bırakma protokolü için geçerlidir. Bu aslında oldukça zayıftır, çünkü size varyans hakkında hiçbir bilgi vermez. Öte yandan, çapraz doğrulama, teorik olarak en iyi çözüm olan yapısal risk minimizasyonu çözümüne yakın bir model döndürecektir. Kanıtı ekte şu adreste bulabilirsiniz: http://www.cns.nyu.edu/~rabadi/resources/scat-150519.pdf

Peki nasıl bir genelleme sınırı türetilir? (Genelleme sınırının temel olarak belirli bir model için genelleme hatasıyla ilgili bir tahmin aralığı olduğunu unutmayın). Bu sınırlar algoritmaya özgüdür. Ne yazık ki, makine öğreniminde yaygın olarak kullanılan tüm algoritmalar için (artırıcı dahil) sınır koyan tek bir ders kitabı var. Kitap Mohri, Rostamizadeh ve Talwalkar'ın Makine Öğrenmenin Temelleri (2012). Materyali kapsayan ders slaytları için, Mohri'nin web sayfasında bulabilirsiniz: http://www.cs.nyu.edu/~mohri/ml14/

İstatistiksel Öğrenmenin Unsurları önemli ve biraz yararlı bir kitap olmasına rağmen, çok titiz değildir ve algoritmalar ile ilgili çok önemli teknik ayrıntıları atlar ve her türlü genelleme sınırını tamamen atlar. Makine Öğrenmenin Temelleri, makine öğrenimi için en kapsamlı kitaptır (bu alandaki en iyilerden bazıları tarafından yazıldığı gibi mantıklıdır). Ancak, ders kitabı ileri düzeydedir, bu yüzden teknik ayrıntılara dikkat edin.

Artırmaya yönelik genelleme burada (kanıtla) bulunabilir: http://www.cs.nyu.edu/~mohri/mls/lecture_6.pdf

Umarım bunlar sorunuzu cevaplamak için yeterli işaretçilerdir. Tam bir cevap vermekte tereddüt ediyorum, çünkü ön tartışmaların yanı sıra gerekli tüm ayrıntıların üzerinden geçmek yaklaşık 50 sayfa alacak ...

İyi şanslar!


Bu yüzden iyi anlarsam, tüm dağılım üzerinde herhangi bir kantil için genelleme hatası için bir üst sınır verir (bazı varsayımlara dayanarak). Ancak "Lütfen çapraz doğrulama hatasını veya test hatasını bildirmeyin" ifadesini anlamıyorum. Bu iki önlemin yararsız olduğunu mu yoksa yalnızca bir tahmin aralığı bulmaya çalışmak mı işe yaramazlar?
LouisBBBB

@LouisBBBB CV hatası ve test hatası, örnek bir ortalama rapor etmek gibidir. Bir tür güven aralığı olmadan örnek ortalamasını bildirmek genellikle kötü bir uygulamadır, çünkü deneyi her çalıştırdığımda farklı bir sonuç elde edeceğim. Anlamsız dedim, ama belki "işe yaramaz" daha iyi ... Bir nokta tahminde (yani tanım) bir anlamın olduğu iddia edilebilir. Ancak, nokta tahminleri, genel olarak, hatanın dağılımını "yararlı bir şekilde" nitelendirmedikleri için "yararsız" dır. Karar verme bağlamında "yararlı".
justanotherbrain

Sanırım ne dediğini anlıyorum. Yani hataların ortalama yerine dağılımını analiz etmeyi tercih edersiniz. Ve soruya geri dönersem, Kasper "nokta başına" tahmin aralıklarının tahmin edilmesini istedi. Cevabınız, tahmin aralığı uzunluğu (veya yakın bir şey) için küresel bir üst sınırdı, doğru mu? Yerel bir üst sınır elde etmenin bir yolunu biliyor musunuz?
LouisBBBB

Ah - açıkladığınız için teşekkürler. Sanırım @ Kasper'ın sorusunu yanlış anladım ve bir sürü takip sorum var. Bunu işaret ettiğiniz için teşekkürler, biraz kazarım.
justanotherbrain
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.