* İstatistiksel Öğrenmeye Giriş * içindeki * fonksiyonların * varyansı ile kastedilen nedir?


12

Pg. 34 İstatistiksel Öğrenmeye Giriş :

Matematiksel kanıt bu kitabın kapsamı dışındadır olsa da, beklenen testi MSE, verilen değer için olduğunu göstermek mümkündür x0 : daima üç temel miktarlarda toplamından ayrılacak olabilir varyans ait f^(x0) , kare önyargı arasında f^(x0) ve hata terimleri varyansı ε . Yani,

E(y0f^(x0))2=Var(f^(x0))+[Bias(f^(x0))]2+Var(ε)

[...] Varyans, farklı bir eğitim veri seti kullanarak tahmin edersek f^ nin değişeceği miktarı ifade eder .

Soru: yana Var(f^(x0)) varyansını belirtmek görünüyor fonksiyonları resmen demek ne?

Yani, rastgele bir değişken X'in varyans kavramına aşinayım X, ama bir dizi fonksiyonun varyansı ne olacak? Bu sadece değerleri fonksiyon biçimini alan başka bir rastgele değişkenin varyansı olarak düşünülebilir mi?


6
Her göz önüne alındığında bir "belirli bir değer" uygulanmış bir formül belirirse , varyans uygulanır sayısı , değil kendisi. Bu sayı muhtemelen rastgele değişkenlerle modellenmiş verilerden geliştirildiğinden, aynı zamanda (gerçek değerli) rastgele bir değişkendir. Genel varyans kavramı geçerlidir. f^x0 f^(x0)f^
whuber

2
Anlıyorum. Bu yüzden değişiyor (farklı eğitim veri setlerinde değişiklik gösteriyor), ancak yine de ın varyansına bakıyoruz . f^f^(x0)
George

Bu ders kitabının yazarı kim? Konuyu kendim öğrenmek istiyorum ve referans tavsiyenizi çok takdir ediyorum.
Chill2Macht

3
@WilliamKrinsman Bu kitap: www-bcf.usc.edu/~gareth/ISL
Matthew Drury

Yanıtlar:


14

@Whuber ile yazışmanız doğru.

Bir öğrenme algoritması , eğitim kümelerini işlevlerle eşleştiren daha üst düzey bir işlev olarak görülebilir.A

A:T{ff:XR}

burada olası eğitim setlerinin alanıdır. Bu kavramsal olarak biraz tüylü olabilir, ancak temel olarak her bir bireysel eğitim seti, model eğitim algoritmasını kullandıktan sonra, veri noktası verilen tahminler yapmak için kullanılabilen spesifik bir işlev sonuçlanır .Tfx

Eğitim setlerinin alanını bir olasılık alanı olarak görürsek , olası eğitim veri setlerinin bir miktar dağılımı olur, o zaman model eğitim algoritması rastgele değerli bir fonksiyon haline gelir ve istatistiksel kavramları düşünebiliriz. Özellikle, belirli bir veri noktasını düzeltirsek , sayısal değerli rasgele değişken elde ederizx0

Ax0(T)=A(T)(x0)

Yani, önce algoritmayı üzerinde ve ardından ortaya çıkan modeli değerlendirin . Bu sadece bir olasılık alanında düz, eski ama oldukça ustaca inşa edilmiş rastgele bir değişkendir, bu yüzden onun varyansı hakkında konuşabiliriz. Bu formülünüzdeki ISL'den sapmadır.Tx0


6

Tekrarlanan kfoldlar kullanılarak görsel bir yorum

@Matthew Drury'nin cevabına görsel / sezgisel bir yorum vermek için aşağıdaki oyuncak örneğini düşünün.

  • Veriler gürültülü sinüs eğrisinden üretilir: "True noise"f(x) +
  • Veriler eğitim ve test örnekleri arasında bölünür (% 75 -% 25)
  • Eğitim verilerine doğrusal (polinom) bir model yerleştirilmiştir:f^(x)
  • İşlem aynı veriler kullanılarak birçok kez tekrarlanır (örn. Yarma eğitimi - Sklearm tekrarlanan kfold'u kullanarak rastgele test etme)
  • Bu, noktalarının yanı sıra tüm noktaların ortalamasını ve varyansını birçok farklı model üretir .x=xi

Derece 2 ve derece 6 polinom modeli için ortaya çıkan grafikler için aşağıya bakın. İlk bakışta, daha yüksek polinomun (kırmızı renkte) daha fazla varyansı olduğu görülmektedir.

resim açıklamasını buraya girin

Kırmızı grafiğin daha fazla varyansı olduğunu iddia etmek - deneysel olarak

Let ve sırasıyla yeşil ve kırmızı grafikler karşılık gelir ve , açık yeşil ve açık kırmızı içinde grafiklerin bir örneği, olabilir. Let olması boyunca noktalarının sayısını ekseni ve (yani, simülasyonların sayısı) grafikler sayısı olsun. Burada vef^gf^rf^(i)nxmn=400m=200

Üç ana senaryo görüyorum

  1. Belirli bir noktada öngörülen değerlerin varyansı daha büyük yanix=x0Var [{f^r(1)(x0),...,f^r(m)(x0)}]>Var [{f^g(1)(x0),...,f^g(i)(x0)}]
  2. deki varyans aralığındaki tüm noktaları için daha büyük(1) {x1,...,x400}(0,1)
  3. Varyans ortalama olarak daha büyüktür (yani bazı noktalar için daha küçük olabilir)

Bu oyuncak örneğinde, her üç senaryo da aralığında doğrudur ve bu da daha yüksek mertebeden polinom uyumunun (kırmızı) alt mertebeden polinomdan (yeşil) daha yüksek varyansa sahip olduğu argümanını haklı çıkarır.(0,1)

Açık uçlu bir sonuç

Yukarıdaki üç senaryonun tümü geçerli olmadığında tartışılması gerekenler . Örneğin, kırmızı tahminlerin varyansı ortalama olarak daha büyükse, ancak tüm noktalar için değilse.

Etiket detayları

düşününx0=0.5

  • Hata çubuğu öğesinin min. Ve maks.f^(x0)
  • Varyans değerinde hesaplanırx0
  • Gerçek noktalı mavi çizgidirf(x)

Resimleri kullanarak bir kavramı örnekleme fikrini seviyorum. Gönderinizin iki yönünü merak ediyorum ve umarım bunlara hitap edebilirsiniz. İlk olarak, bu grafiklerin "bir işlevin varyansı" nı nasıl gösterdiğini daha açık bir şekilde açıklayabilir misiniz ? İkincisi, kırmızı grafiğin "daha büyük varyans" sergilediği veya iki parselin bu kadar basit bir karşılaştırmaya uygun olduğu hiç de açık değil. Örneğin, üzerindeki kırmızı değerlerin dikey yayılımını düşünün ve bunu yeşil değerlerin aynı noktadaki yayılımı ile karşılaştırın: kırmızı olanlar yeşil olanlardan biraz daha az yayılmış görünüyor . x=0.95,
whuber

Demek istediğim, çizimlerinizi yüksek hassasiyetle okumak mümkün olup olmadığı değil: bu iki grafiği, biri diğerinden daha yüksek veya daha düşük bir varyans olarak düşünülebilir gibi karşılaştırmanın anlamı şudur: bazı aralıkları tahminlerin varyansları bir grafikte daha yüksek olacak ve diğer aralıkları için varyansları daha düşük olacaktır. xx
whuber

Evet katılıyorum - yorumunuzu yansıtmak için yayını düzenledim
Xavier Bourret Sicotte
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.