Not: Cevabımın muhtemelen doğru olduğunu hissediyorum, ancak bu soruyu sadece 30-60 dakika okuduktan sonra bu sorunu düşünerek uydurduğum için de şüpheliyim. Bu yüzden şüpheci olsanız ve bunu incelerseniz ve muhtemelen kendime güvenen yazma tarzımla aldanmamalısınız (büyük kelimeler ve süslü Yunan sembolleri kullanmak benim doğru olduğum anlamına gelmez).
özet
Bu sadece bir özet. Tüm detaylar aşağıdaki ve bölümlerinde belirtilmiştir.§1§2
Sınıflandırma örneğini varsayalım (regresyona da uzatılabilir, ancak kısalık atlayın). Esasen, amacımız bir ağaç ormanının hatasını tahmin etmektir. Hem çantadan çıkma hatası hem de k-kat çapraz doğrulaması bize şu olasılıkları anlatmaya çalışır:
- Orman doğru sınıflandırmayı verir (k-kat çapraz doğrulama bu şekilde bakar).
Hangi olasılık ile aynı:
- Orman ağaçlarının çoğunluk oyu doğru oylamadır (OOBE bu şekilde bakar).
Ve ikisi de aynı. Tek fark, k-kat çapraz doğrulamanın ve OOBE'nin farklı boyutlarda öğrenme örnekleri almasıdır. Örneğin:
- 10 kat çapraz doğrulamada, öğrenme seti% 90, test seti% 10'dur.
- Bununla birlikte, OOBE'de her torbada numunesi varsa, tüm numuneler setindeki toplam numune sayısı, bu durumda öğrenme seti pratik olarak yaklaşık% 66 (üçte iki) ve test setinin yaklaşık% 33 ( üçte bir).nn=
Bu nedenle benim görüşüme göre OOBE'nin ormanın hatalarının kötümser bir tahmini olmasının tek nedeni, genellikle k-kat çapraz doğrulamayla (10 katın yaygın olduğu) genellikle yapılandan daha az sayıda örnek tarafından eğitilmesidir.
Bu nedenle, 2 misli çapraz validasyonun orman hatalarının OOBE'den daha kötümser bir tahmin olacağını ve 3 misli çapraz validasyonun OOBE için yaklaşık olarak aynı derecede kötümser olacağını düşünüyorum.
1. Torba dışı hatasını anlama
1.1 Torbalamaya genel bakış
RF'deki her ağaç, değiştirme ile öğrenme setinden rastgele çizilmiş örnek listesi ile büyütülür . Bu şekilde, sayıda numuneler çiftleri var ve eğero zaman içindeki örneklerin yaklaşık birinin belirli bir ağacı büyütmek için kullanılan örnek listesinde yer almadığı anlaşılabilir (bunlar, Bu işlem her ağaç için bağımsız olarak tekrarlanır, bu nedenle her ağaç farklı bir torba dışı örnek setine sahiptir.nXnn=|X|Xn
1.2. Torbalamaya başka bir bakış
Şimdi, başa çıkmayı umuyoruz daha basit olan eşit bir açıklama bulma umuduyla torbalamayı biraz farklı bir şekilde açıklayalım.
Bunu ağacının set içindeki torbalanmış örnekler tarafından eğitildiğini belirterek yaparım . Bununla birlikte, set yinelenen örneklere sahip olmadığından (bu kümelerin nasıl çalıştığı) tam olarak doğru değildir, öte yandan örnek listesinde yineler olabilir.tXt⊆XXtn
Bu nedenle, bir ağacın ve , yani den çizilen bir dizi rasgele seçilmiş analiz ederek büyüdüğünü söyleyebiliriz , öyle ki:
tXt XtXt,1,Xt,2,…,Xt,r⊆Xt
|Xt|+∑i=1r|Xt,i|=n
Bu kümeler koleksiyonundan görmek Önemsiz biz bir listesi tanımlayabilir sadece her sette eleman eklenmesi ile çiftleri içeren -çok örnekleri , bir dizi için . Bu şekilde, herhangi bir , en az bir değeri vardır, böylece .C={Xt,Xt,1,…,Xt,r}nCi∈Ca1≤p≤nia[p]∈Ci
Ayrıca listesi olduğunu görüyoruz dizi numune I bazı özel tanımı için bu görmek kolaydır Bölüm 1'de tanımlandığı gibi torbalama bir genellemedir bu bölümde tanımlanan ki ( ), dizisindeki örnek listesi, Bölüm 1'de tanımlanan örnek listesiyle tamamen aynı olabilir .naXt§2a
1.3. Torbalamayı basitleştirme
Bunun yerine ağaç büyüyen dizisi örneklerin tarafından , biz bulunan örneklerinin çoğaltılması serbest listede onları büyüyecek sadece.taXt
Eğer, inanıyoruz yeterince büyük, bir ağaç örnekleri analiz edilerek yetiştirilir başka bir ağaç aynıdır dizisi numunelerden yetiştirilir .ntXtt′a
Benim nedenim, içindeki örnekleri çoğaltma olasılığının aynı kümedeki diğer örnekler arasında eşit olması muhtemeldir. Bu, bir bölünmenin bilgi kazancını (IG) ölçtüğümüzde, entropiler de aynı kalacağı için IG'nin aynı kalacağı anlamına gelir.Xt
Ve entropilerin belirli bir bölünme için sistematik olarak değişmeyeceğine inanmamın nedeni, bir alt kümede (bir karar bölünmesi uygulandıktan sonra) belirli bir etikete sahip bir numunenin ampirik olarak ölçülen olasılığının da değişmemesidir.
Ve benim görüşüme göre olasılıkların değişmemesinin sebebi, içindeki tüm örneklerin aynı şekilde kopyaya kopyalanması ihtimalidir .Xtd
1.4 Torbadaki hataları ölçme
Let ağacın dışı torba örnekleri olarak . Yani . Sonra tek bir ağacın hatası :
Ve çok ağaçlı ormanın toplam hatası :
olabilir ormandaki tüm ağaçların çoğunluğunun oy kullanmasının doğru oylama olduğu ampirik olarak ölçülmüş bir olasılık .OttOt=X∖Xtt
total x in Ot correctly classified by t|Ot|
nt∑ntt=1total x in Ot correctly classified by t∑ntt=1|Ot|
2. K-kat çapraz doğrulamayı anlama
Öncelikle öğrenme seti bölme içine birçok eşit büyüklükte bölümleri yani . Yani ve herhangi bir , (porsiyonlama bunu gerektirir).XnkK={K1,K2,…,Knk}K1∪K2∪…∪Knk=XKi,Kj∈KKi∩Kj=∅
Let kat test ve olmak öğrenme kıvrımların grubu olabilir.KtK∖{Kt}
, öğrenme kümesi olarak kullanılarak oluşturulan bazı ağaçların ormanı olsun .fK∖{Kt}
Daha sonra, ormanının k-kat çapraz doğrulaması :
f
∑nkt=1total x in Kt correctly classified by f∑nkt=1|Kt|
Bu da orman herhangi bir girdi örneğini doğru bir şekilde sınıflandırma olasılığıdır .f