Ben ayrımı edecek bir sınıflandırıcı eğitmek için arıyorum Type A
ve Type B
hangi yaklaşık yarısını, yaklaşık 10.000 nesnelerin oldukça geniş bir eğitim seti ile nesneleri Type A
olmak üzere yarısı Type B
. Veri kümesi, hücrelerin fiziksel özelliklerini (boyut, ortalama yarıçap vb.) Ayrıntılandıran 100 sürekli özellikten oluşur. Verilerin çift saçılım ve yoğunluk grafiklerinde görselleştirilmesi, kanserli ve normal hücrelerin birçok özelliğin dağılımında önemli örtüşme olduğunu gösterir.
Şu anda rastgele ormanları bu veri kümesi için bir sınıflandırma yöntemi olarak araştırıyorum ve bazı iyi sonuçlar görüyorum. R'yi kullanarak rastgele ormanlar nesnelerin yaklaşık% 90'ını doğru şekilde sınıflandırabilir.
Denemek ve yapmak istediğimiz şeylerden biri, nesnelerin sınıflandırılmasından ne kadar emin olduğumuzu ölçen bir tür "kesinlik puanı" oluşturmaktır. Sınıflandırıcımızın asla% 100 doğru olmayacağını biliyoruz ve tahminlerde yüksek doğruluk elde edilse bile, eğitimli teknisyenlerin hangi nesnelerin gerçekte Type A
ve hangileri olduğunu tanımlamasını isteyeceğiz Type B
. Yani yerine uzlaşmaz tahminler sağlayarak Type A
veya Type B
biz nasıl anlatacağız her nesne için bir puan sunmak istiyorum A
ya B
bir nesnedir. Örneğin, 0 ile 10 arasında değişen bir puan tasarlarsak, 0 puanı bir nesnenin Type A
nesnelere çok benzer olduğunu gösterirken, 10'un puanı bir nesnenin çok benzer olduğunu gösterir Type B
.
Böyle bir puan almak için rastgele ormanlardaki oyları kullanabileceğimi düşünüyordum. Rastgele ormanlardaki sınıflandırma, üretilen ağaçların ormanı içerisinde oyların çoğunluğu ile yapıldığından, ağaçların% 100'ü tarafından oylanan Type A
nesnelerin, ağaçların% 51'i tarafından oylanan nesnelerden farklı olacağını varsayacağım . olmak Type A
.
Şu anda, bir nesnenin Type A
veya olarak sınıflandırılması gereken oyların oranı için keyfi bir eşik belirlemeye çalıştım Type B
ve eşik geçilmezse, şu şekilde sınıflandırılacak Uncertain
. Örneğin, ağaçların% 80'inin veya daha fazlasının bir sınıflandırma için bir karara varması gerektiğine karar vermesi şartını zorlarsam, sınıf tahminlerinin% 99'unun doğru olduğunu, ancak nesnelerin yaklaşık% 40'ının eşittir Uncertain
.
Tahminlerin kesinliğini değerlendirmek için oylama bilgilerinden yararlanmak mantıklı olur mu? Yoksa düşüncelerimle yanlış yöne mi gidiyorum?