Ben ayrımı edecek bir sınıflandırıcı eğitmek için arıyorum Type Ave Type Bhangi yaklaşık yarısını, yaklaşık 10.000 nesnelerin oldukça geniş bir eğitim seti ile nesneleri Type Aolmak üzere yarısı Type B. Veri kümesi, hücrelerin fiziksel özelliklerini (boyut, ortalama yarıçap vb.) Ayrıntılandıran 100 sürekli özellikten oluşur. Verilerin çift saçılım ve yoğunluk grafiklerinde görselleştirilmesi, kanserli ve normal hücrelerin birçok özelliğin dağılımında önemli örtüşme olduğunu gösterir.
Şu anda rastgele ormanları bu veri kümesi için bir sınıflandırma yöntemi olarak araştırıyorum ve bazı iyi sonuçlar görüyorum. R'yi kullanarak rastgele ormanlar nesnelerin yaklaşık% 90'ını doğru şekilde sınıflandırabilir.
Denemek ve yapmak istediğimiz şeylerden biri, nesnelerin sınıflandırılmasından ne kadar emin olduğumuzu ölçen bir tür "kesinlik puanı" oluşturmaktır. Sınıflandırıcımızın asla% 100 doğru olmayacağını biliyoruz ve tahminlerde yüksek doğruluk elde edilse bile, eğitimli teknisyenlerin hangi nesnelerin gerçekte Type Ave hangileri olduğunu tanımlamasını isteyeceğiz Type B. Yani yerine uzlaşmaz tahminler sağlayarak Type Aveya Type Bbiz nasıl anlatacağız her nesne için bir puan sunmak istiyorum Aya Bbir nesnedir. Örneğin, 0 ile 10 arasında değişen bir puan tasarlarsak, 0 puanı bir nesnenin Type Anesnelere çok benzer olduğunu gösterirken, 10'un puanı bir nesnenin çok benzer olduğunu gösterir Type B.
Böyle bir puan almak için rastgele ormanlardaki oyları kullanabileceğimi düşünüyordum. Rastgele ormanlardaki sınıflandırma, üretilen ağaçların ormanı içerisinde oyların çoğunluğu ile yapıldığından, ağaçların% 100'ü tarafından oylanan Type Anesnelerin, ağaçların% 51'i tarafından oylanan nesnelerden farklı olacağını varsayacağım . olmak Type A.
Şu anda, bir nesnenin Type Aveya olarak sınıflandırılması gereken oyların oranı için keyfi bir eşik belirlemeye çalıştım Type Bve eşik geçilmezse, şu şekilde sınıflandırılacak Uncertain. Örneğin, ağaçların% 80'inin veya daha fazlasının bir sınıflandırma için bir karara varması gerektiğine karar vermesi şartını zorlarsam, sınıf tahminlerinin% 99'unun doğru olduğunu, ancak nesnelerin yaklaşık% 40'ının eşittir Uncertain.
Tahminlerin kesinliğini değerlendirmek için oylama bilgilerinden yararlanmak mantıklı olur mu? Yoksa düşüncelerimle yanlış yöne mi gidiyorum?