Rastgele ormanlarda yakınlık terimi ile karşılaştım. Ama rastgele ormanlarda ne yaptığını anlayamadım. Sınıflandırma amaçlarına nasıl yardımcı olur?
Rastgele ormanlarda yakınlık terimi ile karşılaştım. Ama rastgele ormanlarda ne yaptığını anlayamadım. Sınıflandırma amaçlarına nasıl yardımcı olur?
Yanıtlar:
"Yakınlık" terimi, vaka çiftleri arasındaki "yakınlık" veya "yakınlık" anlamına gelir.
Her bir vaka / gözlem / örnek noktası çifti için yakınlıklar hesaplanır. İki vaka aynı terminal düğümünü bir ağaçtan işgal ederse, yakınlıkları bir artar. Tüm ağaçların çalışmasının sonunda, yakınlıklar ağaç sayısına bölünerek normalleştirilir. Yakınlıklar, eksik verilerin değiştirilmesinde, aykırı değerlerin bulunmasında ve verinin aydınlatıcı düşük boyutlu görünümlerinin üretilmesinde kullanılır.
yakın çevreler
Proksiteler başlangıçta bir NxN matrisi oluşturdu. Bir ağaç yetiştirildikten sonra, hem eğitim hem de oob'daki tüm verileri ağacın üzerine koyun. K ve n durumları aynı terminal düğümündeyse, yakınlıklarını bir arttırırlar. Sonunda, ağaç sayısına bölünerek yakınlıkları normalleştirin.
Kullanıcılar büyük veri kümeleriyle NxN matrisini hızlı belleğe sığmayacaklarını belirttiler. Bir değişiklik gerekli bellek boyutunu NxT'ye düşürdü, burada T ormandaki ağaç sayısıdır. Hesaplama-yoğun ölçeklendirme ve yinelemeli eksik değer değişimini hızlandırmak için, kullanıcıya her durumda yalnızca en büyük nnn yakınlıklarını tutma seçeneği sunulur.
Bir test seti bulunduğunda, test setindeki her bir vakanın eğitim setindeki her bir vakanın yakınlıkları da hesaplanabilir. Ek bilgi işlem miktarı orta düzeydedir.
alıntı: https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm
İstatistiksel Öğrenme Unsurlarının yazarlarının, "Rastgele ormanlar için yakınlık grafikleri, verilere bakılmaksızın, faydaları konusunda şüphe uyandıran verilerden genellikle çok benzer göründüğünü belirtmektedir. sınıflandırma performansı ne kadar iyi olursa. " (s 595)
Ancak, bu yazarların rastgele ormanların eksik verilerle çok fazla uğraşma yollarından bahsetmediğini düşünüyorum (kitapta daha önce ağaçlarla eksik verilerden bahsetmelerine rağmen); belki de yazarlar RF'lerin bu yönünü çok fazla vurgulamamışlardı, bu da kitabın muazzam olduğunu ve çok sayıda makine öğrenimi konusu / tekniği hakkında çok fazla bilgiye sahip olduğunu düşünüyor . Ancak, grafiklerin herhangi bir RF ve veri seti için benzer şekiller vermesinin genel olarak RF'ler hakkında olumsuz bir şey anlamına geldiğini düşünmüyorum. Örneğin, doğrusal regresyon temelde her zaman aynı görünür, ancak çizgiye yakın hangi noktaların yattığını ve hangisinin doğrusal regresyon perspektifinden aykırı göründüğünü bilmek faydalıdır. Yani ... yakınlık alanlarının faydaları hakkındaki yorumları benim için bir anlam ifade etmiyor.