Çok noktaya yakınlığın göz önünde bulundurulması, regresyon analizinde önemlidir, çünkü ekstremada , katsayılarınızın verilerde benzersiz bir şekilde tanımlanıp tanımlanmadığı ile doğrudan ilgilidir. Daha az ciddi durumlarda, hala katsayı tahminlerinizi etkileyebilir; Tahmin için kullanılan verilerdeki küçük değişiklikler, tahmini katsayılarda vahşi dalgalanmalara neden olabilir. Bunlar çıkarımsal bir bakış açısından sorunlu olabilir: Eğer iki değişken yüksek korelasyona sahipse, birindeki artışlar diğerindeki azalmalar ile dengelenebilir, böylece birleşik etki birbirini olumsuzlar. İkiden fazla değişken olduğunda, etki daha da belirsiz olabilir, ancak tahminler kararlıysa, makine öğrenimi uygulamaları için bu genellikle yeterlidir.
Biz regresyon bağlamında regularize neden düşünün: Biz olmaktan modeli daraltmak için gereken çok esnek. Doğru miktarda düzenliizasyon uygulamak, varyanstaki daha büyük bir düşüş için önyargılı biraz artıracaktır. Bunun klasik örneği, bir regresyona polinom terimleri ve etkileşim efektleri eklemek: Dejenere durumda, tahmin denklemi veri noktalarını enterpolasyona sokacak, ancak görünmeyen veri noktalarının değerlerini tahmin etmeye çalışırken muhtemelen korkunç olacaktır. Bu katsayıları küçültmek, bu katsayıların bazılarını en aza indirecek veya tamamen ortadan kaldıracak ve genellemeyi iyileştirecektir.
Bununla birlikte, rastgele bir ormanın, her bölünmede örneklenen değişkenlerin sayısı aracılığıyla bir düzenlileştirme parametresine sahip olduğu görülebilir: ne kadar büyük olursa o kadar iyi olur mtry
(seçim için daha fazla özellik; bazıları diğerlerinden daha iyidir). Her bir ağacı diğer ağaçlarla daha fazla korelasyonlu kılar ve ilk olarak birden fazla ağacı tahmin etmenin çeşitlendirici etkisini hafifletir. Bu ikilem, genellikle çapraz doğrulama kullanılarak elde edilen doğru dengeyi bulmaya zorlar. Önemli bir şekilde ve bir regresyon analizinin aksine, rastgele orman modelinin hiçbir kısmı yüksek düzeyde kolinear olmayan değişkenler tarafından zarar görmez: değişkenlerin ikisi aynı alt düğüm saflığı sağlarsa bile, sonucun kalitesini düşürmeden bir tane seçebilirsiniz.
Aynı şekilde, bir SVM gibi bir şey için, özelliklerden daha fazla öngörücü ekleyebilirsiniz, çünkü çekirdek numarası yalnızca bu özellik vektörlerinin iç ürünü üzerinde çalışmanıza izin verir. Gözlemlerden daha fazla özelliğe sahip olmak regresyonlarda bir sorun olacaktır, ancak çekirdek numarası, her örnek için sadece bir katsayı tahmin etmemiz anlamına gelirken, C normalleştirme parametresi , N- parametrelerinin tahmin edilmesinden bu yana kesinlikle iyi bir şey olan çözümün esnekliğini azaltır. için N-Sınırsız bir şekilde yapılan gözlemler her zaman test verileri üzerinde mükemmel bir model üretecektir - ve tam bir iyilik halindeyiz, bu durum aşırı iyimser bir modele karşı bir kontrol olarak sınırlandırılmış model esnekliğine sahibiz. SVM probleminin KKT koşullarının gözden geçirilmesi, SVM çözümünün benzersiz olduğunu ortaya koymaktadır, bu nedenle regresyon durumunda ortaya çıkan tanımlama problemleri konusunda endişelenmemize gerek yoktur.
Son olarak, çoklu bağlantıların gerçek etkisini düşünün . Modelin öngörücü gücünü değiştirmez (en azından eğitim verileri üzerinde), ancak katsayı tahminlerimizi bozuyor. Çoğu ML uygulamasında, katsayıları kendileri umursamıyoruz.sadece model tahminlerimizin kaybı, bu nedenle VIF'i kontrol etmek sonuçta ortaya çıkan bir soruyu cevaplamıyor. (Ancak verilerdeki küçük bir değişiklik katsayılarda [klasik bir çok-kutupluluk belirtisi] büyük bir dalgalanmaya neden olursa, bu tahminleri de değiştirebilir, bu durumda umursadığımız - ancak tüm bunların [umarım! Yine de modelleme sürecinin bir parçası olan çapraz doğrulama işlemini uygulayın.) Bir regresyon daha kolay yorumlanır, ancak bazı işler için yorumlama en önemli amaç olmayabilir.