SVM ve Rastgele Orman için normalleştirme yapmak şart mı?

29

Benim özelliklerin 'her boyutu farklı değerlere sahip. Bu veri setini normalleştirmek için gerekli olup olmadığını bilmek istiyorum.

— user22062
kaynak

29

Sorunuzun cevabı, hangi benzerlik / mesafe işlevini kullanmayı planladığınıza bağlıdır (SVM'lerde). Basit (ağırlıksız) Öklid mesafesi ise, o zaman verilerinizi normalleştirmezseniz, bazı özelliklere diğerlerinden daha fazla önem vermektesiniz.

Örneğin, ilk boyutunuz 0-10 arasında ve ikinci boyut 0-1 arasındaysa, birinci boyuttaki 1 farkı (aralığın sadece onda biri) mesafe hesaplamasında çılgınca farklı iki değer kadar katkıda bulunur. ikinci boyut (0 ve 1). Yani bunu yaparak, ilk boyuttaki küçük farklılıkları abartıyorsunuz. Elbette özel bir mesafe fonksiyonu ile gelebilir veya bir uzmanın tahmiyle boyutlarınızı ağırlıklandırabilirsiniz, ancak bu, verilerinizin boyutuna bağlı olarak çok sayıda ayarlanabilir parametreye yol açacaktır. Bu durumda normalleştirme daha kolay bir yoldur (her ne kadar ideal olmasa da), çünkü en azından başlayabilirsiniz.

Son olarak, hala SVM'ler için yapabileceğiniz başka bir şey, bir uzaklık işlevi yerine benzerlik işleviyle gelip onu bir çekirdek olarak takmaktır (teknik olarak bu işlev pozitif kesin matrisler üretmelidir). Bu işlev istediğiniz herhangi bir şekilde oluşturulabilir ve özellik aralıklarındaki eşitsizliği dikkate alabilir.

Öte yandan rastgele ormanlar için, bir özellik hiçbir zaman diğer özelliklerle hiçbir zaman büyük ölçüde karşılaştırılmadığından, aralıklar önemli değildir. Bu, her aşamada ayrılan bir özelliğin aralığıdır.

— Ansari
kaynak

12

Rastgele Orman, bireysel özelliklerin monotonik dönüşümleri için değişmez. Çeviriler veya özellik başına ölçeklendirme, Rastgele Orman için hiçbir şeyi değiştirmeyecek. Bazı özelliklerin diğerlerinden çok daha önemli olduğunu bilmediğiniz sürece, özellikleriniz kabaca aynı büyüklüğe sahipse, SVM muhtemelen daha iyisini yapar; bu durumda daha büyük bir büyüklüğe sahip olması iyi bir şeydir.

— rrenaud
kaynak