Neden güç veya kütük dönüşümleri makine öğrenmede çok fazla öğretilmiyor?


24

Makine öğrenmesi (ML), doğrusal ve lojistik regresyon tekniklerini yoğun olarak kullanır. Ayrıca özellik mühendislik teknikleri (güvenir feature transform, kernelvs.).

Neden hiçbir şey hakkında variable transformation(örneğin power transformation) ML belirtilen? (Örneğin, özelliklere kök veya günlük alma hakkında hiçbir zaman duymadım, genellikle polinomları veya RBF'leri kullanıyorlar.) Benzer şekilde, ML uzmanları neden bağımlı değişken için özellik dönüşümleri ile ilgilenmiyorlar? (Örneğin, y'nin log dönüşümünü almayı asla duymam; sadece y'yi dönüştürmezler.)

Düzenlemeler: Belki soru kesinlikle değil, benim asıl sorum şu: "ML'de önemli olmayan değişkenlere güç dönüşümü mü?"


4
Bunun neden reddedildiğini bilmek istiyorum; bu aslında ilginç bir soru.
shadowtalker

1
Bence çoğu insan ilk ML kursundan önce lineer bir regresyon kursu almış olacaktı. Şüphesiz, stok LR kursu bu konularla ilgili bir bölüm içerecektir (dönüşümler). BTW, soruyu küçümsemedim.
kullanıcı603,

Yanıtlar:


12

Kitap Uygulamalı Tahmini Modelleme Kuhn ve Johnson tarafından Box-Cox dahil değişken dönüşümü üzerinde büyük bölümü olan saygın pratik makine öğrenme kitap. Yazarlar, özelliklerin simetrik ve tek biçimli dağılımları varsa, birçok makine öğrenme algoritmasının daha iyi çalıştığını iddia etmektedir. Bu gibi özellikleri dönüştürmek, "özellik mühendisliği" nin önemli bir parçasıdır.


8

Benim kendi bakış açımdan, çoğu zaman sadece koşullu ortalamadan ziyade, cevap değişkeninin öngörülen dağılımına ilgi duyuyorum ve bu durumda hedef dağılımı daha doğru temsil eden bir olasılık kullanmak daha iyidir. Mesela, vektör regresyonunu desteklemek yerine ( dize) çekirdekli doğrusal modelleri kullanmayı seviyorum , çünkü istersem bir Poisson olasılığını kullanabilirim. Bir çok makine öğrenen kişi Bayesalı olduğundan, farklı bir olasılık kullanmanın dönüşümlerden daha şık görüneceğinden şüpheleniyorum (uygun bir olasılık seçmek genellikle ilk adımdır).


0

İşte benim sonradan düşüncelerim.

Bence ML, büyük ölçüde sınıflandırma ile ilgileniyor ve sınıflamanın y'yi (y kategorik) dönüştürmeye gerek yok. ML genellikle büyük bağımsız değişkenlerle uğraşır (örneğin, NLP’deki binlerce) ve lojistik regresyon normalliği gerektirmez; Sanırım bu yüzden Box-Cox güç dönüşümünü hız dikkate almıyorlar. (not: Güç dönüşümüne aşina değilim.)

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.