Girdi verilerinde özellik dönüşümü


22

Bu OTTO Kaggle mücadelesinin çözümü hakkında okuyordum ve ilk etapta çözüm giriş verileri X için birkaç dönüşüm kullanıyor gibi görünüyor, örneğin Log (X + 1), sqrt (X + 3/8), vb. Çeşitli sınıflandırıcılara hangi tür dönüşümlerin ne zaman uygulanacağı hakkında genel bir kılavuz?

Ortalama-var ve min-max normalizasyon kavramlarını anlıyorum. Bununla birlikte, yukarıdaki dönüşümler için tahminimce Log ve Sqrt, verilerin dinamik aralığını sıkıştırmak için kullanılıyor. Ve x ekseni kayması sadece verileri tekrarlamak içindir. Bununla birlikte, yazar farklı sınıflandırıcılara beslenirken aynı X girişi için farklı normalizasyon yöntemleri kullanmayı seçer. Herhangi bir fikir?


1
Ne tür formüller önerebileceği hakkında hiçbir fikriniz yok, ancak değişkenler için üsler öneren box-cox dönüşümlerine bakmak isteyebilirsiniz.
anymous.asker

Yanıtlar:


19

Normal formu seviyoruz

Çoğu durumda normal görünmelerini sağlamaya çalışırız. Sınıflayıcı değil bakış açısı, ancak özellik çıkarımı!

Hangi Dönüşüm ?

Bir dönüşüm seçiminde ana kriter şudur: verilerle ne işe yarar? Yukarıdaki örneklerde belirtildiği gibi, iki sorunun yanı sıra dikkate alınması önemlidir.

Fiziksel (biyolojik, ekonomik, her neyse), örneğin değerler çok küçük veya çok büyük hale geldikçe, davranışları sınırlandırma anlamında mantıklı olan şey nedir? Bu soru genellikle logaritma kullanımına yol açar.

Boyutları ve birimleri basit ve kullanışlı tutabilir miyiz? Mümkünse, düşünmesi kolay ölçüm ölçeklerini tercih ediyoruz.

Bir birimin küp kökü ve bir alanın karekökü hem uzunluk boyutlarına sahiptir, hem de karmaşık meselelerden uzakta, bu tür dönüşümler onları basitleştirebilir. Karşılıklılar genellikle daha önce de belirtildiği gibi basit birimlere sahiptir. Bununla birlikte, çoğu zaman, biraz karmaşık birimler yapılması gereken bir fedakarlıktır.

Ne Kullanmalı ?

Giriş veri analizinde en kullanışlı dönüşümler karşılıklı, logaritma, küp kökü, karekök ve karedir. Bundan sonra, vurgulanmadığında bile, dönüşümlerin sonuç olarak gerçek sayıları (sonlu) verdikleri aralıklar üzerinde kullandığı varsayılmaktadır.

  • Karşılıklı : Karşılıklı, x ile 1 / x arası, negatif karşılıklı, x ile -1 / x arasındaki kardeşi ile, dağıtım şekli üzerinde sert bir etkisi olan çok güçlü bir dönüşümdür. Sıfır değerlere uygulanamaz. Negatif değerlere uygulanabilse de, tüm değerler pozitif olmadıkça faydalı değildir. Oranın tersi, oranın kendisi kadar kolay bir şekilde yorumlanabilir: Örnek:
    • nüfus yoğunluğu (birim alandaki kişi) kişi başına alan oluyor
    • doktor başına kişi kişi başına doktor olur
    • erozyon oranları, birimin derinliğini yıpratma zamanına dönüşür

(Uygulamada, yönetilmesi kolay olan sayıları elde etmek için karşılıklılık alma sonuçlarını 1000 veya 10000 gibi bir sabitle çarpmak veya bölmek isteyebiliriz, ancak bunun çarpıklık veya doğrusallık üzerinde bir etkisi yoktur.)

Karşılıklı işaret, aynı işaretin değerleri arasındaki sırayı tersine çevirir: en büyüğü en küçüğüdür, vb.


  • Logaritma : Logaritma, x log 10 x veya x log ex veya ln x veya x log 2 x, dağılım şekli üzerinde büyük etkisi olan güçlü bir dönüşümdür. Yaygın olarak sağ çarpıklığı azaltmak için kullanılır ve sıklıkla ölçülen değişkenler için uygundur. Sıfır veya negatif değerlere uygulanamaz. Logaritmik ölçekte bir birim, kullanılan logaritma tabanının çarpımı anlamına gelir. Üstel büyüme veya düşüş.

    • y=aexp(bx)

lny=lna+bxx=0y=aexp(0)=a böylece a, x = 0 olduğunda miktar veya sayıdır. daha yavaş ve daha yavaş bir oranda azalır (örneğin, radyoaktif bozulma).


  • Güç fonksiyonları :
  • y=axblogy=loga+blogx
    x=0b>0

  • y=axb=0

    • Uygulamada p ve q değerlerinin pozitif olduğu y = p / q oranlarını düşünün.
  • Örnekler:

    • Erkekler kadınlar
    • Bağımlılar / İşçiler
    • Aşağı akış uzunluğu / Downvalley uzunluğu
  • O zaman y, 0 ile sonsuz arasında ya da son durumda, 1 ile sonsuz arasındadır. Eğer p = q, o zaman y = 1 ise. Bu tanımlar genellikle çarpık veriye yol açar, çünkü net bir alt limit vardır ve net bir üst limit yoktur. Ancak, logaritma

  • log y = log p / q = log p - log q, sonsuz ve sonsuz arasında bir yerdedir ve p = q log y = 0 anlamına gelir. Dolayısıyla, böyle bir oranın logaritmasının daha simetrik olarak dağılmış olması muhtemeldir.


  • Küp kökü : Küp kökü, x 1/3 . Bu, dağıtım şekli üzerinde önemli bir etkisi olan oldukça güçlü bir dönüşümdür: logaritmadan zayıftır. Aynı zamanda doğru eğriliği azaltmak için kullanılır ve sıfıra ve negatif değerlere uygulanabilmesi avantajına sahiptir. Birimin küp kökünün uzunluk birimlerine sahip olduğunu unutmayın. Genellikle yağış verisine uygulanır.

    • Negatif değerlere uygulanabilirlik özel bir not gerektirir.
      (2) (2) (2) = 8 ve (-2) (-2) (-2) = -8'i düşünün . Bu örnekler,
      negatif bir sayının küp kökünün negatif işarete ve
      eşdeğer pozitif sayının küp köküyle aynı mutlak değere sahip olduğunu göstermektedir. Benzer bir özellik, gücü
      tek bir pozitif tamsayının karşılığı olan herhangi bir kök tarafından ele geçirilir (güçler 1/3, 1/5, 1/7, vb.)

    • Bu özellik biraz hassastır. Örneğin, gücü 1 / 3'den yalnızca bir smidgen olarak değiştirin ve sonucu artık kesin olarak üç terimin ürünü olarak tanımlayamıyoruz. Bununla birlikte, mülk yararlı olması durumunda sömürülmek üzeredir.


  • x(1/2)

  • x2

    y=a+bx+cx2



    kuadratikler tipik olarak yalnızca
    veri bölgesinde bir ilişkiyi taklit edebildiklerinden kullanılır . Bu bölgenin dışında
    çok kötü davranabilirler, çünkü x'in aşırı değerleri için keyfi olarak büyük değerler üstlenirler ve a kesesi 0 olmakla sınırlı değilse, orijinale gerçek dışı yakın davranabilirler.
    • (x)2x2


yazı için teşekkürler. gerçekten faydalı. Orijinal veriyi ayrı veriye nasıl dönüştürdüğünü gösteren bazı örnekler ve rakamlarla destekleyebilir misiniz?
Mvkt

1
@svk: Sadece anlaşılabilir bir biçimde biçimlendirdim, bence cevabı yazan kişi Mehdi'nin. Tahminim doğruysa, bir kitaptan kopyalamış olabilir. Bakalım cevap veriyor mu, bir şey mi öneriyor? Başka bir cevap
yazardı

2
@ Toros91’in dediği gibi, bu farklı kaynakların bir birleşimidir, Veri Bilimi Yarışması Nasıl Kazanılır: En İyi Kagglers’tan ve stata belgelerinden
hadi gharibi

alrite. biriniz, lütfen x eksenlerini sq.root veya küp kök skalasına dönüştürmek için python veya matlab'da bazı örnek kodlar yayınlayabilir. matlab log ölçeği için loglog arsa var. ama diğer ölçekler için, bu dönüştürülmüş eksenlerle bir komplo kurmak yararlı olacaktır
Mvkt

1

Bu spesifik olanlar saf sezgisel olabilir. Oldukça standart olmasına rağmen görüntüler için: RGB'yi BGR olarak değiştirin ve ortalamayı her pikselden çıkarın. Bu Imagenet, Pascal VOC, MS COCO gibi tüm yarışmalarda / veri kümelerinde kullanılır. Bunun nedeni, tüm görüntüler çok farklı olabileceği için, ağın standart bir veri seti ile sunulmasıdır.


0

Burada aynı - hiçbir fikrim yok, bunu daha önce görmedim. Sanırım farklı dönüşümler denediler ve en iyi olanı seçtiler. Raporda bu yana bazı diğer dönüşümlerin de iyi olacağını söylüyorlar.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.