Boyutsal azalmanın tersine bir yöntem var mı?


9

Makine öğrenimi alanında yeniyim ancak sinyal işleme konusunda payımı aldım. Bu sorunun yanlış etiketlenmiş olup olmadığını lütfen bize bildirin.

En az üç değişkenle tanımlanan iki boyutlu verilerim var, oldukça doğrusal olmayan model benzetmek için çok karmaşık.

PCA ve ICA (python kütüphanesi Scikit-Learn) gibi yöntemleri kullanarak verilerden iki ana bileşeni ayıklamada çeşitli başarı düzeylerine sahibim, ancak bu yöntem (veya en azından yöntemlerin bu şekilde uygulanması) sınırlı görünüyor verilerde boyutlar olduğu kadar çok bileşenin çıkarılması, örneğin bir 2D nokta bulutundan 2 bileşen.

Verileri çizerken, eğitilmiş göz için üç farklı doğrusal eğilim olduğu açıktır , üç renk çizgisi yönleri gösterir.

veri grafiği

PCA kullanılırken, ana bileşen renk çizgilerinden birine hizalanır ve diğeri beklendiği gibi 90 ° 'dir. ICA kullanılırken, birinci bileşen mavi çizgi ile hizalanır ve ikincisi kırmızı ve yeşil olanlar arasında bir yerdedir. Sinyalimdeki her üç bileşeni de yeniden üretebilecek bir araç arıyorum.

EDIT, Ek bilgi: Ben burada daha büyük bir faz düzleminin küçük bir alt kümesinde çalışıyorum. Bu küçük alt kümede, her giriş değişkeni düzlemde doğrusal bir değişiklik üretir, ancak bu değişikliğin yönü ve genliği doğrusal değildir ve tam olarak çalıştığım daha büyük düzlemde nereye bağlı olduğuna bağlıdır. Bazı yerlerde, değişkenlerin ikisi dejenere olabilir: aynı yönde değişim üretir. örneğin, modelin X, Y ve Z'ye bağlı olduğunu varsayalım. X değişkenindeki bir değişiklik mavi çizgi boyunca bir varyasyon üretecektir; Y yeşil çizgi boyunca bir değişikliğe neden olur; Z, kırmızı olan boyunca.


3
Eğer doğru anlarsam, aradığınız kavram gömülüdür . Yukarı bak çekirdek yöntemleri ve çekirdek PCA özellikle.
Emre

1
Bundan emin değilim, bu yüzden cevap olarak göndermiyorum. Nöral ağ modelinde, gizli katman boyutluluğu> giriş katmanı boyutluluğunu koruyabilirsiniz. Ardından gizli katmanı başka bir ağa / modele girdi olarak kullanabilirsiniz. Ancak bunu yapmak çok fazla veri gerektirir.
Azrael

En az üç değişkenle tanımlanan 2 boyutlu veri dediğinizde, 'değişken' terimini ne anlamda kullanıyorsunuz? Sınıflar uygun bir ikame olur mu? PCA'nın verilerden maksimum varyant boyutları çıkardığını belirtmek gerekir, bu mutlaka uygulanacak en ayrımcı dönüşüm değildir. Kümelenmeye baktınız mı?
image_doctor

Modelin doğrusal olmama durumu hakkında bir şey biliyor musunuz? Benzetmek için çok karmaşık olsa da, en çok derece 3 polinomlardan oluştuğunu bilmek özellik mühendisliğini önemli ölçüde kısıtlar, örneğin 3. derece polilerin tümünü ekleyebilir ve daha sonra PCA'yı 3D'ye geri döndürebilirsiniz.
AN6U5

Verilerimin türevi üzerinde çekirdek PCA kullanılmasını öneren bir istatistikçi arkadaşımla görüştüm , çünkü yamaçları arıyorum. Türev sayısını "özellik mühendisliği" olarak kabul eder misiniz?
PhilMacKay

Yanıtlar:


8

Kısa cevap evet.

Aslında bir tür özellik mühendisliği yapacaksınız. Bu, verilerinizin bir dizi işlevini oluşturmak anlamına gelir, genellikle:

ϕj(x):RpR ,  j=1,...,K

Bu, birbirine bağlanmış, dönüştürülmüş bir veri vektörünü tanımlar ϕ(x)uzunluğu .K

Bunu yapmanın daha iyi ve daha kötü birkaç yolu vardır. Aşağıdaki gibi terimleri aramak isteyebilirsiniz:

  1. Kamalar ve genelleştirilmiş katkı modelleri.
  2. Çekirdek hilesi ( bir modeli nasıl yapılır ).K
  3. Özellik mühendisliği (manuel çeşitliliğin örn . Verilerinize sütunu ekleme ).x2
  4. Derin öğrenme, temsili öğrenme

Böyle çeşitli tekniklerden tahmin edebileceğiniz gibi, bu geniş bir alandır. Gerçekten söylemeye gerek yok ama aşırı takılmayı önlemek için özen gösterilmelidir.

Bu sunum Temsili Öğrenme: Bir Gözden Geçirme ve Yeni Perspektifler , derin bir öğrenme perspektifinden belirli bir özellik setini 'iyi' yapan şeylerle ilgili bazı konuları ele almaktadır.


-2

Sanırım yeni özellikler çıkaran özellikler arıyorsun. Veri kümesini en iyi temsil eden özellik. Bu durumda, böyle bir yöntem "özellik çıkarma" diyoruz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.