Vektör dizilerinin sınıflandırılması


9

Veri setim vektör dizilerinden oluşuyor. Her vektörün 50 gerçek değerli boyutu vardır. Bir sekanstaki vektörlerin sayısı 3-5 ila 10-15 arasındadır. Başka bir deyişle, bir dizinin uzunluğu sabit değildir.

Bazı adil sekanslar (vektörler değil!) Bir sınıf etiketi ile açıklanır. Benim görevim, bir dizi vektör verilen bir sınıflandırıcıyı öğrenmek, tüm dizi için sınıf etiketi hesaplanır.

Verilerin kesin doğasını söyleyemem ama dizilerin doğası zamansal değildir. Bununla birlikte, vektörü , etiketi değiştirmeden vektörü ile değiştirilemez ( ). Başka bir deyişle, vektörlerin sırası önemlidir. Vektörlerin kendileri karşılaştırılabilir, örneğin bir nokta ürünü hesaplamak ve bu benzerlik değerini kullanmak mantıklıdır.xbenxjbenj

Sorum şu: bu tür verileri sınıflandırmaya yardımcı olabilecek araçlar / algoritmalar nelerdir?

GÜNCELLEME: Veriler, bir veya çok az vektörün sınıf etiketini güçlü bir şekilde etkileyeceği bir özelliğe sahiptir.

OLASI ÇÖZÜM: Bazı araştırmalardan sonra, Tekrarlayan Sinir Ağları (RNN) faturaya doğal olarak uyuyor gibi görünüyor. Kapsayıcı fikir, bir bağlam boyutu seçmek , sözcük vektörlerini birleştirmek, maksimum havuzlama yapmak ve bunu klasik NN üzerinden beslemektir. Bir cümledeki olası her bağlam penceresi konumunda, bir özellik vektörü oluşturulur. Nihai özellik vektörü, örneğin maksimum havuzlama kullanılarak oluşturulur. Geri çoğaltma, ağın parametrelerini ayarlamak için yapılır. Zaten bazı olumlu sonuçlar aldım (GPU bir zorunluluktur).k

Yanıtlar:


3

Çok fazla ayrıntı açıklayamadığınız için cevabımda biraz genel olmak zorundayım. Umarım yine de yardımcı olacaktır. Her şeyden önce, daha sonra sınıflandırma için ihtiyacınız olan bilgileri kaybetmediğinizden emin olabilirseniz, sadece sınıflamadan önce dizileri azaltmayı düşünürüm (nokta ürünü veya başka bir şey kullanarak olsun). Bu nedenle, bu yaklaşım sadece sınıflamanın doğası hakkında bir fikir sahibi olmanız durumunda mümkündür. Basit bir örnek vermek gerekirse: sınıf etiketi yalnızca dizinizdeki vektörlerin sayısı ise, nokta etiketinden sınıf etiketini tahmin etmede çok başarılı olmazsınız.

Bu nedenle, tam diziyi sınıflandırma için bir girdi olarak alır ve dikkate almak istediğiniz dizi uzunluğuna bir maksimum dayatırım. Bunu ilk önce egzersiz setinizde maksimum dizi uzunluğu m'yi bulup, ardından 50 boyutlu vektörlerin her bir dizisini 50 * m boyutundaki bir vektöre dönüştürerek, muhtemelen dizinizde yoksa bazı eksik değerler olacak şekilde yapabilirsiniz. maksimum uzunluk. Muhtemelen bu eksik değerlerden kurtulmak isteyeceksiniz ve bunları sıfırlarla değiştirmek isteyebilirsiniz.

Buradan gidebileceğiniz iki yol vardır: 1.) Yüksek boyutlara uygun olduğu bilinen sınıflandırma yöntemlerini doğrudan uygularsınız. Saf Bayes gibi çok fazla ayarlama gerektirmeyen basit bir şey deneyin. Bu şekilde, bu yaklaşımın çok fazla zaman kaybetmeden uygulanabilir olup olmadığını görebilirsiniz. 2.) Önce boyutu azaltmaya ve sınıflandırmanın doğasını daha iyi anlamaya çalışıyorsunuz. Temel bileşenler analizi veya her vektör bileşeni ile sınıf etiketi arasındaki korelasyon / ilişki gibi bir şey kullanmak isteyebilirsiniz. Başarılı olursanız, sınıflandırma uygulamadan önce girdinizin boyutunu nasıl uygun bir şekilde azaltacağınızı bilirsiniz.

Bu fikirlerden herhangi birini takip etmek isterseniz, verilerinizin ve sınıflandırmanın somut ayrıntılarının yukarıda önerilen fikirlerden herhangi birini gerçekleştirilemez hale getirebileceğini lütfen unutmayın. Bu nedenle, zamanınızı boşa harcamadığınızdan emin olmaya çalışmadan önce bildiğiniz ancak burada yayınlayamayacağınız ayrıntıları kontrol etmeye dikkat edin.


0

Veriler, bir veya çok az vektörün sınıf etiketini güçlü bir şekilde etkilediği bir özelliğe sahiptir.

En iyi (ve en kolay) yaklaşım muhtemelen her bir vektör üzerinde bir sınıflandırıcıyı eğitmek ve daha sonra belirli bir dizi için vektörler arasındaki tahminleri ortalamak olacaktır. Önemli vektörler tahminlerinde güçlü bir şekilde etkili olurken, önemsiz vektörler için tahminler 0,5'e yakın olacaktır (veya ikili olmayan bir sınıflandırma problemi için benzer olacaktır).


Pek sayılmaz. Özellikle önemli bilgileri olmayan çok sayıda vektörünüz varsa .. Bu rotaya gidiyorsanız kesinlikle LSTM kullanın :)
pir
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.