Veri setim vektör dizilerinden oluşuyor. Her vektörün 50 gerçek değerli boyutu vardır. Bir sekanstaki vektörlerin sayısı 3-5 ila 10-15 arasındadır. Başka bir deyişle, bir dizinin uzunluğu sabit değildir.
Bazı adil sekanslar (vektörler değil!) Bir sınıf etiketi ile açıklanır. Benim görevim, bir dizi vektör verilen bir sınıflandırıcıyı öğrenmek, tüm dizi için sınıf etiketi hesaplanır.
Verilerin kesin doğasını söyleyemem ama dizilerin doğası zamansal değildir. Bununla birlikte, vektörü , etiketi değiştirmeden vektörü ile değiştirilemez ( ). Başka bir deyişle, vektörlerin sırası önemlidir. Vektörlerin kendileri karşılaştırılabilir, örneğin bir nokta ürünü hesaplamak ve bu benzerlik değerini kullanmak mantıklıdır.
Sorum şu: bu tür verileri sınıflandırmaya yardımcı olabilecek araçlar / algoritmalar nelerdir?
GÜNCELLEME: Veriler, bir veya çok az vektörün sınıf etiketini güçlü bir şekilde etkileyeceği bir özelliğe sahiptir.
OLASI ÇÖZÜM: Bazı araştırmalardan sonra, Tekrarlayan Sinir Ağları (RNN) faturaya doğal olarak uyuyor gibi görünüyor. Kapsayıcı fikir, bir bağlam boyutu seçmek , sözcük vektörlerini birleştirmek, maksimum havuzlama yapmak ve bunu klasik NN üzerinden beslemektir. Bir cümledeki olası her bağlam penceresi konumunda, bir özellik vektörü oluşturulur. Nihai özellik vektörü, örneğin maksimum havuzlama kullanılarak oluşturulur. Geri çoğaltma, ağın parametrelerini ayarlamak için yapılır. Zaten bazı olumlu sonuçlar aldım (GPU bir zorunluluktur).