Ses sınıflandırması için özellik çıkarma

16

Bir ses dosyasından özellikleri ayıklamak ve sesi belirli bir kategoriye ait olarak sınıflandırmaya çalışıyorum (örneğin: köpek kabuğu, araç motoru vb.). Aşağıdaki konularda netlik istiyorum:

1) Bu hiç yapılabilir mi? Konuşmayı tanıyan ve farklı köpek kabuğu türleri arasında ayrım yapabilen programlar vardır. Ancak bir ses örneği alabilecek ve sadece nasıl bir ses olduğunu söyleyebilecek bir programa sahip olmak mümkün mü? (Başvurulması gereken çok sayıda ses örneği içeren bir veritabanı olduğunu varsayın). Giriş ses örnekleri biraz gürültülü olabilir (mikrofon girişi).

2) İlk adımın ses özelliği çıkarma olduğunu varsayıyorum. Bu makalede MFCC'lerin çıkarılması ve bir makine öğrenme algoritmasına beslenmesi önerilmektedir. MFCC yeterli mi? Genel olarak ses sınıflandırması için kullanılan başka özellikler var mı?

Zaman ayırdığınız için teşekkür ederim.

— Kevin Martin Jose
kaynak

15

Uzun atış ile yapılabilir - ne ölçüde? Göreceksin. Çevresel ses sınıflandırmasının bu görevi çok iyi çalışılmamıştır. Ayrıca, makine öğrenme paradigması seçimi de çok önemlidir - istatistiksel yaklaşım veya belki de ikili sınıflandırıcı? GMM'ler, ANN'ler ve SVM'ler ile başlayabilirsiniz - GMM'leri ve ANN'leri tercih ederim.
Evet, insanların çoğu MFCC'leri kullanıyor çünkü insanların gerçekten duydukları ile iyi ilişkililer ve hiç kimse o zamandan beri daha iyi bir şey bulamadı. MPEG-7 tanımlayıcıları gibi ek özellikler de eklemek isteyebilirsiniz. Uygun özellik optimizasyonu gerçekleştirilmelidir, çünkü bazen özellikle ayrılamazken çok fazla özelliğe ihtiyacınız olmaz. Daha fazla bilgi için lütfen önceki yanıtlarıma bakın:

Spektrumdan özellik çıkarma

MFCC çıkarımı

Seslerin tespiti

— jojek
kaynak

Cevabımı akşam saatlerinde genişleteceğim.

— jojek

hala genişletilmiş cevap bekliyor ...

— Nithin

Akşam ...

— jojek

4

Sözel olmayan Ses (çevresel olarak bırakalım), görüntüler, konuşma, metin gibi medya türlerini öğrenen ana akış makinesinin küçük kardeşi gibi görünüyor.

Sorunuzu cevaplamak için belirli bir sesi tanımlamak üzere bir ağ eğitmek mümkün mü? Evet öyle! Ancak aynı nedenlerle makine öğrenmenin zor olması zordur.

Ancak, Audio'yu gerçekten tutan şey ve neden görüntüleri ve konuşmaya küçük kardeşim diyorum, Audio'nun büyük ölçekli etiketlenmiş veri kümesinin olmaması. Konuşma için TIMIT vardır, Görüntüler için birkaç ImagenNet, CIFAR, Caltech vardır, Metin ve Doğal Dil İşleme için çok sayıda literatür vb.

Bildiğim kadarıyla, sözsüz insan etiketli en büyük iki ses veri seti, gerçekten derin öğrenme yaklaşımları için yasaklayıcı şekilde küçük olan UrbanSounds ve ESC-100 veri kümeleridir. Bu veri kümelerinde 2 katmanlı ConvNet'ler kullanılarak yayınlanan bazı karışık sonuçlar vardır.

MFCC özellikleri, genel olarak konuşma tanıma ve ses analizinde iyi kurulmuş bir temel özellik temsilidir. Ama tonlarca başka ses özelliği temsili var! Bu makale , ses özellikleri türlerinin hoş bir sınıflandırmasını vermektedir.

Son zamanlarda gördüğüm ses sınıflandırmasını yapan en heyecan verici çalışma DeepMind'de WaveNet adı verilen bazı insanlar tarafından yapılıyor .

— beeCwright
kaynak

3

İşte 10 sınıf için ses sınıflandırması için bir çözüm: köpek havlaması, araba kornası, oynayan çocuklar vb. Sinir ağları kullanan tensorflow kütüphanesine dayanır. Ses kliplerini spektrograma dönüştürerek özellikler çıkarılır

— abggcv
kaynak

3

sadece bağlantı bir cevap olarak yeterince iyi değil.

— Gilles

Evet, lütfen bağlantının söylediklerini genişletin.

— Peter K.

2

Ancak yine de bağlantı için teşekkürler.

— Kevin Martin Jose

Aslında ben de bağlantı sağlanan öğretici kullanılan teknikler hakkında daha fazla anlamaya çalışıyorum. Bilgisayar görme ve görüntü işleme görevlisi olduğum için ses sinyalleri konusundaki bilgim çok sınırlı. Daha iyi bir anlayışa sahip olduğumda daha fazla cevap vermeye çalışacağım.

— abggcv

1

Evet, son derece yapılabilir. Her ne kadar NN'ler bu tür bir sınıflandırma eğitiminde mükemmel olsa da, gerekli olmayabilirler - iyi seçilmiş bir dizi özellik ile, sadece bir Gauss karışım modeli veya temel bileşen analizi gibi klasik kümeleme algoritmaları muhtemelen de . Modern kütüphaneler bu şeyleri zamanın yaklaşık% 95'ini veya daha fazlasını alabilirler.

— johnwbyrd
kaynak