Geçici veriler için örüntü tanıma


9

Konuşma dışı sesleri tespit etmeye ve sınıflandırmaya çalışıyorum. Şu anda, aradığım özellikler olarak eğitim seslerinden bir dizi hareketli örtüşen güç spektrumu kullanıyorum.

Analiz yaptığımda, özelliklerin sayısı aynı olacak şekilde aynı miktarda örtüşen spektrumları hesaplıyorum. Şu anda performans çok iyi değil, sadece sessizliği vs sessizliği algılayabilir.

Bu tür sinyal algılama için hangi teknikler vardır? Endişelerimden biri, zaman alanındaki farklı uzunluklardaki sesler için, aynı sınıflandırıcıyı kullanamayacağım özellik vektörlerinin farklı uzunluklarına neden olacağıdır.

Yanıtlar:


3

Konuşmayı konuşmamaya karşı mı tespit etmeye çalışıyorsunuz, yoksa ayrımcılık yapmaya çalıştığınız konuşma dışı ses sınıfları var mı? Sorunuzdan net değilim.

İyi bir ilk yaklaşımın sinyalinizi çerçevelere bloke etmek ve Mel-Frekans Cepstral Katsayılarını (MFCC'ler) ve delta-MFCC'leri (bitişik çerçevelerin MFCC'leri arasındaki farklar) ve delta-delta MFCC'leri (MFCC'ler arasındaki farklar) hesaplamak olacağını düşünüyorum. birbirinden iki kare olan karelerde). Bunu yapmanın tek yolu bu değil, ancak sorun etki alanı hakkında daha spesifik bilgi olmadan, bu muhtemelen başlamak için iyi bir yerdir.

Sadece googling, MFCC'leri zaten bilmiyorsanız nasıl hesaplanacağınıza dair iyi bir referans vermelidir. Temel olarak DFT'yi alırsınız, büyüklükleri alırsınız, insan işitmesine karşılık gelen üçgen pencerelerin içindeki enerjileri hesaplar, bu katsayıların DCT'sini esasen bir sıkıştırma adımı olarak alırsınız ve daha sonra genellikle sadece ilk oniki katsayıyı alarak yüksek dereceli katsayıları atarsınız . Bu yazıda DCT adımının anlamı hakkında bir açıklama var: MFCC ayıklama işleminde DCT adımını nasıl yorumlayabilirim?

Diyelim ki bu katsayıları bir SVM için özellikler olarak kullanabilirsiniz.


2

Genelde sonsuza dek süren bir konuşma algılama sorununa baktığınızı ve şimdiye kadar bunu yapmanın sayısız yöntemi olduğunu düşünüyorum. Öyle görünüyor Bu yazıda orada başlamak isteyebilirsiniz böylece örneğin, aynı zamanda, spektral teknikleri kullanır. İyi bir eski Google araması, makalelere ve makalelere bağlantılar içeren birçok sonuç döndürür.

Genel olarak, konuşma algılamaya iki farklı yaklaşım vardır. Biri iyi bir konuşma-gürültü oranı varsayımına izin verir (ses ortam gürültüsü, müzik, diğer alakasız içerikten daha yüksek) ve diğeri bu varsayımlarda bulunmaz ve çok gürültülü sinyallerde (gömülü konuşma) tanımlamaya çalışır gürültü, ses). Hangisini yapmaya çalıştığınıza bağlı olarak, çok farklı makalelere bakacaksınız. Sorunuzu biraz açıklığa kavuşturuyor ve üzerinde çalıştığınız konuşma sinyallerinin türlerini ayrıntılı bir şekilde açıklarsanız, bu site daha fazla yardımcı olabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.