Konuşmayı konuşmamaya karşı mı tespit etmeye çalışıyorsunuz, yoksa ayrımcılık yapmaya çalıştığınız konuşma dışı ses sınıfları var mı? Sorunuzdan net değilim.
İyi bir ilk yaklaşımın sinyalinizi çerçevelere bloke etmek ve Mel-Frekans Cepstral Katsayılarını (MFCC'ler) ve delta-MFCC'leri (bitişik çerçevelerin MFCC'leri arasındaki farklar) ve delta-delta MFCC'leri (MFCC'ler arasındaki farklar) hesaplamak olacağını düşünüyorum. birbirinden iki kare olan karelerde). Bunu yapmanın tek yolu bu değil, ancak sorun etki alanı hakkında daha spesifik bilgi olmadan, bu muhtemelen başlamak için iyi bir yerdir.
Sadece googling, MFCC'leri zaten bilmiyorsanız nasıl hesaplanacağınıza dair iyi bir referans vermelidir. Temel olarak DFT'yi alırsınız, büyüklükleri alırsınız, insan işitmesine karşılık gelen üçgen pencerelerin içindeki enerjileri hesaplar, bu katsayıların DCT'sini esasen bir sıkıştırma adımı olarak alırsınız ve daha sonra genellikle sadece ilk oniki katsayıyı alarak yüksek dereceli katsayıları atarsınız . Bu yazıda DCT adımının anlamı hakkında bir açıklama var: MFCC ayıklama işleminde DCT adımını nasıl yorumlayabilirim?
Diyelim ki bu katsayıları bir SVM için özellikler olarak kullanabilirsiniz.