Konuşma tanıma için bir video dosyasından ses klipleri ayıklarım. Bu videolar mobil / diğer el yapımı cihazlardan geliyor ve bu nedenle çok fazla gürültü içeriyor. Sesin arka plan gürültüsünü azaltmak istiyorum, böylece konuşma tanıma motoruma ilettiğim konuşmanın netleşmesini istiyorum. Bunların hepsini yapmak için ffmpeg kullanıyorum, ancak gürültü azaltma aşamasında sıkışıp kaldım.
Şimdiye kadar filtreleri izlemeyi denedim:
ffmpeg-20140324-git-63dbba6-win64-static\bin>ffmpeg -i i nput.wav -filter_complex "highpass=f=400,lowpass=f=1800" out2.wav
ffmpeg -i i nput.wav -af "equalizer=f=1000:width_type=h:width=900:g=-10" output.wav
ffmpeg -i i nput.wav -af "bandreject=f=1200:width_type=h:width=900:g=-10" output.wav
Ancak sonuçlar çok hayal kırıklığı yaratıyor. Akıl yürütmem, konuşma 300-3000 hz aralığının altına geldiğinden, herhangi bir arka plan gürültüsünü bastırmak için diğer tüm frekansları filtreleyebilirim. Neyi kaçırıyorum?
Ayrıca, konuşma geliştirmeleri için kullanılan ve bulunamadı Weiner filtreleri hakkında okumak bu ama emin nasıl kullanılacağını duyuyorum.