bu beni bir süredir ilgilendiren bir soru, çünkü esasen mevcut bir konuşma tanıma sistemi için gürültü azaltma üzerinde çalışıyorum.
Gürültü azaltma teknikleriyle ilgili makalelerin çoğu, konuşmanın insanlar için nasıl daha anlaşılır hale getirileceğine veya "konuşma kalitesi" gibi belirsiz terimlerin nasıl geliştirileceğine odaklanıyor gibi görünüyor.
Eminim, böyle kriterler kullanarak, gürültülü konuşma sinyallerinin insanlar için daha kolay dinlenmesini sağlayan filtreleri tanımlayabilirsiniz. Ancak, konuşma tanıma sisteminin doğruluğunu artırmak için seslendirilmiş konuşma sinyallerini değerlendirmeye çalışırken bu kriterlerin basitçe uyarlanabileceğinden emin değilim.
Gerçekten bu farkı tartışan yazılar bulamıyorum. Konuşma anlaşılırlığı ve konuşma kalitesi, konuşma tanıma sistemlerinin doğruluğu ile ilişkili midir? Bir konuşma tanıma sistemi için sesli konuşma sinyalinin ne kadar "iyi" olacağını, örneğin orijinal temiz konuşma da verilmişse, değerlendirebilecek nesnel önlemler var mı? Ya da gürültü azaltma tekniğinizin ne kadar iyi olduğunu öğrenmenin, konuşma tanıma sistemini sesli veriler üzerinde eğitmenin ve doğruluğa bakmanın tek yolu mu?
Birisi beni doğru yöne yönlendirebilirse veya belki de bunu tartışan bazı makaleler verebilirse mutlu olurum. Şimdiden teşekkürler!