Bu soruna bir cevap ararken, bu tahtanın bu soruyu Stack Overflow'dan geçmeye karar verdim .
Sayısal olarak ifade edilen bir ses kesimi ile bir insan sesi arasındaki benzerliği belirlemek için bir yöntem arıyorum.
Biraz aradım, ancak şimdiye kadar bulduğum şey (aşağıda ayrıntılı olarak) gerçekten ihtiyacım olana uymuyor:
Bir yöntem, bir ses segmentinden kelime elde etmek için konuşma tanıma yazılımı kullanmaktır . Bununla birlikte, bu yöntem sesin insan konuşmasına ne kadar "benzer" olduğunu ortaya koyamaz; genellikle seste kelimeler olup olmadığını söyleyebilir, ancak kesin kelimeler yoksa, sesin bu tür sözlere sahip olduğunu söyleyemez.
Örnekler: CMU Sfenks , Yusufçuk , SHoUTDaha umut verici olan yönteme Ses Etkinliği Algılama (VAD) adı verilir. Bununla birlikte, bu aynı problemlere sahip olma eğilimindedir: VAD kullanan algoritmalar / programlar, aktivite eşiğine ulaşılıp ulaşılmadığına geri dönme eğilimindedir ve bu eşikten önce veya sonra "benzerlik" değeri yoktur. Alternatif olarak, çoğu insan sesine benzerlik değil, sadece hacim arar.
Örnekler: Speex , Dinleyici , FreeSWITCH
Herhangi bir fikir?