Bence aradığınız ayrım daha çok ampirik - teorik (süpervize ve süpervize değil) gibi, ama bu konuda yanlış olabilirim. Başka bir deyişle, ideal olan, bir şarkıyı [gerçek bir anlayış olmadan] sınıflandırmak için kullanılabilecek bir grup opak veri yerine, çeşitli türlerin teorik bir tanımına sahip olmak olacaktır.
Bununla birlikte, genel tür sınıflandırması için, en başta türlerin tanımlarını oluşturmak için bile olsa, en azından örneklerden eğitim almak zorunda kalırsınız. Örneğinizle ilgili olarak, insanların belirli bir parçanın gerçekten dubstep olup olmadığı konusunda [YouTube'da] ne sıklıkta tartışacağını düşünün (örneğin , tür herhangi bir gerçek yalpalama olmadan başlasa bile daha şüpheli ve daha az titrek olan herhangi bir parça ). İnsanlar zaman içinde türleri örneklerle tanımlarlar, bu nedenle bu davranışı yineleyen algoritmaların da bazı örnekler gerektirmesini beklemek mantıklıdır. İnsanların türleri tanımlama şekli neredeyse bir özellik vektörü gibidir neyse - şarkı hakkında soruların bir listesini soruyorlar (örneğin, daha kırılgan mı yoksa titrek mi? Çok fazla bas sesi var mı? Ne kadar sürecek? Tempo nedir? Vokal var mı? vb.).
Tabii ki, türün sezgisel bir şekilde anlaşılmasını sağlayan özelliklerin bir listesini de seçebilirsiniz. "Dinamik Aralık" gibi bir özellik, bir kişinin kulak tarafından da algılayabileceği bir şeydir, ancak "Zaman Etki Alanı Sıfır Geçişleri" gibi bir şey, sınıflandırma için iyi çalışıyor olsa bile çok sezgisel olmaz. Aşağıdaki makalede ilginizi çekebilecek birkaç özellik bulunmaktadır:
George Tzanetakis, Perry R. Cook: Ses sinyallerinin müzikal tür sınıflandırması. Konuşma ve Ses İşleme IEEE İşlemleri 10 (5): 293-302 (2002) bağlantısı .
Pürüzlülüğü ölçmek için, psikoakustik pürüzlülük başlamak için iyi bir yer olacaktır, ancak örneğin dubstep elektrotları ve elektro elektrotları ayırt etmek yeterli olmayabilir. İnce taneli ayrımlar için, bakılması gereken bir şey tını tanımadır . Aşağıdaki tez iyi bir teknik ankete sahiptir:
TH Park, “Otomatik müzik aleti tını tanımasına doğru” Ph.D. tez, Princeton Üniversitesi, NJ, 2004. link .
Ayrıca, Timbre, Tuning, Spectrum ve Ölçek'te algısal pürüzlülükle ilgili , keyfi tınılar için özel ölçekler oluşturmak için kullanılan bir model de vardır . Fikir, birbirine çok yakın olan harmoniklerin ahenksizlik olarak algılanan atım frekansları üretmesidir. Ek F ve E'den yapılan açıklamalı ifadeler ,
Ff1, f2, . . . , fn
DF= 1 / 2 Σ i = 1n Σj = 1n d( | fben- fj|dk. ( fben, fj))
burada
d( x ) = e- 3,5 x- e- 5.75 x
Plomp-Levelt Eğrisinin bir modelidir .
Belirli bir akorun bir tınıya göre ne kadar hoş olduğunu ölçmek için kullanılır (uyumsuzluğu en aza indirerek). Psikoakustik çeşitliliğin pürüzlülüğünün veya içsel uyumsuzluğun kendi amaçlarınız için çok verimli olup olmayacağını bilmiyorum, ancak diğer metriklerle birlikte yararlı olabilirler.
Muhtemelen timbresleri türlerden daha fazla sınıflandırma şansınız olacaktır. Örneğin, dizgiler çift ve tek harmoniklere sahiptir, ancak bir klarnet sadece tek harmoniklere sahiptir (bkz. Testere dişi dalgası , Kare dalga ). Dubstep yalpalama LFO tahrikli filtrelerle (düşük geçişli ve / veya eski filtreler) yapılma eğilimindedir, bu nedenle Spectral Flux (yukarıdaki [Tzanetakis], bakınız) gibi bir özellik bir özellik olarak iyi bir başlangıç noktası olabilir. Ancak, hiç kimse henüz yalpalama matematiksel sınıflandırma çalışmış şüpheli;)