Şarkılardaki matematik işlevlerini tanıma

DSP'de yeniyim ve bu StackExchange'i keşfettim, bu yüzden bu soruyu göndermek için doğru yer değilse özür dileriz.

Türleri daha matematiksel olarak tanımlayan bir kaynak var mı? Örneğin, şarkının bu bölümündeki sinyalde bir FFT gerçekleştirdiysem (bağlantı orada başlamazsa 2:09), bu bölümün bu kadar kaba olduğunu tespit edebilmemin herhangi bir yolu var mı? ses? Bunun gibi sesler, karşılaştırabileceğim bazı matematiksel işlevleri takip ediyor mu? http://www.youtube.com/watch?v=SFu2DfPDGeU&feature=player_detailpage#t=130s (bağlantı hemen ses çalmaya başlar)

Denetimli öğrenme tekniklerini kullanmanın tek yolu mu yoksa farklı bir yaklaşım var mı (tercihen denetleme gerektirmeyen)?

Herhangi bir tavsiye için teşekkür ederim.

— XSL
kaynak

Bir flüt karşısında bir davul vuruşunu tespit etmek için bir FFT kullanabilirsiniz, ancak türü tespit etmek için kullanamazsınız. Ses hakkında çok yerel şeyler, ama toplam dosyanın müzik karakteri değil.

— endolith

Sesin "pürüzlülüğünü" tanımak mümkün mü? MFCC'ler burada devreye giriyor mu?

— XSL

Bence aradığınız ayrım daha çok ampirik - teorik (süpervize ve süpervize değil) gibi, ama bu konuda yanlış olabilirim. Başka bir deyişle, ideal olan, bir şarkıyı [gerçek bir anlayış olmadan] sınıflandırmak için kullanılabilecek bir grup opak veri yerine, çeşitli türlerin teorik bir tanımına sahip olmak olacaktır.

Bununla birlikte, genel tür sınıflandırması için, en başta türlerin tanımlarını oluşturmak için bile olsa, en azından örneklerden eğitim almak zorunda kalırsınız. Örneğinizle ilgili olarak, insanların belirli bir parçanın gerçekten dubstep olup olmadığı konusunda [YouTube'da] ne sıklıkta tartışacağını düşünün (örneğin , tür herhangi bir gerçek yalpalama olmadan başlasa bile daha şüpheli ve daha az titrek olan herhangi bir parça ). İnsanlar zaman içinde türleri örneklerle tanımlarlar, bu nedenle bu davranışı yineleyen algoritmaların da bazı örnekler gerektirmesini beklemek mantıklıdır. İnsanların türleri tanımlama şekli neredeyse bir özellik vektörü gibidir neyse - şarkı hakkında soruların bir listesini soruyorlar (örneğin, daha kırılgan mı yoksa titrek mi? Çok fazla bas sesi var mı? Ne kadar sürecek? Tempo nedir? Vokal var mı? vb.).

Tabii ki, türün sezgisel bir şekilde anlaşılmasını sağlayan özelliklerin bir listesini de seçebilirsiniz. "Dinamik Aralık" gibi bir özellik, bir kişinin kulak tarafından da algılayabileceği bir şeydir, ancak "Zaman Etki Alanı Sıfır Geçişleri" gibi bir şey, sınıflandırma için iyi çalışıyor olsa bile çok sezgisel olmaz. Aşağıdaki makalede ilginizi çekebilecek birkaç özellik bulunmaktadır:

George Tzanetakis, Perry R. Cook: Ses sinyallerinin müzikal tür sınıflandırması. Konuşma ve Ses İşleme IEEE İşlemleri 10 (5): 293-302 (2002) bağlantısı .

Pürüzlülüğü ölçmek için, psikoakustik pürüzlülük başlamak için iyi bir yer olacaktır, ancak örneğin dubstep elektrotları ve elektro elektrotları ayırt etmek yeterli olmayabilir. İnce taneli ayrımlar için, bakılması gereken bir şey tını tanımadır . Aşağıdaki tez iyi bir teknik ankete sahiptir:

TH Park, “Otomatik müzik aleti tını tanımasına doğru” Ph.D. tez, Princeton Üniversitesi, NJ, 2004. link .

Ayrıca, Timbre, Tuning, Spectrum ve Ölçek'te algısal pürüzlülükle ilgili , keyfi tınılar için özel ölçekler oluşturmak için kullanılan bir model de vardır . Fikir, birbirine çok yakın olan harmoniklerin ahenksizlik olarak algılanan atım frekansları üretmesidir. Ek F ve E'den yapılan açıklamalı ifadeler ,

$F$ $f_1,f_2,...,f_n$

$D_{F} = 1 / 2 Σ_{ben = 1}^{n} Σ_{j = 1}^{n} d (\frac{| f_{ben} - f_{j} |}{min (f_{ben}, f_{j})})$ $D_F = 1/2 \space \sum_{i=1}^{n}{} \space \sum_{j=1}^{n}{\space d\left({|f_i - f_j| \over{\min(f_i,f_j)}} \right) }$
burada
$d (x) = e^{- 3.5 x} - e^{- 5,75 x}$ $d(x) = e^{-3.5 x} - e^{-5.75 x}$
Plomp-Levelt Eğrisinin bir modelidir .

Belirli bir akorun bir tınıya göre ne kadar hoş olduğunu ölçmek için kullanılır (uyumsuzluğu en aza indirerek). Psikoakustik çeşitliliğin pürüzlülüğünün veya içsel uyumsuzluğun kendi amaçlarınız için çok verimli olup olmayacağını bilmiyorum, ancak diğer metriklerle birlikte yararlı olabilirler.

Muhtemelen timbresleri türlerden daha fazla sınıflandırma şansınız olacaktır. Örneğin, dizgiler çift ve tek harmoniklere sahiptir, ancak bir klarnet sadece tek harmoniklere sahiptir (bkz. Testere dişi dalgası , Kare dalga ). Dubstep yalpalama LFO tahrikli filtrelerle (düşük geçişli ve / veya eski filtreler) yapılma eğilimindedir, bu nedenle Spectral Flux (yukarıdaki [Tzanetakis], bakınız) gibi bir özellik bir özellik olarak iyi bir başlangıç noktası olabilir. Ancak, hiç kimse henüz yalpalama matematiksel sınıflandırma çalışmış şüpheli;)

— datageist
kaynak

Datageist'ten mükemmel yanıt. Daha fazla bilgi ve kaynak kodlu bir dev platformu arıyorsanız , isophonics.net/QMVampPlugins'i de öneririm

— Dan Barry

@Dan Harika görünüyor, bu bağlantı için teşekkürler.

— datageist

Çalışmak için niş bir konu buldum! : D Parlak cevap ve bağlantılar için teşekkürler. Bana amaçsızca Google'ı kullanmaktan ziyade bir yöne işaret etti.

— XSL

Yardım sevindim :)

— datageist